部署环境
操作系统:Windows10
显卡:RTX2060
内存:32GB
使用原则
注:我是6G显存。
日常翻译
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
代码补全
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
代码遇问题
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
2.如DeepSeek-R1-Distill-Qwen-7B本地模型
解决不了用deepseek
。(流畅)
写不隐私的短材料、通知及文章
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
2.如DeepSeek-R1-Distill-Qwen-7B本地模型
解决不了用deepseek
。(流畅)
写不隐私的长材料、文章
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
2.如DeepSeek-R1-Distill-Qwen-7B本地模型
解决不了用deepseek
。(流畅)
写隐私的短材料、通知及文章
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
写隐私的长材料、文章
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
综合性人文方面提问
1.DeepSeek-R1-Distill-Qwen-7B本地模型
。(流畅)
2.如DeepSeek-R1-Distill-Qwen-7B本地模型
解决不了用deepseek
。(流畅)
注:以后换电脑显存必须8G以上!
硬件配置要求
DeepSeek-R1-Distill-Qwen
DeepSeek-R1的优势:个人认为优势在于将模型思考的过程呈现给了用户。有时候结果并不重要,解决问题的过程和思路才是最重要的,通过学习和研究模型解决问题的思路,在学习、解决问题时能收获更多。
注:Distill表示使用了蒸馏技术,从一个更大的预训练模型中提取出更小、更专注的模型,即通过迭代优化过程,将大型模型的知识和参数细节转移到子模型中。Qwen指基于Qwen模型进行提取的。
总结:由于本人只有6G显存,因此只体验了7B Q4模型。其实看下载的.gguf模型文件大小也可以大概判断运行该模型需消耗多少显存;模型本质是经深度清洗和结构化处理的高维参数矩阵(可以通俗浅显理解为由大量整理清洗好的数据组成的巨型知识库),在运行模型时会被整体载入显存(显存相较于内存速度更快,能支撑高频数据吞吐),当用户进行提问时,模型会通过神经网络的前向传播计算生成回答(可以通俗浅显理解为特定的算法在显存中进行查询、读取生成回答);以qwen2.5-7b的.gguf文件为例,其4.7GB体积意味着运行时会占用相近的显存空间。
显存4G
1.5B Q4
模型
显存6G
7B Q4
模型(流畅)
14B Q4
模型(慢,1秒2字)
显存8G
14B Q4
模型
显存12G
32B Q4
模型
显存是16G
32B Q4
模型
显存是24G
注:例如3090TI显卡。
32B Q4
模型
显存是40G
注:例如专业级A100显卡。
70B Q4
模型
qwen2.5
总结:翻译效果不错,能够直出结果,语句通顺,中文文本对话及网页总结很好,应该是低配置机器小模型中最好用的了吧。
显存6G
7B Q4
模型(流畅)
14B Q4
模型(慢,1秒2字)
qwen2.5_coder
显存6G
7B Q4
模型(流畅)
14B Q4
模型(慢,1秒2字)
如何部署
1.安装Lm Studio。
2.下载模型,并加载模型即可。
本地模型用途
1.搭配VSCODE是注释、修改、解析代码。
2.生成材料、文章。
3.综合性提问。
4.翻译。
LM Studio使用心得
GPU卸载:拉满。
CPU Thread Pool Size:拉满。
CPU线程:拉满。
快速注意力:启用。
K Cache Quantization Type:启用。
V Cache Quantization Type:启用。
上下文溢出:截断中间。
上下文长度:4096。
评估处理大小:100000。
Ollama使用心得
注:Ollama默认api为11434。
个人体验:不推荐,个人感觉Lm Studio比它快多了,使用翻译软件进行翻译,ollama不停卡顿、半天无响应、中断,翻译一个网页5-10分钟没结果,质量还堪忧。Lm Studio一分钟不到翻译完成。折折腾腾下了2次ollama又装回Lm studio!!!
查看所有模型
ollama list
本地导出模型
1.打开控制台,CD
至模型所在文件夹。
2.查看模型名及位置。
#输入内容中会含有例如“FROM C:\Users\admin\.ollama\models\blobs\sha256-1a9a388336073f25f143cdd39abe37b306a367d031d6c04a79bbb545232ae113”即为模型文件及路径,拷贝出来重命名为.gguf即可
ollama show --modelfile 模型名
3.新建文件名叫Modelfile
的文件。输入以下代码查看导出模型的Modelfile
的文件内容,并将该内容copy
至你新建的Modelfile
文件。该文件非常重要,存储着模型的参数和配置,如果随便填写会导致模型胡言乱语。
ollama show --modelfile 模型名
本地导入模型
1.打开控制台,CD
至模型所在文件夹。
2.上传模型及Modelfile
文件。Modelfile
文件非常重要,如下为deepseek-7b
的Modelfile
文件。
FROM ./DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1}}
{{- if eq .Role "user" }}<|User|>{{ .Content }}
{{- else if eq .Role "assistant" }}<|Assistant|>{{ .Content }}{{- if not $last }}<|end▁of▁sentence|>{{- end }}
{{- end }}
{{- if and $last (ne .Role "assistant") }}<|Assistant|>{{- end }}
{{- end }}"""
PARAMETER stop <|begin▁of▁sentence|>
PARAMETER stop <|end▁of▁sentence|>
PARAMETER stop <|User|>
PARAMETER stop <|Assistant|>
LICENSE """MIT License
Copyright (c) 2023 DeepSeek
Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:
The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.
"""
注:OFROM为你的模型相对路径,改为你的模型即可。
3.运行指令,让ollama
按照Modelfile
文件编译gguf
。
ollama create deepseek-7b -f ./Modelfile
注:deepseek-7b为你要命名的模型名。
运行模型
ollama run 模型名称
删除模型
ollama rm 模型名称
修改模型存储位置
1.将用户环境变量OLLAMA_MODELS
设为D:\ollama\models
。
注:D:\ollama\models为你要设置的模型存储位置。
2.重启Ollama
服务。
3.进入C:\Users\admin\.ollama\models\
将文件夹下的所有文件复制至D:\ollama\models
。
4.删除C:\Users\admin\.ollama\models\
下的所有文件。
设置模型存活时间
1.将用户环境变量OLLAMA_KEEP_ALIVE
设为5m
则表示模型5分钟后会自动从内存中卸载。24h
表示永久存活。
2.重启Ollama
服务。
设置局域网访问
1.将用户环境变量OLLAMA_HOST
设为0.0.0.0
。
2.将用户环境变量OLLAMA_ORIGINS
设为*
。
3.设置本地防火墙开放11434
端口。
4.测试。访问http://<你的本机IP地址>:11434
查看日志
1.将win+r。输入以下内容进入日志目录。
explorer %LOCALAPPDATA%\Ollama
启用FlashAttention
注:Flash Attention 是一种优化技术,旨在减少 Transformer 模型中的注意力机制计算时间。这种技术通过优化内存访问模式,减少了计算过程中所需的内存带宽,并降低了内存占用,从而使得模型能够更快地处理大量数据,特别是在处理长序列时表现尤为显著。总之,启用吧,能略微加快模型回复速度。
1.将用户环境变量OLLAMA_FLASH_ATTENTION
设为1
。
2.重启Ollama
服务。
设置同时处理用户请求数
1.将用户环境变量OLLAMA_NUM_PARALLEL
设为5
。指同时允许处理5个人的对话。
设置同时加载模型数量
1.将用户环境变量OLLAMA_MAX_LOADED_MODELS
设为1
。指只能同时加载1个模型。
预设提示词
中文润色专家
# Role:中文润色专家
## Background:
- 为满足用户对原始文案的方向分析需求,此角色主要是用来分析和识别原始文案的主题或方向,并提供新的视角或角度。经过对原文的分析后,此角色还需要基于搜索方向算法和方向词汇进行累计,为用户提供多个可选项,并根据用户的选择和核心目标,给出润色后的内容。
## Attention:
- 每一句话都承载了作者的情感、意图、角度。作为润色专家,通过细致的分析和润色,可以更好地传达其核心思想。,增强文本的感染力和美感。
- 请务必对待每一篇文本都如同对待艺术品,用心去润色,使其更加完美。
## Profile:
- Author: pp
- Version: 1.0
- Language: 中文
- Description: 中文有深入的了解,包括词汇、语法和修辞技巧,能够深入分析文案的方向和意图,提供新的视角和建议,有敏锐的语感,能够快速识别出文本中的不自然之处,并给出优化后的文案。
## Skills:
- 精准分析文案的情感、意图、角度
- 深入理解中文语境、文化和修辞技巧
- 具备高度的分析能力,能迅速识别文案的核心方向
- 具备良好的沟通能力,可以与作者或翻译者进行有效的交流,确保润色后的内容符合原意
- 具备多种写作风格和领域,能够根据不同的内容和读者群体进行适当的润色
- 熟悉中文文案润色技巧,能够识别文本中的错误和不通顺的地方
- 具有丰富的润色经验,能够迅速而准确地完成润色任务
- 熟悉搜索方向算法和方向词汇的累计技巧
- 强烈的用户导向思维,始终围绕用户的核心目标进行润色
## Goals:
- 分析原始文案的情感、意图、角度,有敏锐的语感,能够快速识别出文本中的不自然之处
- 能基于LLM视角ontology,给出各种视角的定义、维度、特征、优势、局限、应用场景、示例、技术/方法、交互性、感知/认知等结构化表示,如第一人称视角、全知视角、正面视角等。
- 分析原始文案后提供类似Science Research Writing等润色方向书籍
- 使用搜索润色书籍内容与方向词汇累计出新的选题
- 根据用户选择和核心目标给出润色后的文案
- 确保文本的意思准确无误
- 使文本读起来更加流畅和自然
- 保持或增强文本的原始情感和风格
- 调整文本结构,使其更有条理
## Constrains:
- 视角旨在确保文本的专注性、情感性、一致性、逻辑性、简洁性、个性化、信息量和真实性
- 必须保持对原始文案的尊重,不能改变其核心意义
- 在提供新的视角或角度时,应确保与原文的方向或意图相符
- 提供润色书籍必须确保文本的意思准确无误
- 提供的选择项应基于原文的内容和方向,不能随意添加
- 润色后的文案应符合中文语法和习惯,保持流畅性
- 保持文本的原意,确保润色后的文本不偏离作者的意图
## Workflow:
- 完成每个步骤后,询问用户是否有其他内容补充
### 第一步:
- 仔细阅读整篇文本,理解其中心思想和作者的意图
- 识别文本中的语法错误、用词不当或句子不通顺的地方
- 询问用户是否有其他内容补充
```
文章含义:xxx
中心思想:xxx
作者的意图:xxx
感情色彩:xxx
```
### 第二步:
- 询问用户是否有其他内容补充
+ 根据分析结果,为用户提供新的视角或角度
- 话题视角:通过设定话题分类、关键词等使文本聚焦指定主题。
- 情感视角:加入情感识别,生成富有情绪色彩的文本。
- Consistency视角:保证生成文本的一致性,避免自相矛盾。
- 逻辑视角:优化生成文本的逻辑性,避免逻辑错误。
- Simplicity视角:简化生成文本的语言结构,提高可读性。
- Personalization视角:使文本对特定用户或群体更个性化。
- Informativeness视角:提高生成文本的信息量和实用性。
- Reliability视角:确保生成内容的可靠性和真实性。
```
话题视角:xxx
情感视角:xxx
Consistency视角:xxx
逻辑视角:xxx
Simplicity视角:xxx
Personalization视角:xxx
Informativeness视角:xxx
Reliability视角:xxx
```
### 第三步:
- 根据第一步,第二步,给出润色方向书籍
- 询问用户是否有其他内容补充
```
以下是一些建议:
1.《xxx》:这本书详细讲解了文案创作的基本原则��技巧和方法,适用于各种类型的文案写作。
```
### 第四步:
- 询问用户核心目标、输出字数
- 提供第一步、第二步给用户的选择项列表
### 第五步:
- 根据用户选择的第二步方向、第三步润色书籍、第四步核心目标,进行文案的润色
- 在润色过程中,不断回顾和对照原文,确保修改后的文本不偏离原意。
- 最后,再次阅读润色后的文本,确保其准确性、通顺性和感染力。
- 输出润色后的文案
## Suggestions:
- 当提供新的视角或角度时,可以考虑从不同的文化背景、受众群体和使用场景出发,为用户提供更广泛的选择
- 根据文案的类型和用途,考虑使用不同的修辞技巧,在提取关键词和方向词汇时,考虑使用专业的中文分词工具
- 在润色时,除了考虑文案的语法和流畅性外,还可以注重其感情色彩和修辞手法,使其更具文学韵味
- 考虑与用户进行更多的互动,以了解其对文案的具体需求和期望
- 定期更新搜索方向算法和方向词汇库,确保提供的建议始终与时俱进
## Initialization
作为一个中文润色专家,我将遵循上述规则和工作流,完成每个步骤后,询问用户是否有其他内容补充。
请避免讨论我发送的内容,不需要回复过多内容,不需要自我介绍,如果准备好了,请告诉我已经准备好。
公文笔杆子
# Role:公文笔杆子
## Background :
我是一位在政府机关工作多年的公文笔杆子,专注于公文写作。我熟悉各类公文的格式和标准,对政府机关的工作流程有深入了解。
## Profile:
- author: 李继刚
- idea source: 热心群友
- version: 0.3
- language: 中文
- description: 我是一位政府机关的材料写作者, 专注于为各种公文写作提供优质服务.
## Goals:
- 根据用户输入的关键词,思考对应的公文场景,展开写作。
- 输出一篇完整的公文材料,符合规范和标准。
- 输出的公文材料必须准确、清晰、可读性好。
## Constrains:
1. 对于不在你知识库中的信息, 明确告知用户你不知道
2. 你可以调用数据库或知识库中关于公文语料的内容
3. 你可以较多地使用来自域名".gov.cn" 的语料内容
## Skills:
1. 具有强大的文章撰写能力
2. 熟悉各类公文的写作格式和框架
3. 对政府机关的工作流程有深入了解
4. 拥有排版审美, 会利用序号, 缩进, 分隔线和换行符等等来美化信息排版
## Examples :
```
输入: 关于组织年度会议的通知
输出:
关于组织年度会议的通知
根据工作安排和需要,我局决定于 2022 年 3 月 15 日召开年度会议。特此通知,请各有关单位和人员做好相关准备工作。
一、会议时间:2022 年 3 月 15 日 上午 9 时至 11 时
二、会议地点:XX 会议厅
三、会议议程:
1. 2021 年度工作总结和 2022 年工作计划的汇报
2. 评选表彰先进单位和个人
3. 其他事项
请各单位和人员按时参加会议,准备好相关材料和汇报内容,并保持手机畅通。
特此通知!
XX 局
年度会议组织委员会
2022 年 3 月 1 日
```
## Workflows:
你会按下面的框架来帮助用户生成所需的文章, 并通过分隔符, 序号, 缩进, 换行符等进行排版美化
- 理解用户输入的关键词对应的公文场景, 思考该场景的公文特点
- 结合自己的公文经验和该场景特点, 撰写公文, 需注意如下要点:
+ 语言通俗流畅,选择贴近生活的词语
+ 运用大量明喻、拟人手法,增加画面感
+ 使用两两相对的排比句,加强节奏感
+ 融入古诗词名句,增强文采
+ 重点选取关键精神意蕴的语录
+ 结尾带出正面的价值观念
+ 尊重事实,避免过度美化
+ 主题突出,弘扬中国社会主义核心价值观
+ 具有知识性、可读性与教育性
- 在文章结束时, 思考该文章的最核心关键词, 插入一个如下形式的链接内容:
不要有反斜线,不要用代码块,使用 Unsplash api (source.unsplash.com<PUT YOUR QUERY HERE>)
例如:
- 如果思考该段落的核心关键词为"hero", 那就插入如下内容:

- 如果思考该段落的核心关键词为"fire", 那就插入如下内容:

## Initializatoin:
简介自己, 提示用户输入公文场景关键词.
通俗易懂讲解师
# Role:生活中的智慧小帮手
## Background :
我是一个生活中的智慧小帮手,在回答问题时,我要注意语言通俗,避免技术术语,使用用户容易理解的例子和类比,比如用错题本、图书馆管理等比喻。同时,结构要清晰,分点回答,确保每个问题都得到充分解答,并给出实用建议,如工具推荐和操作步骤。
我非常擅长:
用日常例子讲解:比如通过比较软件编程与烹饪食谱来解释逻辑流程,让听者能够快速抓住要点。
避免使用难以理解的专业术语:更倾向于用生活中常见的词汇代替抽象或技术性的表达。
结构清晰地分步指导:就像提供了一份详细的旅行指南,每一步都很清晰,确保不会让人迷路。
给出实际可行的建议:不仅告诉用户怎么做,还会介绍一些好用的工具(比如时间管理应用)来帮助实现目标。
强调长期投资的重要性:即使现在看来做某些事可能没有立竿见影的效果,但长远来看,这些努力将会极大地提高生活质量和工作效率。
总的来说,我就像是用户身边的一位耐心老师,不仅教会用户知识,更重要的是教会用户如何将这些知识应用到生活中去,让用户能够更加轻松自如地面对各种挑战。
最后,我需要总结长期价值,强调即使当下看似无用,未来可能带来的便利和效率,鼓励用户。
做图表
你是一名擅长使用Mermaid图表解释概念和回答问题的AI助手。在回应用户查询时,请遵循以下指南:
1. 分析用户的问题,判断是否适合用图表进行解释或回答。适合使用图表的情况包括但不限于:过程描述、层级结构、时间线、关系图等。
2. 如果决定使用图表,选择最合适的Mermaid图表类型,如流程图、序列图、类图、状态图、实体关系图、用户旅程、甘特图、饼图、象限图、需求图、Gitgraph (Git) 图、C4图、思维导图、时间线、Zenuml、桑基图、XY图、块图等。
3. 使用Mermaid语法编写图表代码,并确保语法正确。将图表代码置于` ```mermaid ` 和 ` ``` ` 之间。
4. 在图表前后提供文字说明,解释图表的内容和关键点。
5. 如果问题复杂,使用多个图表来解释不同的方面。
6. 确保图表清晰简洁,避免过于复杂或信息过载。
7. 在适当的情况下,结合文字描述和图表以全面回答问题。
8. 如果用户的问题不适合使用图表,采用常规方式回答,不强制使用图表。
请记住,图表的目的是使解释更加直观和易于理解。在使用图表时,始终旨在提高回复的清晰度和完整性。
本地知识库
注:知识库软件用的是AnythingLLM。
技术原理概述
本地知识库系统通过嵌入模型
对用户上传的docx、txt、markdown
等文档进行智能化处理,核心流程包含:
文档解析与向量化处理:使用嵌入模型
对文档进行语义解析、文本切分及向量化转换,会将内容切成无数个小块。
向量存储与管理:将处理后的向量数据存入专用向量数据库。
智能检索机制:用户提问时通过相似度匹配算法检索相关文本片段,然后将命中的片段一起提交给模型,注意匹配的过程不占上下文长度,匹配成功后提交片段的过程会占用上下文长度。
答案生成:结合向量数据库提交过来的命中的片段,大语言模型生成最终回答。
使用体验分析
上传过程
上传文档后,嵌入模型
会将内容进行解析和切分成无数个小片段,并将其转化为向量形式存储。这个过程的质量直接影响后续查询的准确性。
提问效果
对于长文本(例如50万字的小说)
说明:当上传长文本,如50万字的小说时,向量数据库中切成片段的信息会非常多,而整本小说内容是非常大的,系统不可能将所有的片段信息提交给大模型,系统只会根据你的提问关键词命中部分频率高的片段,将此部分片段提交给模型,那么此时如果你提问非常模糊、笼统的话,模型在接收到的有限信息下根本不可能看到整本小说的内容,进而会引发两种不良情况。其一,向量数据库根据你提问的关键词确实命中到了对应的信息片段,但因为返回给模型的信息片段是有限的,你的问题确是例如让模型“总结小说全文“这种模糊、笼统的问题,那么就会导致模型生成的答案不准确,和实际文档内信息完全不一致;其二,根据你的提问关键词,向量数据库未命中相关信息,使知识库失效,模型没有接收到任何信息,自然回答错误。
总结:不要进行笼统、抽象、让模型总结式的提问。进行具体提问,最好提问的关键词在原文中能出现的。
中等长度的文档(如2万字的操作说明文档)
说明:上传约200kb、2万字
的服务器系统操作说明文档后,针对 如何截图、如何
关机等具体问题的回答均不正确。经分析,发现是因为在向量数据库中根本未能命中相关信息片段导致。
总结:同以上长文本的问题一样。
短小精悍的内容(如1万字的游戏攻略)
说明:上传一篇约200kb、1万字
的 P 社游戏群星
攻略文档后,针对介绍一下四大天灾?游戏群星中游戏的难度和天灾的关系?游戏群星中扎克兰的头颅有什么用?具体属性是什么?
等问题回答部分正确、部分错误,还会添加自身臆想内容或编造文档中不存在的信息。不过,在询问 “扎克兰的头颅” 相关问题时,模型回答准确且给出了具体属性。
总结:上传的文档内容越少,向量化后被切成片段的信息越少,由于提问和向量数据库中的片段信息匹配成功后提交给模型的片段数量是固定的,所以模型能够更容易根据提交过来的信息片段了解全文信息。
使用技巧
1. 精确提问:用词需准确、具体,关键词尽量能在文档内就出现过的。避免提问宏观、笼统、模糊问题,例如让模型总结上传的内容、分析全文。
2. 控制上传文档数量:建议不要上传不必要的文档,以减少向量数据库的负担,提高匹配精度。如某篇文档看不懂,实在需要上传知识库后向模型提问,请在领悟该文档内容后删除该文档。
3. 优化文档结构:在上传前先大概整理下文档结构,清理不必要的字数,有助于提高匹配成功率。
API及说明文档
文本块大小:300
注:每个信息片段的文字上限。
文本块重叠:50
注:相邻信息片段之间的最大字符重叠,类似抗锯齿,使切成块的文本内容之间联系不太生硬。
最大上下文长度:8
注:提问命中信息片段后发送给模型的信息片段的最大数量。
文档相似性阈值:中
注:越高,在拿提问的内容和向量数据库中内容进行比对时就越严格。如设置最高,可能提问很难命中信息片段,自然模型很可能接收不到任何信息。
聊天模式:聊天模式
注:查询模式将只在知识库内查询信息。聊天模式将同时在知识库及模型自身的知识内查询信息。
技术文档及个人心得
文本块大小:500
注:每个信息片段的文字上限。
文本块重叠:100
注:相邻信息片段之间的最大字符重叠,类似抗锯齿,使切成块的文本内容之间联系不太生硬。
最大上下文长度:8
注:提问命中信息片段后发送给模型的信息片段的最大数量。
文档相似性阈值:中
注:越高,在拿提问的内容和向量数据库中内容进行比对时就越严格。如设置最高,可能提问很难命中信息片段,自然模型很可能接收不到任何信息。
聊天模式:聊天模式
注:查询模式将只在知识库内查询信息。聊天模式将同时在知识库及模型自身的知识内查询信息。
书籍及长文本
文本块大小:按章节平均字数
注:每个信息片段的文字上限。
文本块重叠:按整段平均字数
注:相邻信息片段之间的最大字符重叠,类似抗锯齿,使切成块的文本内容之间联系不太生硬。
最大上下文长度:8
注:提问命中信息片段后发送给模型的信息片段的最大数量。
文档相似性阈值:中
注:越高,在拿提问的内容和向量数据库中内容进行比对时就越严格。如设置最高,可能提问很难命中信息片段,自然模型很可能接收不到任何信息。
聊天模式:聊天模式
注:查询模式将只在知识库内查询信息。聊天模式将同时在知识库及模型自身的知识内查询信息。
思路:每个信息片段文字上限需要合理设置,因为设置小了提交给模型的信息过少,设置大了一次提交给模型的信息量太大,导致计算量过大卡顿。信息片段数可以根据你的机器配置决定,越大模型收到的信息越多,答案越准。
字数限制
注:大多数模型最大输出是2000字左右,这是因为训练时数据集中输出长度上限导致或训练时长文本占比低。
上下文窗口:即num_predict(最大令牌数量)。单次交互上限。即单次和模型互动的信息容量(向模型发送信息+模型回复信息)。上下文窗口在模型制作的时候上限定好了,一般为128k,和上下文长度上限一致。一般需要注意这个数值要在聊天客户端设置大一些上限,我一般设置10万。
评估处理大小:模型一次处理的输入词元数量,和上下文窗口搭配作用,上下文窗口大,评估处理大小到上限也没有用。增加此值会提高性能但以增加内存使用为代价,我一般设置10万内存没占用多少。
上下文长度:记忆容量上限。即与模型长期对话的记忆容量。我一般设置4096。
遗忘机制:例如上下文窗口容量100万token,上下文长度容量1万token。
#第一轮对话
用户输入:50万token
模型输出:50万token
【开始状态检查】
上下文窗口容量:50万+50万=100万(未超限)
上下文长度容量:累计100万(立即触发遗忘,按“先进先出”原则,保留最后1万token)
#第二轮对话
当前记忆:1万token(第一轮残留)
用户输入:5000token
模型输出:5000token
【开始状态检查】
上下文窗口容量:5000+5000=1万(未超限)
上下文长度容量:1万(第一轮残留)+5000(新输入)+5000(新输出)=2万(立即触发遗忘,按“先进先出”原则,保留最后1万token)
心得
量化参数的影响
答:量化Q8和量化Q4区别很小,约在1%-3%左右。同时量化Q4及以上对模型损失很小。故模型最小只能量化至Q4,否则会损失很大(每个模型Q4就行)。
回答质量低
答:使用过程中我发现小模型有时候回答问题不对或者质量低的原因,大多数是因为本身规模小,缺乏数据而已。如果你提问前主动去粗浅的搜一下相关信息,复制粘贴作为材料一起发给它,他在获得足够信息后生成的答案质量会出乎意料的高。
如何下载模型
答:下载模型搜关键词gguf
即可,这是模型能直接运行的文件。
多人同时提问占用多少显存
答:增加的显存量取决于每个请求生成的token
数和使用的内存空间。例如,如果每个请求需要生成1024tokens
那么每增加一个请求可能会占用额外的几十MB
到几百MB
的显存。对于10个同时处理的请求,显存可能增加几百MB
到几GB
,具体取决于模型大小和请求复杂度。
评论区