HiFox 的知识库能够上传外部数据(如本地文件、在线网站数据),让你的机器人通过生成式 AI 生成回答。增强了大语言模型(LLMs)对上下文的理解,帮助你的机器人更精准地回应询问。应用场景#
个人助手: 如果想拥有自己的专属顾问机器人,可以将几十页的相关信息导入 HiFox 知识库供机器人使用。
知识补充: 如果你想要创建一个虚拟角色与用户交流时,可以收集并保存真实人物的知识,让机器人学习。机器人会通过向量检索出最相关的内容片段,并模仿真实人物的语言风格与用户交流。
用户服务: 将常见的产品问题添加到知识库中后,机器人就能利用这些知识准确回答用户的问题。
创建知识库#
知识库由一个或多个存储数据的文档组成,每个文档包含多个知识片段。片段
是独立的信息块或特定的内容单元。当进行查询时,机器人会通过对这些片段进行向量搜索,找到最相关的答案或信息。在「应用创作台」中,点击顶部的 「知识库」 标签,进入知识库页面。上传文件#
通过拖放或选择文件进行上传。批量上传所允许的最大文件数量取决于你的订阅计划。数据源文件越大,在文档嵌入过程中消耗的 Credit 越多,请合理规划。
预处理与数据清洗#
将内容上传到知识库后,需要进行分段和数据清洗。这个阶段可理解为内容的预处理和结构化。分段: 大语言模型(LLMs)的上下文窗口有限,通常需要将整个文本进行分段,然后根据用户问题找到最相关的片段。另外,合适的片段大小有助于在将用户问题与文本片段进行语义匹配时,找到最相关的文本内容并减少信息噪音。
数据清洗:为了确保文本召回的质量,通常需要在将数据输入模型之前进行清洗。否则输出不必要字符或空白行会影响响应的质量。
你可以选择「自动分段与清洗数据」或「自定义」分段方式。自动分段与清洗数据:系统将根据默认的预处理规则自动对上传的内容进行分段和处理。
处理数据#
在 数据处理过程中,模型会被调用进行嵌入操作,消耗的 Credits 会根据上传文件的大小和分段设置而有所不同。在数据处理过程中,可以点击「确认」退出页面,而不影响向量化过程。维护知识库#
要提高知识库召回和语义匹配的准确性,就需要经常更新与维护知识库。在「知识库」页面,点击其中的知识库就能进入其详情页面。知识层面 :当前知识库的大小、文档数量和分段数量。在右侧的・・・
部分,您可以对现有知识库的内容重新分段。
片段层面: :每个片段的文本范围、字数和命中次数。 在聊天机器人中使用知识库#
在聊天机器人编辑器的知识库
模块中,只需点击「添加」并选择指定的知识库即可完成添加。召回设置#
根据当前聊天机器人,配置知识库召回设置,调整基于知识库回复的效果。调用方式:可以选择是「每轮聊天自动召回」,还是根据需要「从特定知识中召回」。自动调用: :机器人将在每次对话自动从知识库中召回段落。
搜索策略 :从知识库中检索数据的方法,可以使用不同的检索策略有效地定位信息,确保生成的答案更准确实用。综合排序: 利用全文搜索和语义搜索的优势,对结果进行综合排序。
语义 :基于向量的文本相关性搜索。建议在需要理解语义相关性和跨语言搜索的场景中使用。
全文:基于关键词的全文搜索。建议在搜索特定名称、首字母缩写词、短语或 ID 的场景中使用。
最大召回数:从知识中返回给大语言模型的最大段落数。数值越大,返回的内容越多。最小匹配度 :根据设定的匹配度选择段落并返回给大语言模型。匹配度低于设定阈值的内容将不会被召回。运行性能#
可以点击 “已用知识” 查看知识库中被命中和召回的片段。