知识库

概述

HiFox 的知识库能够上传外部数据（如本地文件、在线网站数据），让你的机器人通过生成式 AI 生成回答。增强了大语言模型（LLMs）对上下文的理解，帮助你的机器人更精准地回应询问。

应用场景

个人助手: 如果想拥有自己的专属顾问机器人，可以将几十页的相关信息导入 HiFox 知识库供机器人使用。

知识补充: 如果你想要创建一个虚拟角色与用户交流时，可以收集并保存真实人物的知识，让机器人学习。机器人会通过向量检索出最相关的内容片段，并模仿真实人物的语言风格与用户交流。

用户服务: 将常见的产品问题添加到知识库中后，机器人就能利用这些知识准确回答用户的问题。

创建知识库

知识库由一个或多个存储数据的文档组成，每个文档包含多个知识片段。片段是独立的信息块或特定的内容单元。当进行查询时，机器人会通过对这些片段进行向量搜索，找到最相关的答案或信息。

在「应用创作台」中，点击顶部的「知识库」标签，进入知识库页面。

点击「创建知识库」，进入数据源选择页面。

上传文件

通过拖放或选择文件进行上传。批量上传所允许的最大文件数量取决于你的订阅计划。

提示

数据源文件越大，在文档嵌入过程中消耗的 Credit 越多，请合理规划。

预处理与数据清洗

将内容上传到知识库后，需要进行分段和数据清洗。这个阶段可理解为内容的预处理和结构化。

分段: 大语言模型（LLMs）的上下文窗口有限，通常需要将整个文本进行分段，然后根据用户问题找到最相关的片段。另外，合适的片段大小有助于在将用户问题与文本片段进行语义匹配时，找到最相关的文本内容并减少信息噪音。

数据清洗:为了确保文本召回的质量，通常需要在将数据输入模型之前进行清洗。否则输出不必要字符或空白行会影响响应的质量。

你可以选择「自动分段与清洗数据」或「自定义」分段方式。

自动分段与清洗数据：系统将根据默认的预处理规则自动对上传的内容进行分段和处理。

自定义：使用所需的方法和处理规则创建片段。

片段标识符：选择用于创建片段的标识符。

最大片段长度：设置每个片段的最大字符数。

文本预处理规则：选择处理内容的选项。

处理数据

在数据处理过程中，模型会被调用进行嵌入操作，消耗的 Credits 会根据上传文件的大小和分段设置而有所不同。

在数据处理过程中，可以点击「确认」退出页面，而不影响向量化过程。

维护知识库

要提高知识库召回和语义匹配的准确性，就需要经常更新与维护知识库。

在「知识库」页面可以查看已创建知识库的相关信息。

在「知识库」页面，点击其中的知识库就能进入其详情页面。

在知识库详情页面，可以看到以下内容：

知识层面 ：当前知识库的大小、文档数量和分段数量。

点击添加文件，可向该知识库上传新数据。

在右侧的・・・部分，您可以对现有知识库的内容重新分段。

文档层面 ：所选文档的分段信息和命中次数。

可以在当前文档内搜索片段。

片段层面: ：每个片段的文本范围、字数和命中次数。

如果需要修改某个片段，可以进行编辑。

在聊天机器人中使用知识库

在聊天机器人编辑器的知识库模块中，只需点击「添加」并选择指定的知识库即可完成添加。

召回设置

根据当前聊天机器人，配置知识库召回设置，调整基于知识库回复的效果。

调用方式：可以选择是「每轮聊天自动召回」，还是根据需要「从特定知识中召回」。

自动调用: ：机器人将在每次对话自动从知识库中召回段落。

搜索策略 ：从知识库中检索数据的方法，可以使用不同的检索策略有效地定位信息，确保生成的答案更准确实用。

综合排序: 利用全文搜索和语义搜索的优势，对结果进行综合排序。

语义：基于向量的文本相关性搜索。建议在需要理解语义相关性和跨语言搜索的场景中使用。

全文：基于关键词的全文搜索。建议在搜索特定名称、首字母缩写词、短语或 ID 的场景中使用。

最大召回数：从知识中返回给大语言模型的最大段落数。数值越大，返回的内容越多。

最小匹配度 ：根据设定的匹配度选择段落并返回给大语言模型。匹配度低于设定阈值的内容将不会被召回。

运行性能

可以点击 “已用知识” 查看知识库中被命中和召回的片段。

概述#

应用场景#

创建知识库#

上传文件#

预处理与数据清洗#

处理数据#

维护知识库#

在聊天机器人中使用知识库#

召回设置#

运行性能#

概述

应用场景

创建知识库

上传文件

预处理与数据清洗

处理数据

维护知识库

在聊天机器人中使用知识库

召回设置

运行性能