HiFox 帮助文档
  1. 创建 / 自定义应用
HiFox 帮助文档
  • 欢迎使用 HiFox
  • 探索应用商店
  • 创建 / 自定义应用
    • 创建应用
    • 对话智能体
    • 知识库
  • 应用集成
    • API 最佳实践
      • 接入火山引擎 DeepSeek API
      • 接入阿里云百炼 DeepSeek API
      • 接入硅基流动 DeepSeek API
      • 接入华为云 DeepSeek API
  • 其他资料
    • 调整 AI 模型语气
  • 条款
    • 服务条款
    • 隐私政策
    • 安全措施
  • 私有化部署
    • 私有化部署咨询
  • 常见问题
    • HiFox 中的 Credits 是什么?
    • 如果 AI 响应异常,会扣除 Credit 吗?
    • 如何查看 Credit 消耗记录?
    • 为什么我的账户被冻结了?
  1. 创建 / 自定义应用

知识库

概述#

HiFox 的知识库能够上传外部数据(如本地文件、在线网站数据),让你的机器人通过生成式 AI 生成回答。增强了大语言模型(LLMs)对上下文的理解,帮助你的机器人更精准地回应询问。

应用场景#

个人助手: 如果想拥有自己的专属顾问机器人,可以将几十页的相关信息导入 HiFox 知识库供机器人使用。
知识补充: 如果你想要创建一个虚拟角色与用户交流时,可以收集并保存真实人物的知识,让机器人学习。机器人会通过向量检索出最相关的内容片段,并模仿真实人物的语言风格与用户交流。
用户服务: 将常见的产品问题添加到知识库中后,机器人就能利用这些知识准确回答用户的问题。

创建知识库#

知识库由一个或多个存储数据的文档组成,每个文档包含多个知识片段。片段是独立的信息块或特定的内容单元。当进行查询时,机器人会通过对这些片段进行向量搜索,找到最相关的答案或信息。
在「应用创作台」中,点击顶部的 「知识库」 标签,进入知识库页面。
创建知识库
点击 「创建知识库」,进入数据源选择页面。
进入知识库看数据源

上传文件#

通过拖放或选择文件进行上传。批量上传所允许的最大文件数量取决于你的订阅计划。
提示
数据源文件越大,在文档嵌入过程中消耗的 Credit 越多,请合理规划。

预处理与数据清洗#

将内容上传到知识库后,需要进行分段和数据清洗。这个阶段可理解为内容的预处理和结构化。
分段: 大语言模型(LLMs)的上下文窗口有限,通常需要将整个文本进行分段,然后根据用户问题找到最相关的片段。另外,合适的片段大小有助于在将用户问题与文本片段进行语义匹配时,找到最相关的文本内容并减少信息噪音。
数据清洗:为了确保文本召回的质量,通常需要在将数据输入模型之前进行清洗。否则输出不必要字符或空白行会影响响应的质量。
预处理与数据清洗
你可以选择「自动分段与清洗数据」或「自定义」分段方式。
自动分段与清洗数据:系统将根据默认的预处理规则自动对上传的内容进行分段和处理。
自定义:使用所需的方法和处理规则创建片段。
片段标识符:选择用于创建片段的标识符。
最大片段长度:设置每个片段的最大字符数。
文本预处理规则:选择处理内容的选项。

处理数据#

在数据处理过程中,模型会被调用进行嵌入操作,消耗的 Credits 会根据上传文件的大小和分段设置而有所不同。
处理数据
在数据处理过程中,可以点击「确认」退出页面,而不影响向量化过程。

维护知识库#

要提高知识库召回和语义匹配的准确性,就需要经常更新与维护知识库。
在「知识库」页面可以查看已创建知识库的相关信息。
维护知识库
在「知识库」页面,点击其中的知识库就能进入其详情页面。
知识库详情页面
在知识库详情页面,可以看到以下内容:
知识层面 :当前知识库的大小、文档数量和分段数量。
点击添加文件,可向该知识库上传新数据。
在右侧的・・・部分,您可以对现有知识库的内容重新分段。
文档层面 :所选文档的分段信息和命中次数。
可以在当前文档内搜索片段。
片段层面: :每个片段的文本范围、字数和命中次数。
如果需要修改某个片段,可以进行编辑。
维护知识库

在聊天机器人中使用知识库#

在聊天机器人编辑器的知识库模块中,只需点击「添加」并选择指定的知识库即可完成添加。
在聊天机器人中使用知识库

召回设置#

根据当前聊天机器人,配置知识库召回设置,调整基于知识库回复的效果。
召回设置
调用方式:可以选择是「每轮聊天自动召回」,还是根据需要「从特定知识中召回」。
自动调用: :机器人将在每次对话自动从知识库中召回段落。
搜索策略 :从知识库中检索数据的方法,可以使用不同的检索策略有效地定位信息,确保生成的答案更准确实用。
综合排序: 利用全文搜索和语义搜索的优势,对结果进行综合排序。
语义 :基于向量的文本相关性搜索。建议在需要理解语义相关性和跨语言搜索的场景中使用。
全文:基于关键词的全文搜索。建议在搜索特定名称、首字母缩写词、短语或 ID 的场景中使用。
最大召回数:从知识中返回给大语言模型的最大段落数。数值越大,返回的内容越多。
最小匹配度 :根据设定的匹配度选择段落并返回给大语言模型。匹配度低于设定阈值的内容将不会被召回。

运行性能#

可以点击 “已用知识” 查看知识库中被命中和召回的片段。
修改于 2025-03-04 04:01:06
上一页
对话智能体
下一页
接入火山引擎 DeepSeek API
Built with