知识库是 DataWind AI 能力的重要模块,提供知识管理和知识问答功能。本文为您介绍知识库创建功能,包括知识库内容上传、知识库召回测试以及知识库上线。
知识库创建功能支持用户上传本地文件,包含文本、表格、代码、网页等数据。用户需按步骤完成选择数据源、分段设置、数据处理的操作上传知识库内容,然后进行知识库召回测试,通过测试后即可上线知识库用于知识问答。
后续还将支持上传飞书文档、网页地址等新内容,进一步拓展知识库内容导入渠道。
进入「项目中心」-「知识库」模块,点击「创建知识库」。
注意
“个人” 标签仅创建者可见可用、问答时仅其能召回对应知识,“公共” 标签所有用户可见可用、问答时所有用户均可能召回对应知识,而 “官网”“系统” 标签仅系统管理员有权限修改,普通用户无感知。
上传的知识库需要进行分段处理,合理的分段与精准的检索设置是提升文本分析效率和结果准确性的关键环节。
以下将从分段设置、文本预处理规则、检索设置三个核心模块,为您详细介绍分段设置步骤。
选择分段设置。可选择自动分段清洗或自定义分段。用户可根据文本结构复杂度与处理需求自由切换,同时支持实时预览分段效果,确保分段符合预期。
对比项 | 自动分段与清洗 | 自定义分段 |
|---|---|---|
介绍 | 无需用户手动设置任何分段规则,系统将基于文本语义逻辑、自然段落结构自动完成分段与冗余信息清洗,减少人工操作成本。 | 需用户自主定义分段规则,通过设置分段标识符、文本块大小等参数,精准控制分段粒度,适配结构化或有特定格式要求的文本。 |
场景 |
|
|
自定义分段参数说明:
参数 | 说明 |
|---|---|
分段标识符 | 默认为
|
文本块大小 | 默认为128。表示单个分段的最大字符长度,控制分段粒度。 |
分段重叠度 | 设置相邻分段的重叠字符长度,用于保留分段间的语义关联(如 “人工智能发展” 在分段 1 末尾与分段 2 开头重叠,避免语义断裂),建议值为 “文本块大小的 10%-25%”。 注意 不支持 json、csv/excel 格式文本设置分段重叠度。 |
选择文本预处理规则,去除冗余信息、统一文本格式。目前支持如下的文本预处理规则,支持多选。
\n)、制表符(\t)替换为单个空格,避免因格式混乱导致的分段或检索误差。https://www.xxx.com)和电子邮箱地址(如xxx@xxx.com),适用于需剔除无效信息、聚焦核心文本内容的场景。刷新预览块,查看分段效果。打开「预览窗口」,在配置完成「分段设置」和「文本预处理规则」后。可点击「刷新预览块」,在右侧预览窗口中查看分段效果。
检索设置。检索设置通过调整权重、筛选数量与相似度阈值,控制系统返回的文本片段与用户问题的匹配度,确保检索结果精准、高效。
参数 | 说明 |
|---|---|
权重设置 | 定义文本 “语义” 与 “关键词” 的权重占比,两者权重之和固定为 1(如语义权重 0.7 + 关键词权重 0.3):
|
Top K | 用于筛选与用户问题相似度最高的文本片段数量,系统会结合选用模型的 “上下文窗口大小” 动态调整分段数量(避免超出模型处理能力)。 |
Score 阈值 | 设置文本片段筛选的 “相似度阈值”,用于过滤低相似度的无关片段。 |
配置好「分段设置」内容后,点击「确认创建」。
等待数据处理界面出现「已完成」标识,点击「完成」。
即可跳转到知识库管理页面,利用上传的知识库进行管理知识库或知识库问答操作。
知识库提供了召回测试功能,支持用户测试知识召回效果。
点击「知识库召回测试」,在召回测试输入框中输入相关问题,点击「测试」,右侧将会显示召回的Top K 结果。在输入框下方还可查看针对此知识库的召回记录。
对于召回的段落,也可点击「打开」,查看详细内容,验证召回效果。
如果用户想要调整召回段落数量,可以点击「倒排索引」,调整倒排索引的值,取值区间为[1, 10],步长为1,取值越小,召回的相关段落越少;取值越大,召回的相关段落越多。
用户创建的知识库默认为「已启用」状态,经过召回测试后,如果召回效果满足需求,则可以直接利用该知识库进行知识库问答操作。