You need to enable JavaScript to run this app.
导航
创建知识库
最近更新时间:2025.09.17 19:44:34首次发布时间:2025.09.17 19:44:34
复制全文
我的收藏
有用
有用
无用
无用

知识库是 DataWind AI 能力的重要模块,提供知识管理和知识问答功能。本文为您介绍知识库创建功能,包括知识库内容上传、知识库召回测试以及知识库上线。

功能概述

知识库创建功能支持用户上传本地文件,包含文本、表格、代码、网页等数据。用户需按步骤完成选择数据源、分段设置、数据处理的操作上传知识库内容,然后进行知识库召回测试,通过测试后即可上线知识库用于知识问答。
后续还将支持上传飞书文档、网页地址等新内容,进一步拓展知识库内容导入渠道。

功能入口

进入「项目中心」-「知识库」模块,点击「创建知识库」。
Image

上传本地文件

选择数据源

  1. 选择数据源类型为「本地文件」。拖拽或点击上传文件。上传成功的文件将会出现在「已上传文件中」。
    Image
    • 文件类型限制:支持上传 docx、doc、pdf、csv、xlsx、md、markdown、html、htm、json、txt、以及各种代码文件(go、py、js、java、c、cpp、h、php、ts、sh、cs、kt、sql)
    • 文件大小限制:每个文件不超过15.00 MB;
    • 文件数量限制:文件不超过5个。
  2. 输入知识库名称(仅支持中文、英文、数字、下划线的组合),选择标签为个人、公共、官网或系统,同时可选择输入知识库相关描述。设置好后点击「下一步」。

    注意

    “个人” 标签仅创建者可见可用、问答时仅其能召回对应知识,“公共” 标签所有用户可见可用、问答时所有用户均可能召回对应知识,而 “官网”“系统” 标签仅系统管理员有权限修改,普通用户无感知。

    Image

分段设置

上传的知识库需要进行分段处理,合理的分段与精准的检索设置是提升文本分析效率和结果准确性的关键环节。
以下将从分段设置、文本预处理规则、检索设置三个核心模块,为您详细介绍分段设置步骤。

  1. 选择分段设置。可选择自动分段清洗或自定义分段。用户可根据文本结构复杂度与处理需求自由切换,同时支持实时预览分段效果,确保分段符合预期。
    Image

    对比项

    自动分段与清洗

    自定义分段

    介绍

    无需用户手动设置任何分段规则,系统将基于文本语义逻辑、自然段落结构自动完成分段与冗余信息清洗,减少人工操作成本。

    需用户自主定义分段规则,通过设置分段标识符、文本块大小等参数,精准控制分段粒度,适配结构化或有特定格式要求的文本。

    场景

    • 无固定格式的长文本(如小说章节、新闻稿、调研报告);
    • 无需精准控制分段,仅需快速拆分文本的场景;
    • 对文本结构不熟悉,希望系统自动优化分段的情况。
    • 结构化文本(如带固定分隔符的日志、表格文本、代码片段);
    • 需按特定逻辑分段的场景(如按 “***” 分割的演讲稿、按 “/” 分割的商品属性文本);
    • 对分段粒度有严格要求,需保留关键语义关联的专业文本(如学术论文、技术文档)。

    自定义分段参数说明:

    参数

    说明

    分段标识符

    默认为\n。分隔符是用于分隔文本的字符,多个分隔符用英文逗号(,)连接。

    • 常用预设分隔符:/ /(分隔段落)、/(分隔行);
    • 自定义特殊分隔符:如***===等,可适配个性化文本格式;
    • 当单个段落超过设定的文本块大小时,系统会自动按行分割,避免文本块过长。

    文本块大小

    默认为128。表示单个分段的最大字符长度,控制分段粒度。

    分段重叠度

    设置相邻分段的重叠字符长度,用于保留分段间的语义关联(如 “人工智能发展” 在分段 1 末尾与分段 2 开头重叠,避免语义断裂),建议值为 “文本块大小的 10%-25%”。

    注意

    不支持 json、csv/excel 格式文本设置分段重叠度。

  2. 选择文本预处理规则,去除冗余信息、统一文本格式。目前支持如下的文本预处理规则,支持多选。

    • 替换掉连续的空格、换行符和制表符:自动将文本中连续的空格、换行符(\n)、制表符(\t)替换为单个空格,避免因格式混乱导致的分段或检索误差。
    • 删除所有URL和电子邮箱地址:批量移除文本中所有的 URL 链接(如https://www.xxx.com)和电子邮箱地址(如xxx@xxx.com),适用于需剔除无效信息、聚焦核心文本内容的场景。
  3. 刷新预览块,查看分段效果。打开「预览窗口」,在配置完成「分段设置」和「文本预处理规则」后。可点击「刷新预览块」,在右侧预览窗口中查看分段效果。
    Image

  4. 检索设置。检索设置通过调整权重、筛选数量与相似度阈值,控制系统返回的文本片段与用户问题的匹配度,确保检索结果精准、高效。

    参数

    说明

    权重设置

    定义文本 “语义” 与 “关键词” 的权重占比,两者权重之和固定为 1(如语义权重 0.7 + 关键词权重 0.3):

    • 若侧重语义匹配(如模糊查询 “人工智能的应用”),可提高语义权重;
    • 若侧重关键词精准匹配(如查询含 “机器学习算法” 的片段),可提高关键词权重。

    Top K

    用于筛选与用户问题相似度最高的文本片段数量,系统会结合选用模型的 “上下文窗口大小” 动态调整分段数量(避免超出模型处理能力)。
    取值区间:[0, 10],建议根据需求选择(如需快速获取核心结果选 3-5,需全面检索选 8-10)。

    Score 阈值

    设置文本片段筛选的 “相似度阈值”,用于过滤低相似度的无关片段。
    取值区间:[0, 1],值越大表示筛选标准越严格(如阈值设为 0.8,仅返回相似度≥80% 的片段);值越小则返回结果越宽泛,需根据检索精度需求调整。

  5. 配置好「分段设置」内容后,点击「确认创建」。
    Image

数据处理

等待数据处理界面出现「已完成」标识,点击「完成」。
Image
即可跳转到知识库管理页面,利用上传的知识库进行管理知识库知识库问答操作。
Image

知识库召回测试

知识库提供了召回测试功能,支持用户测试知识召回效果。
点击「知识库召回测试」,在召回测试输入框中输入相关问题,点击「测试」,右侧将会显示召回的Top K 结果。在输入框下方还可查看针对此知识库的召回记录。
Image
对于召回的段落,也可点击「打开」,查看详细内容,验证召回效果。
Image
如果用户想要调整召回段落数量,可以点击「倒排索引」,调整倒排索引的值,取值区间为[1, 10],步长为1,取值越小,召回的相关段落越少;取值越大,召回的相关段落越多。
Image
用户创建的知识库默认为「已启用」状态,经过召回测试后,如果召回效果满足需求,则可以直接利用该知识库进行知识库问答操作。
Image