You need to enable JavaScript to run this app.
客户数据平台

客户数据平台

复制全文
特色专区
知识分段
复制全文
知识分段

知识分段算子可以将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。本文介绍如何使用知识分段算子。

前提条件

操作说明

添加知识分段算子

  1. 登录客户数据平台
  2. 选择「数据管理」-「可视化建模」,在概览页,点击对应的任务名称,点击「编辑」,进入建模页面。
  3. 点击+,在可视化建模中增加知识分段算子,对数据进行分段。

Image

配置参数

参数

说明

文件地址

从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email

切片元素

  • 图片:勾选图片后,知识回答的内容会包括图片;如不勾选图片,回答的内容不会包括图片信息。
  • 表格:勾选表格后,对表格进行切片,按照切片召回;不勾选表格,表格作为一个整体召回。

切片策略

  • 自动切片:采用通用切片策略,由模型按照文档结构自动识别文档进行切片。
  • 自定义切片:支持自定义长度、规则,按照更贴近业务自定义规则的场景切片。需要设值单切片长度和切片规则。

单切片长度

切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。

切片规则

选择切片的标志,例如换行、2个换行、中文句号、中文叹号、英文句号、英文叹号。

输出字段

分段后的新列名,默认值为 chunk_result,一般不需要更改

最近更新时间:2026.02.06 12:03:55
这个页面对您有帮助吗?
有用
有用
无用
无用