You need to enable JavaScript to run this app.
客户数据平台(私有化)

客户数据平台(私有化)

复制全文
特色专区
知识分段
复制全文
知识分段

该算子将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。

前提条件

您需要提前将数据上传到火山TOS上。

操作说明

点击加号+,在可视化建模中增加知识分段算子,对数据进行分段。
Image

具体参数配置说明如下,

参数

说明

文件地址

从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email

切片元素

  • 图片:勾选图片后,知识回答的内容会包括图片;如不勾选图片,回答的内容不会包括图片信息。
  • 表格:勾选表格后,对表格进行切片,按照切片召回;不勾选表格,表格作为一个整体召回。

切片策略

  • 自动切片:采用通用切片策略,由模型按照文档结构自动识别文档进行切片。
  • 自定义切片:支持自定义长度、规则,按照更贴近业务自定义规则的场景切片。需要设值单切片长度和切片规则。

单切片长度

切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。

切片规则

选择切片的标志,例如换行、2个换行、中文句号、中文叹号、英文句号、英文叹号。

输出字段

分段后的新列名,默认值为 chunk_result,一般不需要更改

最近更新时间:2026.02.06 12:01:49
这个页面对您有帮助吗?
有用
有用
无用
无用