You need to enable JavaScript to run this app.
导航
知识分段
最近更新时间:2025.09.16 18:03:29首次发布时间:2024.06.21 17:34:29
复制全文
我的收藏
有用
有用
无用
无用

该算子将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。

前提条件

您需要提前将数据上传到火山TOS上。

操作说明

点击加号+,在可视化建模中增加知识分段算子,对数据进行分段。
Image

具体参数配置说明如下,

参数

说明

文件地址

从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email

分段大小

切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。

表格识别

是否开启文档表格识别。开启表格识别后,会按照表格形式,保留表头,表格中的信息不会丢失。若不开启表格识别,则表格会作为普通文本切片。

AccessKey

TOS 连接的访问密钥,是 TOS 服务分配给您的唯一公开身份标识

SecretKey

TOS 连接的密钥

桶名

TOS 中用于存储和管理数据的数据容器名

输出字段

分段后的新列名,默认值为 chunk_result,一般不需要更改