知识分段算子可以将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。本文介绍如何使用知识分段算子。
参数 | 说明 |
|---|---|
文件地址 | 从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email |
分段大小 | 切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。 |
表格识别 | 是否开启文档表格识别。开启表格识别后,会按照表格形式,保留表头,表格中的信息不会丢失。若不开启表格识别,则表格会作为普通文本切片。 |
AccessKey | TOS 连接的访问密钥,是 TOS 服务分配给您的唯一公开身份标识 |
SecretKey | TOS 连接的密钥 |
桶名 | TOS 中用于存储和管理数据的数据容器名 |
输出字段 | 分段后的新列名,默认值为 chunk_result,一般不需要更改 |