客户数据平台
知识分段算子可以将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。本文介绍如何使用知识分段算子。
参数 | 说明 |
|---|---|
文件地址 | 从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email |
切片元素 |
|
切片策略 |
|
单切片长度 | 切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。 |
切片规则 | 选择切片的标志,例如换行、2个换行、中文句号、中文叹号、英文句号、英文叹号。 |
输出字段 | 分段后的新列名,默认值为 chunk_result,一般不需要更改 |