客户数据平台(私有化)
该算子将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。
您需要提前将数据上传到火山TOS上。
点击加号+,在可视化建模中增加知识分段算子,对数据进行分段。
具体参数配置说明如下,
参数 | 说明 |
|---|---|
文件地址 | 从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、pptx、image、xlsx、email |
切片元素 |
|
切片策略 |
|
单切片长度 | 切片分段大小,支持通过下拉框选择切片大小为1000字符、2000字符、3000字符、4000字符。 |
切片规则 | 选择切片的标志,例如换行、2个换行、中文句号、中文叹号、英文句号、英文叹号。 |
输出字段 | 分段后的新列名,默认值为 chunk_result,一般不需要更改 |