如果您希望在对话式搜索Agent服务用户的过程中,可以使用平台沉淀的文档知识来辅助Agent回复用户的疑问,和为Agent提供更多的行业知识、平台知识来进行回复的总结生成,您可以使用文档数据集导入此类非结构化数据,并关联至搜索Agent所在应用。
区别于物品数据集存储的结构化数据,文档数据集中支持对非结构化数据(文档内容)的存储和处理。目前支持导入以下格式的数据:
您可以使用这些文档的知识赋能以下场景:
您可以在 应用界面 > 数据配置 中打开文档数据集页签创建一个文档数据集并直接关联至应用生效的问答流程,或在应用 > 数据集 > 文档数据集页签创建一个文档数据集后手动关联至问答流程。
点击创建后,您需要为文档数据集设定一个名称,并可以导入一批文档文件。
导入文件时会进行格式和大小校验,具体支持的文档格式和大小限制见文档格式和大小限制。您也可以在数据集 > 文档数据集详情页打开文档导入功能。
导入文档后,系统将自动进行文档的智能处理,包含文档的读取、解析、切片、索引构建和向量化存储等步骤,以确保文档内容能够被检索。
原始文档将被处理为markdown格式的数据,文档处理完成后,可点击查看按钮查看文档处理后的文本内容。
您在应用和数据集的文档数据展示界面均可进行文档的删除,点击删除按钮后,我们会请您进行一次敏感操作确认,点击确认后即可删除文档。
文档数据当前beta免费对用户开放功能,我们目前支持以下类型文档的上传和处理:
文档类型 | 处理大小限制 |
|---|---|
单文档不超过100MB,且不超过1000页 | |
doc | 单文档不超过100MB,且不超过1000页 |
docx | 单文档不超过100MB,且不超过1000页 |
ppt | 单文档不超过100MB,且不超过1000页 |
pptx | 单文档不超过100MB,且不超过1000页 |
markdown | 单文档不超过10MB |
txt | 单文档不超过10MB |
html | 单文档不超过10MB |