You need to enable JavaScript to run this app.
导航
(Beta) 创建文档数据集
最近更新时间:2025.10.21 22:11:26首次发布时间:2025.10.21 22:11:26
复制全文
我的收藏
有用
有用
无用
无用

文档数据集简介

如果您希望在对话式搜索Agent服务用户的过程中,可以使用平台沉淀的文档知识来辅助Agent回复用户的疑问,和为Agent提供更多的行业知识、平台知识来进行回复的总结生成,您可以使用文档数据集导入此类非结构化数据,并关联至搜索Agent所在应用。
区别于物品数据集存储的结构化数据,文档数据集中支持对非结构化数据(文档内容)的存储和处理。目前支持导入以下格式的数据:

  • 带有格式的文档数据:​扩展名为pdf,doc,docx,ppt,pptx的文件
  • 纯文本类文档数据:​扩展名为md,html,txt的文件

您可以使用这些文档的知识赋能以下场景:

  • 电商导购场景中:​导入会员政策、售后政策、商品详情、促销活动等文档,帮助Agent快速解答用户关于会员权益、退换货流程、商品参数等常见问题。使Agent更好地解答用户转化前的疑问。
  • 垂类内容搜索场景:​导入垂类行业知识,帮助Agent快速理解并回答用户关于特定领域的专业问题,可以更好地解读用户的query和策划搜索,提升Agent在垂直领域的专业性。

创建文档数据集

您可以在 应用界面 > 数据配置 中打开文档数据集页签创建一个文档数据集并直接关联至应用生效的问答流程,或在应用 > 数据集 > 文档数据集页签创建一个文档数据集后手动关联至问答流程。

在应用中创建

Image

在数据集中创建

点击创建后,您需要为文档数据集设定一个名称,并可以导入一批文档文件。
Image
导入文件时会进行格式和大小校验,具体支持的文档格式和大小限制见文档格式和大小限制。您也可以在数据集 > 文档数据集详情页打开文档导入功能。

文档的处理和入库

导入文档后,系统将自动进行文档的智能处理,包含文档的读取、解析、切片、索引构建和向量化存储等步骤,以确保文档内容能够被检索。
Image
原始文档将被处理为markdown格式的数据,文档处理完成后,可点击查看按钮查看文档处理后的文本内容。
Image

删除文档

您在应用和数据集的文档数据展示界面均可进行文档的删除,点击删除按钮后,我们会请您进行一次敏感操作确认,点击确认后即可删除文档。
Image

文档格式和大小限制

文档数据当前beta免费对用户开放功能,我们目前支持以下类型文档的上传和处理:

文档类型

处理大小限制

pdf

单文档不超过100MB,且不超过1000页

doc

单文档不超过100MB,且不超过1000页

docx

单文档不超过100MB,且不超过1000页

ppt

单文档不超过100MB,且不超过1000页

pptx

单文档不超过100MB,且不超过1000页

markdown

单文档不超过10MB

txt

单文档不超过10MB

html

单文档不超过10MB