You need to enable JavaScript to run this app.
导航
创建物品数据集 - 图文数据
最近更新时间:2025.11.23 16:35:34首次发布时间:2025.04.24 20:27:18
复制全文
我的收藏
有用
有用
无用
无用

物品数据集是驱动本平台精准搜索、推荐和对话能力的核心数据基础。本章节将为您提供详细的操作指引,帮助您一步步将自有数据导入并构建成一个结构化的物品数据集,内容涵盖数据上传、信息配置和策略设定等关键环节。
数据集的准备和创建方式取决于您要导入的数据类型。这个文档核心会介绍图文数据的创建流程,包括数据格式要求、字段映射规则以及常见问题的解决方案。若您想创建视频数据集,请查阅 创建物品数据集 - 视频数据

说明

本章主要聚焦于操作流程。如果您对物品数据集的基本概念、支持的数据格式、各个字段类型的具体定义、参数的详细解释或搜索策略等理论性内容有疑问,请先查阅 数据集介绍章节。理解该章节的基础知识将帮助您更顺畅、更有效地完成本章的实践操作。

创建图文数据集

启动创建

本起始步骤旨在引导您进入创建数据集页面,并启动创建流程。

  1. 在AI搜索控制台中,转到数据集页面。
  2. 点击创建数据集,在弹出的弹窗中选择物品数据集,并点击立即创建,您将正式进入创建数据集的流程中。

上传数据样例

Image

本步骤中我们将引导您完成新图文数据集的命名,并上传您的样例文件用于解析数据字段和生成配置。

  1. 创建数据集页面中填写数据集名称

  2. 数据集类型中选择图文数据。

  3. 上传数据,在这里上传一部分数据样本。将帮助系统自动识别数据字段并生成初始配置。请放心,这只是用于配置预览,您可以稍后决定是否将这些数据正式添加入数据集。

    说明

    • 必须包含唯一标识符:每条记录必须包含一个 String 类型的唯一 ID 字段,作为检索基础。
    • 多条数据的schema一致:同名字段格式冲突会导致报错。
    • 支持多层次数据结构:系统可处理最深3层的嵌套对象,能够有效索引和检索深层属性。
    • 图片数据上传:您可以上传多个图片字段,字段类型为 String 或 Array ,字段内容为图片 URL(或 URL 列表)。请确保 URL 公网可访问而且不应该直接下载图片。
    • 图像资源处理:支持您使用URL引用的方式传入图片,图片需要在专门的JSON属性内上传,建议图片大小控制在 5MB 以下。

    系统支持两种上传方式,您可点击上传控件下方的切换按钮来选择您偏好的方式:

    上传 JSONL 文件
    点击/拖拽 JSONL 文件,格式需遵循标准的 JSONL 规范,按行写入多条数据,文件大小不超过 10 MB。
    下方的示例展示了我们所要求的标准 JSONL 格式:

    {"item_id": "product_xxx", "name": "新款时尚连衣裙","price": 299.00,"current_price": 249.00,"description": "优雅修身,适合各种场合。","images": ["https://example.com/images/dress_1.jpg", "https://example.com/images/dress_2.jpg"],"category": "女装","key_words": ["连衣裙", "时尚", "优雅", "修身", "女装"]}
    {"item_id": "product_xxx", "name": "时尚威风夹克","price": 312.00,"current_price": 300.00,"description": "适合任何场合。","images": ["https://example.com/images/jacket_1.jpg", "https://example.com/images/jacket_2.jpg"],"category": "男装","key_words": ["时尚", "威风", "夹克", "男装"]}
    
  4. 上传 / 输入完成后,点击下一步:配置字段,进入配置数据部分。

添加字段

平台会根据您上传的样例数据自动识别大部分数据字段,但在某些情况下,您可能需要手动添加字段。平台提供了以下两种方式来手动添加字段:

方法一:字段列表的下方,点击蓝色的**+ 添加字段**按钮添加新字段。
Image

方法二:对于数据类型为对象 (Object)对象数组 (Array) 的字段,您可以通过点击对应字段行字段名称旁边的 +图标按钮添加该对象(或数组内对象)所包含的各个嵌套字段,并为这些嵌套字段指定名称、类型等信息。

说明

平台目前支持的嵌套对象最大深度为 3 层

Image

删除字段

在配置数据集结构的过程中,如果您发现某些字段是多余的、不再需要的,或者是在初始识别时产生的错误字段,您可以将它们从数据结构定义中删除。请注意,删除字段会移除其相关的配置信息。

  1. 在字段列表中,找到您希望删除的字段。点击该字段所在行最右侧的删除按钮,即可将该字段删除

Image

配置字段属性

系统已根据上传的样本数据自动识别并预填了数据集描述、字段名、字段类型、字段属性。请您检查这些自动生成的配置。在字段列表中,找到需要配置的字段所在行,点击其‘字段属性’列下的下拉菜单,然后勾选一个或多个适用的属性(如‘唯一标识’、‘图片链接’等)。
Image

注意

字段属性会被下游任务使用,并且一旦配置不支持更改。保存前请确保属性配置的正确性。

属性

是否为必需属性

支持的字段类型

属性介绍

物品ID(唯一标识)

必需

String

一条数据的唯一标识,即数据的主键,在搜索和推荐场景下换一个ID代表一个“候选”,数据schema中必须包含且仅包含一个唯一标识。

  • 支持以String类型上传
  • 只支持最外层非嵌套字段作为唯一标识

标题

非必需

String

存储了物品标题或名称的字段。适用于:商品名称、内容或文章标题等信息。
建议上传标题数据,标题数据会作为一条数据的核心语义信息参与搜索和个性化推荐

图片链接

非必需

String, Array

存储了图片URL的字段,上传数据后系统将自动拉取图片并提取视觉特征进行多模态理解,如果您希望使用URL上传图片进行多模态搜索,则需要将存储了图片URL的字段标注为图片URL属性。
支持字符串或字符串列表字段。

图片Base64

非必需

String, Array

存储了图片base64字符串(列表)的字段。

分类/类目

非必需

String

存储了物品所属的类别、类目、品类的字段。
商品数据中建议上传这类属性,类目信息会作为核心的数据特征参与搜索和推荐,并在对话助手的决策流程中基于用户的问题对品类进行智能的过滤。
支持上传多个分类属性,如果您的商品有多重类目(一级、二级类目),可以使用不同的字段来上传。

上新时间(时间日期格式)

非必需

String

使用日期和时间格式的字符串存储的物品上新/上架时间,可用于搜索和推荐的新度排序。
支持上传的格式包含:

  • 标准的ISO时间日期字符串(YYYY-MM-DDThh:mm:ss+08:00)
  • 非标准的时间日期字符串(YYYY-MM-DD hh:mm:ss或精确到日期的字符串)也支持解析,系统会自动转换为标准格式存储。

上新时间(UNIX时间戳,精确到秒)

非必需

Int64

使用标准10位UNIX时间戳表示的物品上新/上架时间,可用于搜索和推荐的新度排序策略。

上新时间(UNIX时间戳,精确到毫秒)

非必需

Int64

使用标准13位UNIX时间戳表示的物品上新/上架时间,可用于搜索和推荐的新度排序策略。

地理位置-经度

非必需

Float 或 String

使用字符串或浮点数表示的经度纬度信息,用来标识物品的所处位置,支持对以下类型的字段进行配置:

  • 使用一个JSON对象标识经度和维度,如:"location":{"lat":"12.709","long":"30.281"}
  • 使用JSON对象列表来标识物品可能关联的多个地理位置,如:"location":[{"lat":"12.709","long":"30.281"},{...},...],在对地理位置进行操作时会按策略选择最大、最小距离进行计算

可支持传入浮点数,或使用字符串表示经度或纬度的数值,例如"30.281"或30.281。

地理位置-纬度

非必需

Float 或 String

完成创建

  1. 在点击‘完成配置’按钮前,您可以根据需要勾选‘保存样例数据’选项,以将上传的样本存入数据集中。
  2. 配置完成后,点击页面右下角的完成配置按钮前,您可以勾选保存样例数据选项。勾选后,您在上传步骤中使用的样例文件数据将被正式存入此数据集中;若不勾选,则仅用于配置,不保存。
  3. 点击完成配置,成功创建数据集。

配置完成并生效后,系统会自动进行数据语义信息的分析和索引处理。

使用大模型合成新字段(非必需)

在完成数据集的基础字段配置后,我们还提供了一项基于 AI 大模型的高级功能——“使用大模型合成新字段”,旨在帮助您进一步挖掘现有数据的潜力,实现数据增强。
这项功能能够根据您数据集中已有的字段生成全新的、具有实际应用价值的文本字段,包括生成图文描述、提取核心关键词或是生成相关的用户查询 (Query) 列表等。这些由 AI 生成的新增字段会直接整合到数据集中,能够有效增强搜索及搜索补全的效果,从而提升数据的整体可发现性和应用价值。
这并非创建数据集的必需步骤,而是一个可选的高级数据优化选项。 如果您对利用 AI 自动丰富数据内容感兴趣,想要了解如何启用、配置并使用这项功能,可以查阅后续的使用大模型合成新字段章节获取详细的操作指南和说明。

查看数据集

图文数据集创建后,您可以在数据集列表中查看到刚创建的数据集。进入数据集详情页,即可查看其基本信息、字段配置和操作历史等内容。

  1. 创建图文数据集成功后,返回数据集页面可查看刚创建好的物品数据集。

Image

  1. 在数据集列表中,找到您想要查看的数据集,点击该行操作列中的查看按钮。

Image

  1. 数据集详情页: 进入详情页后,您会看到以下几个关键的标签页:
    • 数据配置:​在此标签页下,您可以查看和调整当前数据集的各项配置参数。

      注意

      在此页面对数据集配置进行的修改,需要您手动确认并生效后,才会同步到已经在您的 AI 搜索应用中关联的物品数据集并更新索引配置。

    • 数据导入:​在此标签页下,您可以添加更多的数据。
    • 数据详情: 在此标签页下,您可以查看图文数据校验和处理的状态。您也可以查看数据导入和最近更新的时间并预览数据
    • 历史记录: 在此标签页下,您可以查看该数据集执行的所有关键操作,例如配置变更、数据导入任务等。您可以在此追踪数据集的变更历史。
      • 除了数据集详情页以外,您也可以在数据集列表页中,点击对应数据集所在行操作列历史记录查看数据的历史记录。