You need to enable JavaScript to run this app.
导航
创建物品数据集
最近更新时间:2025.06.03 10:49:48首次发布时间:2025.04.24 20:27:18
我的收藏
有用
有用
无用
无用

物品数据集是驱动本平台精准搜索、推荐和对话能力的核心数据基础。本章节将为您提供详细的操作指引,帮助您一步步将自有数据导入并构建成一个结构化的物品数据集,内容涵盖数据上传、信息配置和策略设定等关键环节。
数据集的准备和创建方式取决于您要导入的数据类型。首先,确定您计划创建哪类数据集:
图文数据集
视频数据集
请注意: 本章主要聚焦于操作流程。如果您对物品数据集的基本概念、支持的数据格式、各个字段类型的具体定义、参数的详细解释或搜索策略等理论性内容有疑问,请先查阅数据集介绍章节。理解该章节的基础知识将帮助您更顺畅、更有效地完成本章的实践操作。

图文数据集

启动创建

本起始步骤旨在引导您进入创建数据集页面,并启动创建流程。

  1. 在AI搜索控制台中,转到数据集页面。
  2. 点击创建数据集,在弹出的弹窗中选择物品数据集,并点击立即创建,您将正式进入创建数据集的流程中。

上传数据

Image
本步骤中我们将引导您完成新图文数据集的命名,并上传您的样例文件用于解析数据字段和生成配置。

  1. 创建数据集页面中填写数据集名称

  2. 数据集类型中选择图文数据。

  3. 上传数据,在这里上传一部分数据样本。将帮助系统自动识别数据字段并生成初始配置。请放心,这只是用于配置预览,您可以稍后决定是否将这些数据正式添加入数据集。系统支持两种上传方式,您可点击上传控件下方的切换按钮来选择您偏好的方式:

    说明

    • 必须包含唯一标识符:每条记录必须包含一个String类型的唯一ID字段,作为检索基础
    • 多条数据的schema一致:同名字段格式冲突会导致报错
    • 支持多层次数据结构:系统可处理最深3层的嵌套对象,能够有效索引和检索深层属性
    • 图片数据上传:您可以上传多个图片字段,字段类型为String或Array ,字段内容为图片URL(或URL列表),请确保URL可公网访问
    • 图像资源处理:支持您使用URL引用的方式传入图片,图片需要在专门的JSON属性内上传,建议图片大小控制在5MB以下
    1. 上传JSONL文件:点击/拖拽JSONL文件,格式需遵循标准的JSONL规范,按行写入多条数据,文件大小不超过10MB。
    2. 粘贴JSON数据:使用JSON对象(或对象列表Arrayof Objects)格式,粘贴单条或多条图文数据。建议粘贴100条以内数据,请您在输入时必须遵循标准JSON格式。
      下方的示例展示了我们所要求的标准 JSON 格式:
    {
        "item_id": "product_123", 
        "name": "新款时尚连衣裙",
        "price": 299.00,
        "current_price": 249.00,
        "description": "优雅修身,适合各种场合。",
        "images": [
          {
            "image_url": "https://example.com/images/dress_1.jpg"
          },
          {
            "image_url": "https://example.com/images/dress_2.jpg"
          } 
        ],
        "category": "女装",
        "key_words": ["连衣裙", "时尚", "优雅", "修身", "女装"]
      }
    
  4. 上传 / 输入完成后,点击下一步:配置字段,进入配置数据部分。

添加字段

平台会根据您上传的样例数据自动识别大部分数据字段,但在某些情况下,您可能需要手动添加字段。平台提供了以下两种方式来手动添加字段:
Image
方法一:字段列表的上方,点击蓝色的**+ 添加字段按钮添加新字段。
Image
方法二:对于数据类型为
对象 (Object)** 或对象数组 (Array) 的字段,您可以通过点击对应字段行字段名称旁边的 +图标按钮添加该对象(或数组内对象)所包含的各个嵌套字段,并为这些嵌套字段指定名称、类型等信息。需要注意的是,平台目前支持的嵌套对象最大深度为 3 层

删除字段

在配置数据集结构的过程中,如果您发现某些字段是多余的、不再需要的,或者是在初始识别时产生的错误字段,您可以将它们从数据结构定义中删除。请注意,删除字段会移除其相关的配置信息。
Image
在字段列表中,找到您希望删除的字段。点击该字段所在行最右侧的删除按钮,即可将该字段删除

配置数据

Image
系统已根据上传的样本数据,自动识别并预填了数据集描述、字段名、字段类型字段含义、字段属性、字段搜索策略(如是否可搜索可筛选可用于搜索补全、可用于图搜图)。
请您检查这些自动生成的配置。您需要确保在所有字段中有一个字段的字段属性被指定为唯一标识。
如果您希望根据您的具体需求,对配置数据页中各项内容进行调整,您可以参考字段内容的搜索策略审阅和调整这些设置,从而确保搜索功能符合您的业务目标。

完成创建

  1. 配置完成后您可以在页面右下角完成配置按钮旁边勾选是否保存样例数据,勾选后,您在上传数据步骤中使用的样例数据将被保存至数据集。
  2. 配置完成后,点击页面右下角的完成配置按钮前,您可以勾选保存样例数据选项。勾选后,您在上传步骤中使用的样例文件数据将被正式存入此数据集中;若不勾选,则仅用于配置,不保存。
  3. 点击完成配置,成功创建数据集。

配置完成并生效后,系统会自动进行数据语义信息的分析和索引处理。

视频数据集

数据准备

在您开始上传视频数据集之前,请务必按照以下要求准备您的媒体数据。与图文数据集不同,视频数据集包含若干必须使用固定字段名进行上传的核心字段。因此,在上传操作前,对数据进行核对与调整尤为重要。
您在上传视频数据集之前,请注意以下限制:

说明

  • 视频内容层级仅支持2层:即父内容不可以作为某个内容的子内容。如果数据中的某个媒体内容已经作为父层级内容,已包含子层级内容,则为此父内容传入parent_content_id会导致处理报错 ,关于视频内容层级的详细介绍,请参考:视频数据集层级
  • **子层级内容乱序:**支持使用sequence_index传入子层级内容在父层级内容下的序号,当index_sequence乱序(两个内容有相同序号、序号未传),数据处理时将忽略顺序信息,可能导致视频内容的先后顺序,影响视频理解
  • **单视频限制在4小时内:**不支持处理超出4小时的单视频

字段名称:必须以字母开头,且只能包含字母、数字和下划线
字段类型:支持JSON schema的以下核心数据类型

  • String (Array)
  • Integer (Array) :支持定义Int64和Int32
  • Float (Array)
  • Boolean
  • Object (Array):支持字段中包含Object嵌套字段,最多支持三层嵌套关系

    字段含义:在智能schema解析阶段,大模型将通过字段名称和采样上传的真实数据来解读字段代表的含义和存储的内容。字段的含义将和字段值一起作为语义信息进入向量表征,可以提升语义搜索过程中更准确地补充字段内容的上下文信息。建议使用中文对字段含义进行简洁的描述。


    固定字段

    为确保您的视频数据能够被系统准确高效地处理和索引,请在上传前特别注意按照我们的特定要求准备媒体数据,您必须使用我们预先定义的字段名称进行提交。

    字段名

    是否必需

    字段说明

    content_id

    必需

    String
    媒体内容的唯一标识
    每条数据必须有唯一标识

    content_type

    必需

    String
    内容类型,支持上传枚举值:

    • "collection":媒体系列,例如电视剧的元数据信息
    • "video":视频内容,例如上传电视剧单集和电影的视频以及元数据信息

    video_url

    当媒体作为父内容(如电视剧)时必须为空
    当媒体(如电视剧单集、电影)作为子内容时必需

    Array
    火山引擎可访问的视频下载链接,用于视频理解和处理。
    父内容可以没有视频,比如一个电视剧
    同一个content_id下上传多个video_url,上传后后台会按列表顺序将视频拼接为一个视频

    parent_content_id

    当媒体作为父内容(如电视剧)时必须为空
    当媒体作为子内容例如电视剧的单集)时必需

    String
    如果您的媒体信息具有层级结构(比如电视剧),则需要用此字段标识视频内容的上级内容
    子内容的parent_content_id是父内容的content_id

    sequence_index

    当媒体作为父内容(如电视剧)时必须为空
    当媒体有父层级媒体(例如电视剧的单集)时强烈建议填写

    Integer
    非必需
    标识多个子内容在父内容中的顺序信息(比如电视剧的集数),用于串联视频内容进行同媒体系列的跨视频理解
    不传入则不会做跨视频理解

    请在上传前仔细检查您的数据,确保您的数据集中已包含上述所有必填字段,并且这些字段均已使用了规定的字段名,以保证数据顺利导入和后续功能的正常运行。
    除上述固定字段外,您也可以使用自定义字段上传其他元数据(例如:内容标题、视频时长、视频语言等),您可以为其指定任意名称,例如直接使用您数据库中已有的字段名,以简化对接过程。

    启动创建

    本起始步骤旨在引导您进入创建数据集页面,并启动创建流程。

    1. 在AI搜索控制台中,转到数据集页面。
    2. 点击创建数据集,在弹出的弹窗中选择物品数据集,并点击立即创建,您将正式进入创建数据集的流程中。

    上传数据

    Image
    本步骤中我们将引导您完成新图文数据集的命名,并上传您的样例文件用于解析数据字段和生成配置。

    1. 创建数据集页面中填写数据集名称

    2. 数据集类型中选择视频数据。

    3. 上传数据,在这里上传一部分数据样本。将帮助系统自动识别数据字段并生成初始配置。请放心,这只是用于配置预览,您可以稍后决定是否将这些数据正式添加入数据集。系统支持两种上传方式,您可点击上传控件下方的切换按钮来选择您偏好的方式:

      说明

      • 以下字段为每条数据记录的必填项,您必须提供这些信息,并严格按照规定的字段名进行命名:
        • 唯一标识(content_id ):String类型的唯一ID字段,作为检索基础
        • 内容类型(content_type):支持上传枚举值,"collection"(媒体系列)和"video"(视频内容)
      • 以下字段并非所有情况下都强制要求,但若您的数据包含此类信息,则必须使用我们规定的字段名进行上传:视频链接(video_url),父内容唯一标识(parent_content_id)和子内容顺序信息(parent_content_id)
      • 多条数据的schema一致:同名字段格式冲突会导致报错
      • 支持多层次数据结构:系统可处理最深3层的嵌套对象,能够有效索引和检索深层属性
      • 图像资源处理:支持您使用URL引用的方式传入图片,图片需要在专门的JSON属性内上传,建议图片大小控制在5MB以下
      1. 上传JSONL文件:点击/拖拽JSONL文件,格式需遵循标准的JSONL规范,按行写入多条数据,文件大小不超过10MB。
      2. 粘贴JSON数据:使用JSON对象(或对象列表Arrayof Objects)格式,粘贴单条或多条图文数据。建议粘贴100条以内数据,请您在输入时必须遵循标准JSON格式。
        下方的示例展示了我们所要求的标准 JSON 格式:
      {
        "content_id": "tv_series_67890_episode_01",
        "video_url": ["https://example.com/tv_series/67890/episode_01.mp4"],
        "parent_content_id": "tv_series_67890",
        "content_type":"video",
        "sequence_index": 1,
        "title": "甄嬛传第一集",
        "director": "郑晓龙",
        "actors": ["孙俪", "陈建斌", "蔡少芬"],
        "first_air_date": "2011-11-17",
        "douban_rating": null,
        "genres": ["剧情", "古装"],
        "episode_summary": "时为满清雍正元年,结束了血腥的夺位之争,新的君主继位,国泰民安,政治清明,但在一片祥和的表象之下,一股暗流蠢蠢欲动。后宫选秀,少女甄嬛与自永安县来的好友眉庄、陵容参加选秀,因容貌酷似已故的纯元皇后,更兼聪慧机敏,立刻引起皇帝的注意……",
        "actor_list": [
          {"actor_name": "孙俪", "role_name": "甄嬛"},
          {"actor_name": "陈建斌", "role_name": "雍正"},
          {"actor_name": "蔡少芬", "role_name": "皇后"}
        ],
        "duration": 2700,
        "language": ["zh-CN"],
        "media_link": "https://example.com/tv_series/67890/episode_1/"
      }
      
    4. 您可以选择是否启用7天后自动删除原始视频文件功能。若启用此功能,系统将在视频内容完成处理与智能理解的 7天后,自动删除您上传的原始视频文件。此举旨在帮助您提升数据安全级别,降低潜在的泄露风险。

    5. 点击下一步:配置字段,进入配置数据部分。

    添加字段

    平台会根据您上传的样例数据自动识别大部分数据字段,但在某些情况下,您可能需要手动添加字段。平台提供了以下两种方式来手动添加字段:
    Image
    方法一:字段列表的上方,点击蓝色的**+ 添加字段按钮添加新字段。
    Image
    方法二:对于数据类型为
    对象 (Object)** 或对象数组 (Array) 的字段,您可以通过点击对应字段行字段名称旁边的 +图标按钮添加该对象(或数组内对象)所包含的各个嵌套字段,并为这些嵌套字段指定名称、类型等信息。需要注意的是,平台目前支持的嵌套对象最大深度为 3 层

    删除字段

    在配置数据集结构的过程中,如果您发现某些字段是多余的、不再需要的,或者是在初始识别时产生的错误字段,您可以将它们从数据结构定义中删除。请注意,删除字段会移除其相关的配置信息。
    Image
    在字段列表中,找到您希望删除的字段。点击该字段所在行最右侧的删除按钮,即可将该字段删除。

    配置数据

    Image
    系统已根据上传的样本数据,自动识别并预填了数据集描述、字段名、字段类型字段含义、字段属性、字段搜索策略(如是否可搜索可筛选可用于搜索补全)。
    请您检查这些自动生成的配置。请确保您的字段列表中已正确识别并包含了 content_id(唯一标识)和 content_type(内容类型)这两个核心字段。
    与图文数据集相比,视频数据集支持更为丰富的字段属性,能满足更复杂的业务场景需求。您可以查阅文档字段属性部分,获取关于这些高级属性的详细说明。此外,如果您希望根据您的具体需求,对配置数据页中各项内容进行调整,您可以参考字段内容的搜索策略审阅和调整这些设置,从而确保搜索功能符合您的业务目标。

    完成创建

    1. 配置完成后您可以在页面右下角完成配置按钮旁边勾选是否保存样例数据,勾选后,您在上传数据步骤中使用的样例数据将被保存至数据集。
    2. 配置完成后,点击页面右下角的完成配置按钮前,您可以勾选保存样例数据选项。勾选后,您在上传步骤中使用的样例文件数据将被正式存入此数据集中;若不勾选,则仅用于配置,不保存。
    3. 点击完成配置,成功创建数据集。

    配置完成并生效后,系统会自动进行数据语义信息的分析和索引处理。

    (非必需)使用大模型合成新字段

    在完成数据集的基础字段配置后,我们还提供了一项基于 AI 大模型的高级功能——“使用大模型合成新字段”,旨在帮助您进一步挖掘现有数据的潜力,实现数据增强。
    这项功能能够根据您数据集中已有的字段生成全新的、具有实际应用价值的文本字段,包括生成图文描述、提取核心关键词或是生成相关的用户查询(Query)列表等。这些由 AI 生成的新增字段会直接整合到数据集中,能够有效增强搜索及搜索补全的效果,从而提升数据的整体可发现性和应用价值。
    这并非创建数据集的必需步骤,而是一个可选的高级数据优化选项。 如果您对利用 AI 自动丰富数据内容感兴趣,想要了解如何启用、配置并使用这项功能,可以查阅后续的使用大模型合成新字段章节获取详细的操作指南和说明。

    查看数据集

    图文数据集创建后,您可以在数据集列表中查看到刚创建的数据集。进入数据集详情页,即可查看其基本信息、字段配置和操作历史等内容。
    Image

    1. 创建图文数据集成功后,返回数据集页面可查看刚创建好的物品数据集。

    Image

    1. 在数据集列表中,找到您想要查看的数据集,点击该行操作列中的查看按钮。
    2. 数据集详情页: 进入详情页后,您会看到以下几个关键的标签页:
      • 数据配置 :
        • 在此标签页下,您可以查看和调整当前数据集的各项配置参数。
        • 请注意: 在此页面对数据集配置进行的修改,不会自动应用到已经在您的 AI 搜索应用中关联并状态为已配置的该数据集实例。
      • 数据导入 :
        • 如果您希望向此数据集中添加更多的数据项,可以在此标签页进行操作。
        • 关于详细的数据导入流程、格式要求,请参阅文档的导入数据集数据章节。
      • 历史记录 :
        • 此标签页记录了对该数据集执行的所有关键操作,例如配置变更、数据导入任务等。您可以在此追踪数据集的变更历史。
        • 除了数据集详情页以外,您也可以在数据集列表页中,点击对应数据集所在行操作列历史记录查看数据的历史记录。