You need to enable JavaScript to run this app.
导航
创建物品数据集 - 视频数据
最近更新时间:2025.09.26 22:54:45首次发布时间:2025.09.26 22:54:45
复制全文
我的收藏
有用
有用
无用
无用

物品数据集是驱动本平台精准搜索、推荐和对话能力的核心数据基础,适用于构建视频门户网站的智能搜索、媒体库的检索等场景。本章节将为您提供详细的操作指引,帮助您一步步将自有视频数据导入并构建成一个结构化的视频数据集,内容涵盖数据上传、信息配置和策略设定等关键环节。
数据集的准备和创建方式取决于您要导入的数据类型。这个文档核心会介绍视频数据的创建流程,包括数据格式要求、字段映射规则以及常见问题的解决方案。若您想创建图文数据,请查阅 创建物品数据集 - 图文数据

说明

本章主要聚焦于操作流程。如果您对物品数据集的基本概念、支持的数据格式、各个字段类型的具体定义、参数的详细解释或搜索策略等理论性内容有疑问,请先查阅数据集介绍章节。理解该章节的基础知识将帮助您更顺畅、更有效地完成本章的实践操作。

视频数据集

数据准备

在您开始上传视频数据集之前,请务必按照以下要求准备您的媒体数据。与图文数据集不同,视频数据集包含若干必须使用固定字段名进行上传的核心字段。因此,在上传操作前,对数据进行核对与调整尤为重要。
您在上传视频数据集之前,请注意以下限制:

说明

  • 视频内容层级仅支持2层:即父内容不可以作为某个内容的子内容。如果数据中的某个媒体内容已经作为父层级内容,已包含子层级内容,则为此父内容传入 parent_content_id 会导致处理报错 ,关于视频内容层级的详细介绍,请参考:视频数据集层级
  • 子层级内容乱序:​支持使用 sequence_index 传入子层级内容在父层级内容下的序号,当 sequence_index 乱序(两个内容有相同序号、序号未传),数据处理时将忽略顺序信息,可能导致视频内容的先后顺序,影响视频理解。
  • 单视频限制在4小时内:​不支持处理超出4小时的单视频。

字段名称:必须以字母开头,且只能包含字母、数字和下划线
字段类型:支持JSON schema的以下核心数据类型

  • String (Array)
  • Integer (Array) :支持定义Int64和Int32
  • Float (Array)
  • Boolean
  • Object (Array):支持字段中包含Object嵌套字段,最多支持三层嵌套关系

    字段含义:在智能schema解析阶段,大模型将通过字段名称和采样上传的真实数据来解读字段代表的含义和存储的内容。字段的含义将和字段值一起作为语义信息进入向量表征,可以提升语义搜索过程中更准确地补充字段内容的上下文信息。建议使用中文对字段含义进行简洁的描述。


    固定字段

    为确保您的视频数据能够被系统准确高效地处理和索引,请在上传前特别注意按照我们的特定要求准备媒体数据,您必须使用我们预先定义的字段名称进行提交。

    字段名

    是否必需

    字段说明

    content_id

    必需

    String
    媒体内容的唯一标识
    每条数据必须有唯一标识

    content_type

    必需

    String
    内容类型,支持上传枚举值:

    • "collection":媒体系列,例如电视剧的元数据信息
    • "video":视频内容,例如上传电视剧单集和电影的视频以及元数据信息

    video_url

    当媒体作为父内容(如电视剧)时必须为空
    当媒体(如电视剧单集、电影)作为子内容时必需

    Array
    火山引擎可访问的视频下载链接,用于视频理解和处理。
    父内容可以没有视频,比如一个电视剧
    同一个content_id下上传多个video_url,上传后后台会按列表顺序将视频拼接为一个视频

    parent_content_id

    当媒体作为父内容(如电视剧)时必须为空
    当媒体作为子内容例如电视剧的单集)时必需

    String
    如果您的媒体信息具有层级结构(比如电视剧),则需要用此字段标识视频内容的上级内容
    子内容的parent_content_id是父内容的content_id

    sequence_index

    当媒体作为父内容(如电视剧)时必须为空
    当媒体有父层级媒体(例如电视剧的单集)时强烈建议填写

    Integer
    非必需
    标识多个子内容在父内容中的顺序信息(比如电视剧的集数),用于串联视频内容进行同媒体系列的跨视频理解
    不传入则不会做跨视频理解

    请在上传前仔细检查您的数据,确保您的数据集中已包含上述所有必填字段,并且这些字段均已使用了规定的字段名,以保证数据顺利导入和后续功能的正常运行。
    除上述固定字段外,您也可以使用自定义字段上传其他元数据(例如:内容标题、视频时长、视频语言等),您可以为其指定任意名称,例如直接使用您数据库中已有的字段名,以简化对接过程。

    启动创建

    本起始步骤旨在引导您进入创建数据集页面,并启动创建流程。

    1. 在AI搜索控制台中,转到数据集页面。
    2. 点击创建数据集,在弹出的弹窗中选择物品数据集,并点击立即创建,您将正式进入创建数据集的流程中。

    上传数据

    Image

    本步骤中我们将引导您完成新视频数据集的命名,并上传您的样例文件用于解析数据字段和生成配置。

    1. 创建数据集页面中填写数据集名称
    2. 数据集类型中选择视频数据。
    3. 上传数据,在这里上传一部分数据样本。将帮助系统自动识别数据字段并生成初始配置。请放心,这只是用于配置预览,您可以稍后决定是否将这些数据正式添加入数据集。系统支持两种上传方式,您可点击上传控件下方的切换按钮来选择您偏好的方式:

      说明

      • 以下字段为每条数据记录的必填项,您必须提供这些信息,并严格按照规定的字段名进行命名:
        • 唯一标识(content_id ):String类型的唯一ID字段,作为检索基础
        • 内容类型(content_type):支持上传枚举值,"collection"(媒体系列)和"video"(视频内容)
      • 以下字段并非所有情况下都强制要求,但若您的数据包含此类信息,则必须使用我们规定的字段名进行上传:视频链接(video_url),父内容唯一标识(parent_content_id)和子内容顺序信息(sequence_index)
      • 多条数据的schema一致:同名字段格式冲突会导致报错
      • 支持多层次数据结构:系统可处理最深3层的嵌套对象,能够有效索引和检索深层属性
      • 图像资源处理:支持您使用URL引用的方式传入图片,您可以通过名为 cover_image_url 的字段传入图片链接,建议图片大小控制在5MB以下

    上传JSONL文件
    点击/拖拽JSONL文件,格式需遵循标准的JSONL规范,按行写入多条数据,文件大小不超过10MB。
    下方的示例展示了我们所要求的标准 JSONL 格式:

    {"content_id": "tv_series_67890_episode_01","video_url": ["https://example.com/tv_series/67890/episode_01.mp4"],"parent_content_id": "tv_series_67890","content_type":"video","sequence_index": 1,"title": "甄嬛传第一集","director": "郑晓龙","actors": ["孙俪", "陈建斌", "蔡少芬"],"first_air_date": "2011-11-17","douban_rating": null,"genres": ["剧情", "古装"],"episode_summary": "时为满清雍正元年,结束了血腥的夺位之争,新的君主继位,国泰民安,政治清明,但在一片祥和的表象之下,一股暗流蠢蠢欲动。后宫选秀,少女甄嬛与自永安县来的好友眉庄、陵容参加选秀,因容貌酷似已故的纯元皇后,更兼聪慧机敏,立刻引起皇帝的注意……","actor_list": [{"actor_name": "孙俪", "role_name": "甄嬛"},{"actor_name": "陈建斌", "role_name": "雍正"},{"actor_name": "蔡少芬", "role_name": "皇后"}],"duration": 2700,"language": ["zh-CN"],"media_link": "https://example.com/tv_series/67890/episode_1/"}
    
    1. 您可以选择是否启用7天后自动删除原始视频文件功能。若启用此功能,系统将在视频内容完成处理与智能理解的 7天后,自动删除您上传的原始视频文件。此举旨在帮助您提升数据安全级别,降低潜在的泄露风险。
    2. 点击下一步:配置字段,进入配置数据部分。

    添加字段

    平台会根据您上传的样例数据自动识别大部分数据字段,但在某些情况下,您可能需要手动添加字段。平台提供了以下两种方式来手动添加字段:

    方法一:字段列表的下方,点击蓝色的**+ 添加字段**按钮添加新字段。
    Image

    方法二:对于数据类型为对象 (Object)对象数组 (Array) 的字段,您可以通过点击对应字段行字段名称旁边的 +图标按钮添加该对象(或数组内对象)所包含的各个嵌套字段,并为这些嵌套字段指定名称、类型等信息。

    说明

    平台目前支持的嵌套对象最大深度为 3 层

    Image

    删除字段

    在配置数据集结构的过程中,如果您发现某些字段是多余的、不再需要的,或者是在初始识别时产生的错误字段,您可以将它们从数据结构定义中删除。请注意,删除字段会移除其相关的配置信息。

    1. 在字段列表中,找到您希望删除的字段。点击该字段所在行最右侧的删除按钮,即可将该字段删除。必传字段不支持删除

    Image

    配置数据属性

    系统已根据上传的样本数据,自动识别并预填了数据集描述、字段名、字段类型字段属性。请您检查这些自动生成的配置。请确保您的字段列表中已正确识别并包含了 content_id(唯一标识)和 content_type(内容类型)这两个核心字段。
    Image

    注意

    字段属性会被下游任务使用,并且一旦配置不支持更改。保存前请确保属性配置的正确性。

    与图文数据集相比,视频数据集支持更为丰富的字段属性,能满足更复杂的业务场景需求。

    属性

    字段类型

    属性说明

    内容标识

    固定字段

    String
    对应*content_id​*字段

    视频下载URL

    固定字段

    Array<String>
    对应*video_url​*字段

    父内容标识

    固定字段

    String
    对应*parent_content_id​*字段

    内容序号

    固定字段

    Integer
    对应*sequence_index​*字段

    内容标题

    自由字段

    String
    媒体内容的标题,强烈建议上传

    媒体封面图url

    自由字段

    String
    媒体内容的展示封面图下载链接

    媒体页面链接

    自由字段

    String
    媒体内容的跳转链接,仅做搜索列表预览展示用

    视频时长(秒)

    自由字段

    Int64
    视频时长(按秒)

    视频语言(BCP 47)

    自由字段

    Array<String>
    符合BCP 47标准的语言标签
    例如,中文:zh;英文:en

    发布时间

    自由字段

    String
    媒体内容的发布或上映时间,使用ISO 8601格式(YYYY-MM-DD T HH:MM:SS),支持精确到日,或秒

    您可以查阅文档字段属性部分,获取关于这些高级属性的详细说明。

    完成创建

    1. 点击完成配置,成功创建数据集。

    配置完成并生效后,系统会自动进行数据语义信息的分析和索引处理。

    (非必需)使用大模型合成新字段

    在完成数据集的基础字段配置后,我们还提供了一项基于 AI 大模型的高级功能——“使用大模型合成新字段”,旨在帮助您进一步挖掘现有数据的潜力,实现数据增强。
    这项功能能够根据您数据集中已有的字段生成全新的、具有实际应用价值的文本字段,包括生成图文描述、提取核心关键词或是生成相关的用户查询 (Query) 列表等。这些由 AI 生成的新增字段会直接整合到数据集中,能够有效增强搜索及搜索补全的效果,从而提升数据的整体可发现性和应用价值。
    这并非创建数据集的必需步骤,而是一个可选的高级数据优化选项。 如果您对利用 AI 自动丰富数据内容感兴趣,想要了解如何启用、配置并使用这项功能,可以查阅后续的使用大模型合成新字段章节获取详细的操作指南和说明。

    查看数据集

    视频数据集创建后,您可以在数据集列表中查看到刚创建的数据集。进入数据集详情页,即可查看其基本信息、字段配置和操作历史等内容。

    1. 创建视频数据集成功后,返回数据集页面可查看刚创建好的物品数据集。

    Image

    1. 在数据集列表中,找到您想要查看的数据集,点击该行操作列中的查看按钮。

    Image

    1. 数据集详情页:进入详情页后,您会看到以下几个关键的标签页:
      • 数据配置:​在此标签页下,您可以查看和调整当前数据集的各项配置参数。

        注意

        在此页面对数据集配置进行的修改,会自动同步到已经在您的 AI 搜索应用中关联的物品数据集,但是需要您点击页面右上角的‘更新应用’按钮,并在弹窗中确认,平台才会更新应用内的索引配置

      • 数据导入:​在此标签页下,您可以添加更多的数据。
      • 数据详情: 在此标签页下,您可以查看视频数据校验和处理的状态。您也可以查看数据导入和最近更新的时间并预览数据
      • 历史记录: 在此标签页下,您可以查看该数据集执行的所有关键操作,例如配置变更、数据导入任务等。您可以在此追踪数据集的变更历史。
        • 除了数据集详情页以外,您也可以在数据集列表页中,点击对应数据集所在行操作列历史记录查看数据的历史记录。