You need to enable JavaScript to run this app.
全域AI搜索

全域AI搜索

复制全文
准备物品数据
视频数据集介绍
复制全文
视频数据集介绍

如果您的搜索和推荐内容是带有元信息的视频文件,则可以使用视频数据集进行上传和存储。
视频数据集支持您上传包含视频文件和视频的元信息(标题、作者、上新日期等自定义字段),系统将自动调用视频预处理和理解能力,理解元信息并对视频文件进行音画文的抽取理解和总结,可实现视频数据的搜索引擎搭建,以及使用智能对话助手实现视频内容的问答。
视频数据集适合以下题材的数据内容:

  • 影视剧内容:​视频平台场景的影视剧内容包含影视剧的元信息(标题、简介、类型、演员表等)和视频文件,视频数据集使用JSON对象来存储一个影视剧的元信息和传入视频文件,并可使用系列-单集的多层级结构表征电视剧的整季和电视剧的每一集的父子关系。
  • 视频课程:​使用JSON对象来存储一个课程视频的元信息和视频文件,并可使用系列-单集的多层级结构表征课程和课程下的一系列视频的父子关系。
  • 短视频:​使用JSON对象来存储一个短视频的元信息(作者、日期、关键词等)和视频文件。系统自动理解短视频内容并进行元数据补充。

视频数据集格式

与图文数据集不同,上传视频数据集前您需要按照上传要求准备媒体数据,其中媒体内容唯一标识、内容类型、视频下载链接、父内容唯一标识和序列编号必须上传且需使用固定的字段名,其他元信息用户可以使用自由字段上传。

固定字段

为确保您的视频数据能够被系统准确高效地处理和索引,请在上传前特别注意按照我们的特定要求准备媒体数据,您必须使用我们预先定义的字段名称进行存储。标识为“必需”的字段为一条数据的必传字段,包括content_id(表示这条媒体数据的唯一ID)和content_type(表示这条媒体数据为一个系列对象还是一个单视频对象)。

字段名

是否必需上传

字段说明

content_id

必需

String
媒体内容的唯一标识
每条数据必须有唯一标识

content_type

必需

String
内容类型,支持上传枚举值:

  • "collection":媒体系列对象,例如一季电视剧,类型为collection的数据不传入视频文件(若传入则会忽略视频,不会进行下载和理解),仅传入这个系列的元数据信息。
  • "video":视频对象,例如上传电视剧单集和一部电影。类型为video的数据传入视频文件以及该视频自己的元数据信息。

video_url

数据类型为系列时(如电视剧)必须为空
数据类型为视频时(如电视剧单集、电影),必需

Array<String>
火山引擎可访问的视频下载链接列表,用于视频理解和处理。
同一个content_id下上传多个video_url,上传后后台会按列表顺序将视频拼接为一个视频。

说明

此字段支持上传一个可公开访问的视频下载链接列表,但不支持通过上传任意网页链接来爬取网页上的视频。在上传前,请确保列表内所有视频文件的总大小不超过 10GB,总时长不超过 3 小时。
此外,在导入视频下载链接前,请确保这些视频的下载 URL 能够被火山引擎的官方接口域名(volcengine.com)访问。
支持上传以下格式的视频文件:

  • 通用播放格式:mp4, mkv, avi, mov, wmv, asf, rmvb
  • 流媒体格式:flv, f4v, ts, mpegts, m4s, webm, m3u8

parent_content_id

数据类型为系列时(如电视剧)必须为空。​暂不支持2层级以上的父子关系。
数据类型为视频时(如电视剧单集、电影)时可选

String
如果您的媒体信息具有层级结构(比如电视剧),则需要用此字段标识视频内容的上级内容。类型为"video"的数据,可传入视频所属系列的content_id来标识其父级内容是哪一条数据,即子内容的*parent_content_id是父内容的content_id**。*

sequence_index

当数据类型为视频时可选传入,如果视频有所属的父层级系列,则强烈建议传输。

Integer
标识多个子内容在父内容中的顺序信息(比如电视剧的集数),用于串联视频内容进行同媒体系列的跨视频理解
不传入则不会做跨视频理解。

自由元信息字段

除上述固定字段外,您也可以使用自定义字段上传其他元数据(例如:内容标题、视频时长、视频语言等),您可以为其指定任意名称,例如直接使用您数据库中已有的字段名,以简化对接过程。自由字段有以下格式要求:
字段名称:必须以字母开头,且只能包含字母、数字和下划线
字段类型:支持JSON schema的以下核心数据类型

  • String (Array)
  • Integer (Array) :支持定义Int64和Int32
  • Float (Array)
  • Boolean
  • Object (Array):支持字段中包含嵌套的JSON对象字段,最多支持三层对象嵌套关系。

    关于数据层级

    为了帮助您更加清晰地管理和区分系列作品与独立作品,AI搜索支持媒体数据按层级上传,支持2层媒体关系,使用*content_idparent_content_id​*字段定义,每个层级的媒体内容可以有自己的元数据。
    使用层级关系可实现以下业务诉求:

    • 视频内容串联理解:在同一个父内容下的视频内容可做跨视频理解,您需要在父内容下指定字内容的序列排序(使用整型字段sequence_index),视频理解时将理解父内容下的所有子内容视频,实现内容的串联和上下文理解。
    • 聚焦核心内容展示:在影视剧场景下您可能期望用户在进行搜索推荐时只在返回列表中展示父层级内容(比如搜到电视剧而不搜到电视剧单集),您可以在控制台配置视频搜索结果返回策略来实现召回时仅展示父层级内容。

    以下是关于内容层级的详细说明:

    内容类型

    类型说明

    示例

    系列

    层级的顶层,这类内容通常指系列作品,最典型的例子是电视剧。
    其结构特点如下:
    content_id:内容唯一标识,作为子内容的*parent_content_id*
    content_type:"collection"
    video_url:必须为空
    parent_content_id:必须为空
    sequence_index:必须为空

    {
      "content_id": "tv_series_67890",
      "content_type":"collection",
      "video_url": null,
      "parent_content_id": null,
      "sequence_index": null,
      "title": "甄嬛传",
      "director": "郑晓龙",
      "actors": ["孙俪", "陈建斌", "蔡少芬"],
      "first_air_date": "2011-11-17",
      "douban_rating": 9.3,
      "genres": ["剧情", "古装"],
      "plot_summary": "时为满清雍正元年,结束了血腥的夺位之争,新的君主继位,国泰民安,政治清明,但在一片祥和的表象之下,一股暗流蠢蠢欲动。后宫选秀,少女甄嬛与自永安县来的好友眉庄、陵容参加选秀,因容貌酷似已故的纯元皇后,更兼聪慧机敏,立刻引起皇帝的注意……",
      "actor_list": [
        {"actor_name": "孙俪", "role_name": "甄嬛"},
        {"actor_name": "陈建斌", "role_name": "雍正"},
        {"actor_name": "蔡少芬", "role_name": "皇后"}
      ],
      "language": "zh-CN",
      "media_link": "https://example.com/tv_series/67890/"
    }
    

    在系列中的视频

    层级中的第2层,代表系列内容中的一部分,例如电视剧的其中一集。每个子内容都明确隶属于一个父内容。
    其结构特点如下:
    content_id:内容唯一标识
    content_type:"video"
    video_url:必需,视频文件url
    parent_content_id**:​父内容的*content_id*
    sequence_index:标识多个子内容在父内容中的顺序信息

    {
      "content_id": "tv_series_67890_episode_01",
      "content_type":"video",
      "video_url": ["https://example.com/tv_series/67890/episode_01.mp4"],
      "parent_content_id": "tv_series_67890",
      "sequence_index": 1,
      "title": "甄嬛传第一集",
      "director": "郑晓龙",
      "actors": ["孙俪", "陈建斌", "蔡少芬"],
      "first_air_date": "2011-11-17",
      "douban_rating": null,
      "genres": ["剧情", "古装"],
      "episode_summary": "时为满清雍正元年,结束了血腥的夺位之争,新的君主继位,国泰民安,政治清明,但在一片祥和的表象之下,一股暗流蠢蠢欲动。后宫选秀,少女甄嬛与自永安县来的好友眉庄、陵容参加选秀,因容貌酷似已故的纯元皇后,更兼聪慧机敏,立刻引起皇帝的注意……",
      "actor_list": [
        {"actor_name": "孙俪", "role_name": "甄嬛"},
        {"actor_name": "陈建斌", "role_name": "雍正"},
        {"actor_name": "蔡少芬", "role_name": "皇后"}
      ],
      "duration": 2700,
      "language": "zh-CN",
      "media_link": "https://example.com/tv_series/67890/episode_1/"
    }
    

    独立的视频内容

    没有层级关系的内容,本身即为一个完整的作品,例如电影。
    其结构特点如下:
    content_id:内容唯一标识
    content_type:"video"
    video_url:必需,视频文件url
    parent_content_id:必须为空
    sequence_index:必须为空

    {
      "content_id": "movie_12345",
      "content_type":"video",
      "video_url": ["https://example.com/movies/12345.mp4"],
      "parent_content_id": null,
      "sequence_index": null,
      "title": "流浪地球",
      "director": "郭帆",
      "actors": ["屈楚萧", "吴京", "李光洁"],
      "release_date": "2019-02-05",
      "douban_rating": 7.9,
      "genres": ["科幻", "冒险", "灾难"],
      "plot_summary": "近未来,科学家们发现太阳急速衰老膨胀,地球面临被吞没的灭顶之灾。为了自救,人类提出一个名为“流浪地球”的大胆计划,即倾全球之力在地球表面建造上万座发动机和转向发动机,推动地球离开太阳系,用2500年的时间奔往另外一个栖息之地。",
      "actor_list": [
        {"actor_name": "屈楚萧", "role_name": "刘启"},
        {"actor_name": "吴京", "role_name": "刘培强"},
        {"actor_name": "李光洁", "role_name": "王磊"}
      ],
      "duration": 7740,
      "language": "zh-CN",
      "media_link": "https://example.com/movies/12345/details"
    }
    

    以电视剧《甄嬛传》,《甄嬛传》第一集,电影《流浪地球》为例:

    内容示例

    content_type的值

    video_url的值

    parent_content_id

    电视剧《甄嬛传》

    "collection"

    必须为空

    必须为空

    《甄嬛传》第一集

    "video"

    必需,以["{video_download_url}"]的形式上传甄嬛传第一集的视频文件链接

    必需,上传《甄嬛传》的content_id

    电影《流浪地球》

    "video"

    必需,以["{video_download_url}"]的形式上传《流浪地球》的视频文件链接

    必须为空

    检查预留字段属性

    字段的“属性”为一系列预留的字段配置,在创建数据集时会引导您进行配置,配置为特定属性的字段将会进行特殊的处理并在搜索、推荐、对话时应用于内容理解和排序策略。在准备数据时,您可以预先判断您的数据库中是否包含以下信息,我们建议您将这些属性以既定格式传入,来最大化地利用AI 搜索引擎的智能数据处理和在线策略。
    视频数据集提供以下预置的属性:

    属性

    是否为必需属性

    适用字段类型

    属性说明

    内容标识

    必需固定字段属性

    String

    对应*content_id​*字段

    视频下载URL

    固定字段属性

    Array<String>

    对应*video_url​*字段

    父内容标识

    固定字段属性

    String

    对应*parent_content_id​*字段

    内容序号

    固定字段属性

    Integer

    对应*sequence_index​*字段

    内容标题

    非必需(强烈建议上传)

    String

    媒体内容的标题,强烈建议上传。
    每条数据仅有一个字段可用于存储标题属性。

    媒体封面图url

    非必需

    String

    媒体内容的展示封面图下载链接

    媒体页面链接

    非必需

    String

    媒体内容的跳转链接,仅做搜索列表预览展示用

    视频时长(秒)

    非必需

    Int64

    视频时长(按秒)

    视频语言(BCP 47)

    非必需

    Array<String>

    符合BCP 47标准的语言标签
    例如,中文:zh;英文:en

    发布时间(时间日期格式)

    非必需

    String

    使用日期和时间格式的字符串存储的物品上新/上架时间,可用于搜索和推荐的新度排序。
    支持上传的格式包含:

    • 标准的ISO时间日期字符串(YYYY-MM-DDThh:mm:ss+08:00)
    • 非标准的时间日期字符串(YYYY-MM-DD hh:mm:ss或精确到日期的字符串)也支持解析,系统会自动转换为标准格式存储。

    发布时间(UNIX时间戳,精确到秒)

    非必需

    Int64

    使用标准10位UNIX时间戳表示的物品上新/上架时间,可用于搜索和推荐的新度排序策略。

    发布时间(UNIX时间戳,精确到毫秒)

    非必需

    Int64

    使用标准13位UNIX时间戳表示的物品上新/上架时间,可用于搜索和推荐的新度排序策略。

    数据示例

    以下是一条视频数据(电视剧单集)示例:

    {
      "content_id": "tv_series_67890_episode_01",
      "video_url": ["https://example.com/tv_series/67890/episode_01.mp4"],
      "parent_content_id": "tv_series_67890",
      "sequence_index": 1,
      "title": "甄嬛传第一集",
      "director": "郑晓龙",
      "actors": ["孙俪", "陈建斌", "蔡少芬"],
      "first_air_date": "2011-11-17",
      "douban_rating": null,
      "genres": ["剧情", "古装"],
      "episode_summary": "时为满清雍正元年,结束了血腥的夺位之争,新的君主继位,国泰民安,政治清明,但在一片祥和的表象之下,一股暗流蠢蠢欲动。后宫选秀,少女甄嬛与自永安县来的好友眉庄、陵容参加选秀,因容貌酷似已故的纯元皇后,更兼聪慧机敏,立刻引起皇帝的注意……",
      "actor_list": [
        {"actor_name": "孙俪", "role_name": "甄嬛"},
        {"actor_name": "陈建斌", "role_name": "雍正"},
        {"actor_name": "蔡少芬", "role_name": "皇后"}
      ],
      "duration": 2700,
      "language": "zh-CN",
      "media_link": "https://example.com/tv_series/67890/episode_1/"
    }
    

    示例字段

    字段类型

    字段属性

    字段含义

    content_id (固定字段)

    String

    内容标识

    媒体内容的唯一标识

    video_url(固定字段)

    Array

    视频下载URL

    媒体内容下视频的下载链接

    parent_content_id(固定字段)

    String

    父内容标识

    媒体内容所属父内容的唯一标识

    sequence_index(固定字段)

    Integer

    内容序号

    媒体内容在父内容中的顺序信息

    title

    String

    内容标题

    媒体内容的展示标题

    director

    String

    媒体内容的导演

    actors

    Array

    媒体内容的演员列表

    first_air_date

    String

    发布时间(时间日期格式)

    媒体内容的发布时间

    douban_rating

    Float

    媒体内容的豆瓣评分

    genres

    Array

    媒体内容的类型

    episode_summary

    String

    媒体内容的内容总结

    actor_list

    Array

    媒体内容的演员-角色对照表

    • actor_list.actor_name

    String

    演员名

    • actors_list.role_name

    String

    演员扮演的角色

    duration

    Int64

    视频时长(秒)

    媒体内容的时长

    language

    String

    视频语言(BCP 47)

    媒体内容的语言

    media_link

    String

    媒体页面链接

    媒体内容的跳转链接

最近更新时间:2025.10.16 23:25:05
这个页面对您有帮助吗?
有用
有用
无用
无用