向量数据库VikingDB
随着短视频平台崛起与长视频内容爆发,人工剪辑高光片段面临效率低(单小时视频需数小时编辑)、成本高(专业剪辑师人力成本)、标准不一(主观判断差异大)等痛点。基于多模态大模型的自动化高光提取技术,通过融合视觉、音频、文本语义理解能力,可实现高光片段的精准识别与智能剪辑,大幅提升内容生产效率。
场景类型 | 核心需求 | 示例场景 |
|---|---|---|
体育赛事 | 识别进球、扑救、点球等精彩片段 | 足球比赛、冰壶比赛等 |
游戏赛事 | 识别击杀、反杀、连杀等精彩片段 | 电竞比赛、游戏直播等 |
内容创作 | 提取情绪高潮、关键转场 | Vlog、动画短片等 |
企业营销 | 截取产品亮点、用户反馈关键片段 | 产品演示视频、访谈录像等 |
教育培训 | 定位知识点讲解、案例分析片段 | 线上课程、讲座录像等 |
利用 Doubao 视觉理解大模型,基于连续画面、语音、语义综合特征,实现高光片段的精准识别。
开放灵活的剪辑策略配置,内置常用模版,并支持 prompt 调试。
支持多模态 embedding 和 rerank 模型,基于自然语言快速检索到目标高光切片。
为直观呈现视频知识库的高光提取能力,本文选取 网球赛事 这一典型场景展开说明。以网球领域标杆平台 WTA 官网为例,其通过 MATCH HIGHLIGHTS(赛事精华)与 HOT SHOTS(高光镜头)两大板块,为用户提供轻量化、高价值的赛事内容。基于视频知识库,即可高效实现同款功能的落地应用。
务必创建【旗舰版】知识库,并在创建页面选择:数据类型【全模态知识库】,知识内容【音视频】;
点击视频切片规则的【编辑】按钮,选择【高光提取模版】,并进行 prompt 配置。
点击【导入文档】,支持三种导入方式:本地上传、从 TOS 中导入、通过公开下载链接导入。
文档处理完成后,点击【切片详情】即可查看高光片段。
若对高光提取效果不满意,可通过编辑知识库,修改对应 prompt 配置并更新知识库,重新导入视频后,视频知识库将按照新的视频切片规则执行切片。
视频处理完成后,可通过 知识检索 功能查找相关高光片段。建议开启重排模型以提升检索效果;也可启用阈值过滤,低于对应分数的结果将不被返回;若存在相关标签,还能通过标签过滤限定检索范围。