You need to enable JavaScript to run this app.
向量数据库VikingDB

向量数据库VikingDB

复制全文
操作指南
音视频知识问答核心流程
复制全文
音视频知识问答核心流程

前置条件
  1. 完成注册账号及开通服务
  2. 完成子账号创建及策略配置
  3. 在控制台中找到 【VikingDB】/【火山方舟】,点击知识库,进入知识库产品。

1、创建知识库

打开知识库页面后,进入知识库列表。单击知识库列表页面左上角的【创建知识库】,选择创建【旗舰版】知识库
(目前仅旗舰版支持音视频文件上传)

Image

创建知识库页面填写相关参数,参数配置建议如下:

  • 数据类型:选择【全模态知识库】/【音视频】
  • 向量化模型:建议采用【Doubao-embedding-vision-250615+关键词模型】
  • 向量维度:2048
    • 维度越高,通常检索越准确。如果没有极高性能要求和超大规模数据量,不建议轻易选择降维。
  • 切片方式
  • 视频切片方式
    • 内容智能切片:综合 ASR + 镜头语言,在保留完整 ASR 的基础上,按照镜头的最小粒度分片,适合广告营销、影视视频等。
      • 切片规则:支持自定义配置,同时提供连续剪裁分段高光提取两种快捷模板。
      • 智能大纲总结:当选择“内容智能切片”时,支持使用大模型对视频内容进行智能大纲总结,快速定位相应视频片段。
    • 语音语义切片:纯 ASR 分片效果,完整语义合并到最大分片长度为止,不考虑镜头切换。适合语音信息密度大的视频类型的视频,如教育培训、会议录屏。
      • 切片长度:当选择“语音语义切片”时,需指定切片长度,即经过解析、切片处理后单个视频片的最大长度。请确保切片最大长度略小于向量化模型的最大输入长度,否则视频超长的部分会被模型丢弃。默认为30s。
      • 智能大纲总结:当选择“语音语义切片”时,支持使用大模型对视频内容进行智能大纲总结,快速定位相应视频片段。
      • 合并短视频片段:当选择“语音语义切片”时,支持开启【合并短视频片段】功能,将过短的视频片段进行合并,降低切片视频长度分布不均对召回分数的影响。
  • 音频切片方式
    • 切片最大长度:经过解析、切片处理后单个文本片的最大长度。请确保切片最大长度略小于向量化模型的最大输入长度,否则文本超长的部分会被模型丢弃。默认为2000字符。
    • 智能大纲总结:支持使用大模型对音频内容进行智能大纲总结,快速定位相应音频片段。
视频切片规则
智能大纲总结
  • 标签:标签可用于后续对所传音视频进行分类,在检索时可以优先对指定类型进行过滤,再对音视频内容进行检索,降低检索成本和时延。(如设置标签为 “音视频权限”,上传音视频后,可设定音视频 1 的 “音视频权限” == “内部”,音视频 2 的 “音视频权限” == “公开”。在检索测试时,即可配置检索范围为 “音视频权限” 包含 “内部” 的全部音视频,实现不同用户在音视频问答时可分级管理模型参考内容)

填写完成后单击右侧【创建知识库】
Image

2、导入音视频

创建知识库后,可按照引导进行音视频上传。知识库支持 本地上传 / TOS 导入(需先购买 TOS 并进行授权)/ 公开下载链接 的方式进行音视频上传。

  • 通常当本地有较多数据(>100)需要批量导入或单个视频大小超过 350MB 时,建议优先考虑将数据上传至 TOS,再导入知识库。
  • 视频格式支持 MP4,音频格式支持 MP3、WAV、AAC、FLAC、OGG。

Image

3、切片详情

点击【切片详情】可查看全部知识库内音视频切片,点击单个音视频文件可以查看原始音视频及切片对比预览。
Image
音视频知识库支持识别视频说话人及字幕并生成转录文稿,同时提供智能大纲生成与切片画面总结能力。
Image

4、知识检索

说明

适用场景:音视频素材检索,视频高光片段检索,知识点检索等

当音视频处理完成后,可点击【知识检索】进行调试
Image
进行【知识检索】时,检索策略的配置同样对召回效果起着至关重要的影响。切片检索参数配置如下:

  • 检索参数
    • 返回文本片数量:检索召回的最终切片数量。
    • 重排模型:将用户问题和召回切片通过大模型,进行语义化重排,提高准确切片的召回位次和得分。
      • 召回数量:仅当开启重排模型时,需要配置“召回数量”。通常情况下,“召回数量”要大于“返回文本片数量”,即尽可能多的把相似切片召回,再通过重排+截断,控制最终进入大模型的切片为最精准的小部分切片。
    • denseweight:当采用混合检索模式时,denseweight 参数可以调整语义化检索比重,denseweight = 1,即为全语义化检索。
    • 标签过滤:配合创建知识库时的标量标签过滤字段使用。如可配置检索范围为 “音视频权限” 包含 “内部” 的全部音视频,从而解决不同用户在音视频问答时可分级管理模型参考内容

切片检索时,召回的切片将按照位次进行依次展示,可直观查看切片是否正确,得分是否符合预期。
Image

5、知识问答

说明

适用场景:培训/教育/产品介绍/发布会直播等场景智能问答

当音视频处理完成后,可点击【知识问答】进行测试
Image
除上述介绍的检索参数外,以下参数对模型端到端回答效果也有显著影响:

  • 检索参数
    • 问题改写:基于历史对话对本轮问题进行改写,使其具备更完整的语义信息,检索更准确。默认关闭。注意:开启改写问题会增加检索时长和额外的 Tokens 消耗。
  • 更多参数
    • 文档聚合排序:按照原始视频顺序,对召回的切片进行排序聚合,以保证语序和语义正确。默认开启
  • 模型参数配置如下:
    • 选择模型:仅多模态视频理解模型可选择
      • 平台提供多个模型及版本,支持选择公共推理接入点或使用自建推理接入点
      • "pro" 代表高精度,“lite” 代表高性能,数字大小代表大模型输入输出窗口长度,日期表示模型版本,版本越新,综合效果越好
    • 拼接临近文本片数量:当单切片字符数较小时,为避免上下文信息丢失,可以通过配置临近文本片拼接,将更全量的信息输入给大模型。如,召回切片为 chunk 8 时,”拼接临近文本片“ == 1 时,最终会将 chunk 7,chunk 8,chunk 9 进行拼接,输入大模型
    • 编写 prompt:系统提供了默认 prompt,也可以根据实际对话需要,给出更加具体的回答要求。如“请使用尽量专业的术语进行回答”

点击【召回详情】可以查看更为详细的回答引用信息,辅助定位问题。如果打开了文档聚合排序参数,可以看到平台会基于文档的语义信息进行召回排序。

Image

点击 【tokens】详情可查看整个问答过程中的 tokens 消耗。如果打开了问题改写参数,可以看到改写消耗的 tokens数量。

Image

最近更新时间:2026.01.02 22:39:27
这个页面对您有帮助吗?
有用
有用
无用
无用