You need to enable JavaScript to run this app.
向量数据库VikingDB

向量数据库VikingDB

复制全文
操作指南
音视频知识问答核心流程
复制全文
音视频知识问答核心流程

本文介绍了音视频知识问答的核心实现流程,包括创建全模态知识库、导入音视频、检索知识以及进行知识问答等步骤,并说明了关键参数和参数优化方法。


准备工作
  • 您已注册火山引擎账号。操作方法参见账号注册流程
  • 您的火山引擎账号已完成实名认证。操作方法参见基本介绍
  • (推荐)为确保您的云资源使用安全,应避免直接使用火山引擎账号(即主账号)访问,建议以访问控制 IAM(Identity and Access Management)身份使用。操作方法参见知识库权限资源

流程概览

实现音视频知识问答的核心流程概览如下图所示。

创建全模态知识库

首先请按照以下步骤创建和配置知识库。

  1. 打开知识库页面,点击立即创建,并在弹窗中选择旗舰版,然后在弹窗底部点击创建「旗舰版」知识库

    说明

    旗舰版支持上传音视频文件。

    Image
  2. 创建旗舰版知识库页面上完成参数配置。

点击查看配置说明

参数

子参数

说明

基础信息

名称

输入自定义的知识库名称。

描述

输入自定义的知识库描述。

数据类型

为实现基于音视频的知识问答,此处选择全模态知识库

配置知识库

向量化模型

知识内容

为实现基于音视频的知识问答,此处选择音视频

向量模型

建议选择关键词模型
该参数会影响计费,详情参见知识库计费

向量维度

建议选择 2048。通常维度越高,检索越准确。如果没有极高性能要求和超大规模数据量,建议不要轻易降维。

切片方式

视频切片方式

  • 内容智能切片:结合自动语音识别 ASR(Automatic Speech Recognition)和镜头语言,在保留完整 ASR 的基础上,按照镜头的最小粒度分片,适合广告营销、影视视频等。
    • 切片规则:提供连续剪裁分段高光提取两种预设模板,同时也支持自定义配置。
    • 智能大纲总结:开启该选项,即可使用大模型对视频内容进行智能大纲总结,快速定位相应视频片段。
  • 语音语义切片:纯 ASR 分片效果,完整语义合并到最大分片长度为止,不考虑镜头切换。适合语音信息密度大的视频,如教育培训、会议录屏。
    • 切片长度:经过解析、切片处理后单个视频片的最大长度。

      注意

      请确保切片最大长度略小于向量化模型的最大输入长度,否则视频超长的部分会被模型丢弃。默认为 30 秒。

    • 智能大纲总结:开启该选项,即可使用大模型对视频内容进行智能大纲总结,快速定位相应视频片段。
    • 合并短视频片段:开启该选项,即可合并过短的视频片段,从而降低切片视频长度分布不均对召回分数的影响。

音频切片方式

  • 切片最大长度:经过解析、切片处理后单个文本片的最大长度。

    注意

    请确保切片最大长度略小于向量化模型的最大输入长度,否则文本超长的部分会被模型丢弃。默认为 2000 字符。

  • 智能大纲总结:开启该选项,即可使用大模型对音频内容进行智能大纲总结,快速定位相应音频片段。

CPU 配额

选择知识库可使用的计算资源大小,按 CU(Compute Unit)计量,1 CU 包含的计算资源为 8 GB 内存和 1 CPU Core。
该参数会影响计费,详情参见知识库计费

高级配置

索引算法

固定选择 HNSW-Hybrid

量化方式

索引中对向量的压缩方式,可以降低向量间相似性计算的复杂度。可选择 FloatInt8Fix16

文档标签

标签可用于后续对所传音视频进行分类,在检索时可以优先对指定类型进行过滤,再对音视频内容进行检索,降低检索成本和延时。
应用示例:
例如创建一个名为音视频权限的标签。上传音视频后,将音视频 1 的 音视频权限 标签值设为内部,将音视频 2 的 音视频权限标签值设为公开。在检索测试时,即可配置检索范围为音视频权限包含内部的全部音视频,实现不同用户在音视频问答时可分级管理模型参考内容。

  1. 配置完毕后,在页面右侧确认费用信息,并点击创建知识库

导入音视频

创建知识库后,您可以通过多种方式导入音视频。

  1. 打开知识库页面
  2. 知识库页面上找到您已经创建好的知识库,将鼠标指针悬停在卡片上,并选择 •••导入文档
    Image
  3. 在导入文档页面上,选择以下的一种方式导入音视频:

    说明

    支持的视频格式为 MP4,支持的音频格式包括 MP3、WAV、AAC、FLAC、OGG。

    • 本地上传:当需要导入的本地数据数量较少、文件较小时,可以直接从本地上传到知识库。
    • 从对象存储 TOS(Torch Object Storage)中导入:当需要导入的本地数据较多时(例如大于 100 条),建议考虑先将数据上传至 TOS,再批量导入知识库。关于如何开通 TOS,请参见 TOS 快速入门
    • 公开下载链接:支持通过公开下载链接来导入音视频。

查看切片详情

知识库完成了音视频文件的切片分析后,您可以查看每个切片的详情,包括画面总结(仅适用于视频)、转录文稿、智能大纲等。

  1. 打开知识库页面
  2. 知识库页面上找到您已经创建好的知识库并点击卡片。
  3. 在知识库详情页面上点击切片详情标签页,并选择一个切片。
  4. 在切片详情页面上,您可以查看以下信息:
    Image
    • 画面总结:如果上传的是视频,则知识库会自动对视频画面进行分析和总结。
    • 转录文稿:知识库支持识别说话人及字幕并生成转录文稿。
    • 智能大纲:知识库支持自动生成切片的内容大纲。

检索知识

当知识库中的音视频文件处理完成后,您可以检索其中的信息,适用场景包括音视频素材检索、视频高光片段检索、知识点检索等。

  1. 打开知识库页面
  2. 知识库页面上找到您已经创建好的知识库并点击卡片。
  3. 在知识库详情页面上点击知识检索标签页,即可在检索输入框中输入关键字并检索。
    Image

关键参数配置说明

除音视频处理外,检索策略配置同样对召回效果具有至关重要的影响。切片检索参数配置如下:

  • 结果返回数量:检索召回的最终切片数量。
  • 重排模型:通过大模型将用户问题和召回切片进行语义化重排,提高准确切片的召回位次和得分。
  • 进入重排数量:当开启重排模型时可配置此项。通常情况下,进入重排数量要大于结果返回数量,即尽可能多地把相似切片召回,再通过重排和截断,将最终进入大模型的切片限制为最精准的小部分切片。
  • Dense Weight:当采用混合检索模式时,Dense Weight 参数可以调整语义化检索比重。值为1时表示全语义化检索。
  • 标签过滤:配合创建知识库时的标签过滤字段使用。例如,可配置检索范围为音视频权限包含内部的全部音视频,从而实现不同用户在音视频问答时可分级管理模型参考内容。

切片检索时,召回的切片将按照位次进行依次展示,可直观查看切片是否正确,得分是否符合预期。


进行知识问答

当知识库中的音视频文件处理完成后,您可以进行基于该知识库的知识问答,适用场景包括培训、教育、产品介绍、发布会直播等。

  1. 打开知识库页面
  2. 知识库页面上找到您已经创建好的知识库并点击卡片。
  3. 在知识库详情页面上点击知识问答标签页,即可与知识问答助手开展对话。
    Image

关键参数配置说明

除前文介绍的切片检索参数外,以下参数对模型端到端回答效果也有显著影响:

  • 检索参数:
    • 问题改写:基于历史对话对本轮问题进行改写,使其具备更完整的语义信息,检索更准确。默认关闭。

      说明

      开启该参数会增加检索时长和额外的 token 消耗。

    • 文档聚合排序:按照原始视频顺序对召回的切片进行排序聚合,以保证语序和语义正确。默认开启。
  • 模型回答参数:
    • 选择模型:仅可选择多模态视频理解模型。模型名称中的数字表示大模型输入输出窗口长度,日期表示模型版本(版本越新综合效果越好)。pro后缀表示高精度,lite后缀表示高性能。支持选择公共推理接入点或使用自建推理接入点。
    • 拼接临近文本片数量:当单切片字符数较小时,为避免上下文信息丢失,可以通过配置临近文本片拼接,将更全量的信息传递给大模型。例如,将拼接临近文本片数量的值设为1,当召回切片为切片 8 时,最终会将切片 7、切片 8、切片 9 进行拼接,然后传递给大模型。
    • 编写 prompt:系统提供了默认 prompt,您也可以根据实际需要提出更具体的回答要求。例如:请使用尽量专业的术语进行回答。

查看相关信息

Image

  • 查看 token 用量详情:将鼠标指针悬停在问答内容底部的 token 用量图标上,即可查看 token 用量的详细统计数据。如果开启了问题改写,则可以看到改写消耗的 token 数量。
  • 查看召回信息:在问答内容底部点击召回详情,可以查看更为详细的回答引用信息,辅助您定位问题。如果开启了文档聚合排序,则可以看到平台会基于文档的语义信息进行召回排序。
最近更新时间:2026.01.14 16:37:01
这个页面对您有帮助吗?
有用
有用
无用
无用