音视频知识问答核心流程--向量数据库VikingDB-火山引擎

文档中心

向量数据库VikingDB

操作指南

音视频知识问答核心流程

本文介绍了音视频知识问答的核心实现流程，包括创建全模态知识库、导入音视频、检索知识以及进行知识问答等步骤，并说明了关键参数和参数优化方法。

准备工作

您已注册火山引擎账号。操作方法参见账号注册流程。
您的火山引擎账号已完成实名认证。操作方法参见基本介绍。
（推荐）为确保您的云资源使用安全，应避免直接使用火山引擎账号（即主账号）访问，建议以访问控制 IAM（Identity and Access Management）身份使用。操作方法参见知识库权限资源。

流程概览

实现音视频知识问答的核心流程概览如下图所示。

创建全模态知识库

首先请按照以下步骤创建和配置知识库。

打开知识库页面，点击立即创建，并在弹窗中选择旗舰版，然后在弹窗底部点击创建「旗舰版」知识库。
说明
仅旗舰版支持上传音视频文件。
在创建旗舰版知识库页面上完成参数配置。

点击查看配置说明

参数	子参数	说明
基础信息
名称	无	输入自定义的知识库名称。
描述	无	输入自定义的知识库描述。
数据类型	无	为实现基于音视频的知识问答，此处选择全模态知识库。
配置知识库
向量化模型	知识内容	为实现基于音视频的知识问答，此处选择音视频。
	向量模型	建议选择关键词模型。该参数会影响计费，详情参见知识库计费。
	向量维度	建议选择 2048。通常维度越高，检索越准确。如果没有极高性能要求和超大规模数据量，建议不要轻易降维。
切片方式	视频切片方式	内容智能切片：结合自动语音识别 ASR（Automatic Speech Recognition）和镜头语言，在保留完整 ASR 的基础上，按照镜头的最小粒度分片，适合广告营销、影视视频等。切片规则：提供连续剪裁分段与高光提取两种预设模板，同时也支持自定义配置。智能大纲总结：开启该选项，即可使用大模型对视频内容进行智能大纲总结，快速定位相应视频片段。语音语义切片：纯 ASR 分片效果，完整语义合并到最大分片长度为止，不考虑镜头切换。适合语音信息密度大的视频，如教育培训、会议录屏。切片长度：经过解析、切片处理后单个视频片的最大长度。注意请确保切片最大长度略小于向量化模型的最大输入长度，否则视频超长的部分会被模型丢弃。默认为 30 秒。智能大纲总结：开启该选项，即可使用大模型对视频内容进行智能大纲总结，快速定位相应视频片段。合并短视频片段：开启该选项，即可合并过短的视频片段，从而降低切片视频长度分布不均对召回分数的影响。
切片方式	音频切片方式	切片最大长度：经过解析、切片处理后单个文本片的最大长度。注意请确保切片最大长度略小于向量化模型的最大输入长度，否则文本超长的部分会被模型丢弃。默认为 2000 字符。智能大纲总结：开启该选项，即可使用大模型对音频内容进行智能大纲总结，快速定位相应音频片段。
CPU 配额	无	选择知识库可使用的计算资源大小，按 CU（Compute Unit）计量，1 CU 包含的计算资源为 8 GB 内存和 1 CPU Core。该参数会影响计费，详情参见知识库计费。
高级配置
索引算法	无	固定选择 HNSW-Hybrid。
量化方式	无	索引中对向量的压缩方式，可以降低向量间相似性计算的复杂度。可选择 Float、Int8 或 Fix16。
文档标签	无	标签可用于后续对所传音视频进行分类，在检索时可以优先对指定类型进行过滤，再对音视频内容进行检索，降低检索成本和延时。应用示例：例如创建一个名为`音视频权限`的标签。上传音视频后，将音视频 1 的 `音视频权限` 标签值设为`内部`，将音视频 2 的 `音视频权限`标签值设为`公开`。在检索测试时，即可配置检索范围为`音视频权限`包含`内部`的全部音视频，实现不同用户在音视频问答时可分级管理模型参考内容。

配置完毕后，在页面右侧确认费用信息，并点击创建知识库。

导入音视频

创建知识库后，您可以通过多种方式导入音视频。

打开知识库页面。
在知识库页面上找到您已经创建好的知识库，将鼠标指针悬停在卡片上，并选择 ••• ＞ 导入文档。
在导入文档页面上，选择以下的一种方式导入音视频：
说明
支持的视频格式为 MP4，支持的音频格式包括 MP3、WAV、AAC、FLAC、OGG。
- 本地上传：当需要导入的本地数据数量较少、文件较小时，可以直接从本地上传到知识库。
- 从对象存储 TOS（Torch Object Storage）中导入：当需要导入的本地数据较多时（例如大于 100 条），建议考虑先将数据上传至 TOS，再批量导入知识库。关于如何开通 TOS，请参见 TOS 快速入门。
- 公开下载链接：支持通过公开下载链接来导入音视频。

查看切片详情

知识库完成了音视频文件的切片分析后，您可以查看每个切片的详情，包括画面总结（仅适用于视频）、转录文稿、智能大纲等。

打开知识库页面。
在知识库页面上找到您已经创建好的知识库并点击卡片。
在知识库详情页面上点击切片详情标签页，并选择一个切片。
在切片详情页面上，您可以查看以下信息：
- 画面总结：如果上传的是视频，则知识库会自动对视频画面进行分析和总结。
- 转录文稿：知识库支持识别说话人及字幕并生成转录文稿。
- 智能大纲：知识库支持自动生成切片的内容大纲。

检索知识

当知识库中的音视频文件处理完成后，您可以检索其中的信息，适用场景包括音视频素材检索、视频高光片段检索、知识点检索等。

打开知识库页面。
在知识库页面上找到您已经创建好的知识库并点击卡片。
在知识库详情页面上点击知识检索标签页，即可在检索输入框中输入关键字并检索。

关键参数配置说明

除音视频处理外，检索策略配置同样对召回效果具有至关重要的影响。切片检索参数配置如下：

结果返回数量：检索召回的最终切片数量。
重排模型：通过大模型将用户问题和召回切片进行语义化重排，提高准确切片的召回位次和得分。
进入重排数量：当开启重排模型时可配置此项。通常情况下，进入重排数量要大于结果返回数量，即尽可能多地把相似切片召回，再通过重排和截断，将最终进入大模型的切片限制为最精准的小部分切片。
Dense Weight：当采用混合检索模式时，Dense Weight 参数可以调整语义化检索比重。值为1时表示全语义化检索。
标签过滤：配合创建知识库时的标签过滤字段使用。例如，可配置检索范围为音视频权限包含内部的全部音视频，从而实现不同用户在音视频问答时可分级管理模型参考内容。

切片检索时，召回的切片将按照位次进行依次展示，可直观查看切片是否正确，得分是否符合预期。

进行知识问答

当知识库中的音视频文件处理完成后，您可以进行基于该知识库的知识问答，适用场景包括培训、教育、产品介绍、发布会直播等。

打开知识库页面。
在知识库页面上找到您已经创建好的知识库并点击卡片。
在知识库详情页面上点击知识问答标签页，即可与知识问答助手开展对话。

关键参数配置说明

除前文介绍的切片检索参数外，以下参数对模型端到端回答效果也有显著影响：

检索参数：
- 问题改写：基于历史对话对本轮问题进行改写，使其具备更完整的语义信息，检索更准确。默认关闭。
  说明
  开启该参数会增加检索时长和额外的 token 消耗。
- 文档聚合排序：按照原始视频顺序对召回的切片进行排序聚合，以保证语序和语义正确。默认开启。
模型回答参数：
- 选择模型：仅可选择多模态视频理解模型。模型名称中的数字表示大模型输入输出窗口长度，日期表示模型版本（版本越新综合效果越好）。pro后缀表示高精度，lite后缀表示高性能。支持选择公共推理接入点或使用自建推理接入点。
- 拼接临近文本片数量：当单切片字符数较小时，为避免上下文信息丢失，可以通过配置临近文本片拼接，将更全量的信息传递给大模型。例如，将拼接临近文本片数量的值设为1，当召回切片为切片 8 时，最终会将切片 7、切片 8、切片 9 进行拼接，然后传递给大模型。
- 编写 prompt：系统提供了默认 prompt，您也可以根据实际需要提出更具体的回答要求。例如：请使用尽量专业的术语进行回答。

查看相关信息

查看 token 用量详情：将鼠标指针悬停在问答内容底部的 token 用量图标上，即可查看 token 用量的详细统计数据。如果开启了问题改写，则可以看到改写消耗的 token 数量。
查看召回信息：在问答内容底部点击召回详情，可以查看更为详细的回答引用信息，辅助您定位问题。如果开启了文档聚合排序，则可以看到平台会基于文档的语义信息进行召回排序。

最近更新时间：2026.01.14 16:37:01

这个页面对您有帮助吗？

有用

无用

向量数据库VikingDB

点击查看配置说明

关键参数配置说明 #

关键参数配置说明 #

查看相关信息 #

关键参数配置说明

关键参数配置说明

查看相关信息