本文介绍了音视频知识问答的核心实现流程,包括创建全模态知识库、导入音视频、检索知识以及进行知识问答等步骤,并说明了关键参数和参数优化方法。
准备工作
- 您已注册火山引擎账号。操作方法参见账号注册流程。
- 您的火山引擎账号已完成实名认证。操作方法参见基本介绍。
- (推荐)为确保您的云资源使用安全,应避免直接使用火山引擎账号(即主账号)访问,建议以访问控制 IAM(Identity and Access Management)身份使用。操作方法参见知识库权限资源。
流程概览
实现音视频知识问答的核心流程概览如下图所示。

创建全模态知识库
首先请按照以下步骤创建和配置知识库。
- 打开知识库页面,点击立即创建,并在弹窗中选择旗舰版,然后在弹窗底部点击创建「旗舰版」知识库。

- 在创建旗舰版知识库页面上完成参数配置。
点击查看配置说明
参数 | 子参数 | 说明 |
|---|
基础信息 |
名称 | 无 | 输入自定义的知识库名称。 |
描述 | 无 | 输入自定义的知识库描述。 |
数据类型 | 无 | 为实现基于音视频的知识问答,此处选择全模态知识库。 |
配置知识库 |
向量化模型 | 知识内容 | 为实现基于音视频的知识问答,此处选择音视频。 |
向量模型 | 建议选择关键词模型。
该参数会影响计费,详情参见知识库计费。 |
向量维度 | 建议选择 2048。通常维度越高,检索越准确。如果没有极高性能要求和超大规模数据量,建议不要轻易降维。 |
切片方式 | 视频切片方式 | - 内容智能切片:结合自动语音识别 ASR(Automatic Speech Recognition)和镜头语言,在保留完整 ASR 的基础上,按照镜头的最小粒度分片,适合广告营销、影视视频等。
- 切片规则:提供连续剪裁分段与高光提取两种预设模板,同时也支持自定义配置。
- 智能大纲总结:开启该选项,即可使用大模型对视频内容进行智能大纲总结,快速定位相应视频片段。
- 语音语义切片:纯 ASR 分片效果,完整语义合并到最大分片长度为止,不考虑镜头切换。适合语音信息密度大的视频,如教育培训、会议录屏。
- 切片长度:经过解析、切片处理后单个视频片的最大长度。
注意 请确保切片最大长度略小于向量化模型的最大输入长度,否则视频超长的部分会被模型丢弃。默认为 30 秒。 - 智能大纲总结:开启该选项,即可使用大模型对视频内容进行智能大纲总结,快速定位相应视频片段。
- 合并短视频片段:开启该选项,即可合并过短的视频片段,从而降低切片视频长度分布不均对召回分数的影响。
|
音频切片方式 | - 切片最大长度:经过解析、切片处理后单个文本片的最大长度。
注意 请确保切片最大长度略小于向量化模型的最大输入长度,否则文本超长的部分会被模型丢弃。默认为 2000 字符。 - 智能大纲总结:开启该选项,即可使用大模型对音频内容进行智能大纲总结,快速定位相应音频片段。
|
CPU 配额 | 无 | 选择知识库可使用的计算资源大小,按 CU(Compute Unit)计量,1 CU 包含的计算资源为 8 GB 内存和 1 CPU Core。
该参数会影响计费,详情参见知识库计费。 |
高级配置 |
索引算法 | 无 | 固定选择 HNSW-Hybrid。 |
量化方式 | 无 | 索引中对向量的压缩方式,可以降低向量间相似性计算的复杂度。可选择 Float、Int8 或 Fix16。 |
文档标签 | 无 | 标签可用于后续对所传音视频进行分类,在检索时可以优先对指定类型进行过滤,再对音视频内容进行检索,降低检索成本和延时。
应用示例:
例如创建一个名为音视频权限的标签。上传音视频后,将音视频 1 的 音视频权限 标签值设为内部,将音视频 2 的 音视频权限标签值设为公开。在检索测试时,即可配置检索范围为音视频权限包含内部的全部音视频,实现不同用户在音视频问答时可分级管理模型参考内容。 |
- 配置完毕后,在页面右侧确认费用信息,并点击创建知识库。
导入音视频
创建知识库后,您可以通过多种方式导入音视频。
- 打开知识库页面。
- 在知识库页面上找到您已经创建好的知识库,将鼠标指针悬停在卡片上,并选择 ••• > 导入文档。

- 在导入文档页面上,选择以下的一种方式导入音视频:
说明
支持的视频格式为 MP4,支持的音频格式包括 MP3、WAV、AAC、FLAC、OGG。
- 本地上传:当需要导入的本地数据数量较少、文件较小时,可以直接从本地上传到知识库。
- 从对象存储 TOS(Torch Object Storage)中导入:当需要导入的本地数据较多时(例如大于 100 条),建议考虑先将数据上传至 TOS,再批量导入知识库。关于如何开通 TOS,请参见 TOS 快速入门。
- 公开下载链接:支持通过公开下载链接来导入音视频。
查看切片详情
知识库完成了音视频文件的切片分析后,您可以查看每个切片的详情,包括画面总结(仅适用于视频)、转录文稿、智能大纲等。
- 打开知识库页面。
- 在知识库页面上找到您已经创建好的知识库并点击卡片。
- 在知识库详情页面上点击切片详情标签页,并选择一个切片。
- 在切片详情页面上,您可以查看以下信息:

- 画面总结:如果上传的是视频,则知识库会自动对视频画面进行分析和总结。
- 转录文稿:知识库支持识别说话人及字幕并生成转录文稿。
- 智能大纲:知识库支持自动生成切片的内容大纲。
检索知识
当知识库中的音视频文件处理完成后,您可以检索其中的信息,适用场景包括音视频素材检索、视频高光片段检索、知识点检索等。
- 打开知识库页面。
- 在知识库页面上找到您已经创建好的知识库并点击卡片。
- 在知识库详情页面上点击知识检索标签页,即可在检索输入框中输入关键字并检索。

关键参数配置说明
除音视频处理外,检索策略配置同样对召回效果具有至关重要的影响。切片检索参数配置如下:
- 结果返回数量:检索召回的最终切片数量。
- 重排模型:通过大模型将用户问题和召回切片进行语义化重排,提高准确切片的召回位次和得分。
- 进入重排数量:当开启重排模型时可配置此项。通常情况下,进入重排数量要大于结果返回数量,即尽可能多地把相似切片召回,再通过重排和截断,将最终进入大模型的切片限制为最精准的小部分切片。
- Dense Weight:当采用混合检索模式时,Dense Weight 参数可以调整语义化检索比重。值为
1时表示全语义化检索。 - 标签过滤:配合创建知识库时的标签过滤字段使用。例如,可配置检索范围为
音视频权限包含内部的全部音视频,从而实现不同用户在音视频问答时可分级管理模型参考内容。
切片检索时,召回的切片将按照位次进行依次展示,可直观查看切片是否正确,得分是否符合预期。
进行知识问答
当知识库中的音视频文件处理完成后,您可以进行基于该知识库的知识问答,适用场景包括培训、教育、产品介绍、发布会直播等。
- 打开知识库页面。
- 在知识库页面上找到您已经创建好的知识库并点击卡片。
- 在知识库详情页面上点击知识问答标签页,即可与知识问答助手开展对话。

关键参数配置说明
除前文介绍的切片检索参数外,以下参数对模型端到端回答效果也有显著影响:
- 检索参数:
- 问题改写:基于历史对话对本轮问题进行改写,使其具备更完整的语义信息,检索更准确。默认关闭。
说明
开启该参数会增加检索时长和额外的 token 消耗。
- 文档聚合排序:按照原始视频顺序对召回的切片进行排序聚合,以保证语序和语义正确。默认开启。
- 模型回答参数:
- 选择模型:仅可选择多模态视频理解模型。模型名称中的数字表示大模型输入输出窗口长度,日期表示模型版本(版本越新综合效果越好)。
pro后缀表示高精度,lite后缀表示高性能。支持选择公共推理接入点或使用自建推理接入点。 - 拼接临近文本片数量:当单切片字符数较小时,为避免上下文信息丢失,可以通过配置临近文本片拼接,将更全量的信息传递给大模型。例如,将拼接临近文本片数量的值设为
1,当召回切片为切片 8 时,最终会将切片 7、切片 8、切片 9 进行拼接,然后传递给大模型。 - 编写 prompt:系统提供了默认 prompt,您也可以根据实际需要提出更具体的回答要求。例如:请使用尽量专业的术语进行回答。
查看相关信息

- 查看 token 用量详情:将鼠标指针悬停在问答内容底部的 token 用量图标上,即可查看 token 用量的详细统计数据。如果开启了问题改写,则可以看到改写消耗的 token 数量。
- 查看召回信息:在问答内容底部点击召回详情,可以查看更为详细的回答引用信息,辅助您定位问题。如果开启了文档聚合排序,则可以看到平台会基于文档的语义信息进行召回排序。