You need to enable JavaScript to run this app.
文档中心
向量数据库VikingDB

向量数据库VikingDB

复制全文
知识库最佳实践
图文问答
复制全文
图文问答

说明

针对包含复杂图文信息的问答场景,知识库产品基于 Doubao 多模态大模型提供了一套图文问答最佳实践,提升了知识库在图像信息理解、抽取及问答任务中的准确性。

一、原理介绍

知识库基于 OCR 技术对文档内的图文进行解析召回,结合 Doubao 多模态大模型对图文内容进行理解生成。

1、Doubao 多模态大模型

Doubao 多模态大模型,具备强大的图片理解与推理能力,以及精准的指令理解能力。模型在图像文本信息抽取、基于图像的推理任务上有展现出了强大的性能,能够应用于更复杂、更广泛的视觉问答任务。
Doubao 多模态大模型可广泛应用于多个领域,如文档图片解析、教育场景中的自动批改与解题解析、工业质检中的图像识别与缺陷检测、图表内容结构化提取等。它能够有效提高图像信息处理的自动化程度,并在多模态场景中大幅提升任务的准确性和效率。
更多关于 Doubao 多模态大模型的说明可参考 Doubao 多模态大模型

2、OCR 识别

OCR(Optical Character Recognition)即光学字符识别。它是一种将图像中的文字转换为可编辑文本的技术。
OCR 技术过往在许多领域都有广泛的应用,如文档数字化、自动化数据输入、文本识别、车牌识别、票据识别等。它可以提高工作效率、减少人工输入错误,并实现信息的快速检索和处理。

二、操作步骤

1、创建知识库

在创建知识库页面,数据类型选择【非结构化数据】,切片方式选择【默认切片规则】,开启【图片 OCR 】开关。

说明

目前的知识库链路下,开启 OCR 是确保图片检索时被带回的前置步骤。

Image

2、上传文档

文档上传处理后,其中的图片会被自动解析切分,点击【切片详情】即可查看具体的切片内容。

说明

知识库目前仅对 pdf、docx 格式文档解析开放 OCR 能力。

Image

Image

3、图文知识问答

在【知识问答】页面,选择图像理解模型,可以尝试询问与图片内容相关的问题,并查看检索召回的图文和多模态模型的生成效果。

Image

选择多模态模型

Image

测试生成效果

Image

查看召回原文和原图切片

三、多模态大模型与大语言模型问答效果对比

针对图文问答场景,选择多模态大模型能够更好地理解图片中的信息,而大语言模型则难以有效回答与图片相关的问题。本节将通过两个实例展示多模态大模型在此类场景下优于大语言模型的实际效果。
样例原始文档链接:Case1Case2
Case1:咨询职业技能培训赛道的上市公司。
Query:企业家培训的公司有哪些?

Image

原始切片:完整信息需要结合图文信息

Image

大语言模型只能根据文本信息生成片面回答

Image

多模态大模型能根据图文信息生成完整回答

Case2:分析教育行业智能硬件家长用户画像。
Query:教育智能硬件家长用户画像中那个年龄的占比最大

Image

原始切片:文本信息范围较广,图片信息更细粒度

Image

大语言模型只能根据文本信息生成不准确回答

Image

多模态模型能根据图文信息生成细粒度正确回答
最近更新时间:2026.01.29 21:08:41
这个页面对您有帮助吗?
有用
有用
无用
无用