You need to enable JavaScript to run this app.
向量数据库VikingDB

向量数据库VikingDB

复制全文
知识库解决方案
文件自动打标
复制全文
文件自动打标

一、方案概述

1.1 背景

在数字化时代,企业面临海量非结构化数据的管理挑战。标签作为数据组织和应用的核心手段,发挥着不可替代的作用。传统的打标方案通常基于已预处理的结构化数据,面对企业实际场景中大量存在的PDF、Word、PPT、长视频等原始格式内容时,需要额外投入人力进行格式转换、内容提取、切片处理等预处理工作,这不仅增加了实施门槛和维护成本,也难以应对文本、图片、视频等多模态内容的统一处理需求。
此外,传统的人工打标方式也已无法满足现代业务需求,存在以下问题:

  • 效率与规模瓶颈:面对每天产生的海量数据(社交、电商、视频平台往往达到亿级规模),人工打标速度远无法满足业务需求,且成本高昂
  • 实时性不足:​企业文档入库、视频上传后需要快速完成打标以支持检索和分发,人工方式存在明显延迟,影响内容及时可用
  • 一致性与质量问题:不同标注人员理解差异导致标签不统一,影响标注质量的持续性

本方案基于大模型的深度语义理解能力,对单篇文档或视频内容进行全面分析,准确把握核心主题与上下文关系,生成结构化的标签信息。生成的标签结果可直接回写到文档或视频的元信息中,形成自动化、可复用的端到端打标流程。

1.2 适用场景

场景类型

场景说明

自动打标签的价值

企业文档管理

对PDF、Word、PPT等格式的合同文档、项目资料、技术文档自动打上部门、项目、主题、密级、版本等标签

提升文档检索效率,支持权限管理和合规追溯;大幅减少人工整理工作量

视频内容运营

对企业培训视频、产品演示、会议录像等自动打上主题、类型、讲者、关键内容等标签

自动理解视频内容,快速构建视频库;支持按主题检索和推荐;提升内容复用率和学习效率

知识资产沉淀

对技术文档、研究报告、行业白皮书等专业资料自动打上领域、技术栈、应用场景等标签

将散落的文档和视频资料结构化;支持智能问答和知识推荐;加速知识流转

营销素材管理

对产品手册、营销方案、客户案例等多格式文档自动打上产品线、行业、应用场景等标签

快速定位相关营销素材,提升销售效率;支持个性化内容推荐;优化素材复用和更新管理

二、核心技术架构

2.1 架构图

2.2 方案优势

优势 1 - 打标更智能

打标方案更通用,借助大模型的多模态理解能力,可以深度理解原始文档内容或视频内容,综合模型的世界知识实现更智能的打标。

优势 2 - 打标更准确

通过统一的 prompt 模板和结构化输出规范,有效消除人工打标中因个人理解差异导致的标签不一致问题,便于后续的统一管理、检索和分析应用。

优势 3 - 打标更高效

知识库具备高并发在线请求,可在创建知识库时灵活配置,显著提升大规模文档的打标效率。

三、操作步骤

3.1 创建知识库并配置文档标签

创建【旗舰版】知识库,并根据业务场景选择合适的【数据类型】和【知识内容】类型。在【高级配置】中,可预先定义文档标签字段,包括标签名称、字段类型以及可选的标签选项,这些字段将作为自动打标的目标输出字段。

3.2 导入待打标文档

点击【导入文档】,支持三种导入方式:本地上传、从 TOS 导入、通过公开下载链接导入。文档导入后将完成解析、切片和向量化处理。

Image

3.3 通过知识问答实现自动打标

3.3.1 配置检索参数

在【知识问答】功能中配置检索参数:
1、通过【标签过滤】指定需要打标的 doc_id
2、注意【结果返回数量】大于该文档的全部切片数,这样可确保大模型基于完整文档内容进行理解和打标
3、无需开启重排模型

Image

复制 doc_id
检索参数配置

3.3.2 设置打标提示词

通过调整【知识问答】的提示词,来规范模型的标签输出结果。

提示词示例模板:

# 任务
你是一名用于文档/视频内容自动打标签的内容理解助手。
当前提供给你的参考资料,是来自同一个文档或视频的多个内容切片。
这些切片已经通过文档标识进行过滤,并尽可能覆盖该内容的全部或主要部分。
请将这些切片视为一份完整内容的不同组成部分进行整体理解。
你的任务是基于参考资料,对该文档或视频进行结构化标签生成或抽取。

# 行为要求
1. 请综合理解所有切片内容,而不是只依据某一段局部信息。
2. 所有标签值必须来源于参考资料本身,不得引入外部知识或进行主观推测。
3. 如果某个标签字段在内容中未明确体现,请不要输出该字段。
4. 不要复述原文内容,不要解释分析过程,也不要输出任何与结果无关的文字。
5. 输出结果将被直接用于写入文档元数据,必须保持结构稳定、可被程序解析。

# 标签体系定义(按照实际定义的标签修改)
以下是你需要识别和抽取的标签字段。每个字段都有明确的定义、类型和取值范围(如适用):
- 字段名: 标题  
    - 字段类型: string  
    - 定义: 文档或视频的主标题  
    - 抽取规则: 从内容中识别出明确的标题文本,不得自行概括
- 字段名: 内容类型
    - 字段类型: string  
    - 取值范围: ["教程", "报告", "新闻", "讨论", "演示"]  
    - 定义: 内容的类型分类
- 字段名: 主题标签  
    - 字段类型: list<string>  
    - 取值范围: ["技术", "商业", "科学", "教育", "娱乐", "健康", "财经", "其他"]  
    - 定义: 内容的主题分类
    - 抽取规则: 可选择1-3个最相关的标签

# 输出规范
- 仅允许输出 JSON
- 不允许输出 Markdown、注释、说明性文字或多余内容
- 输出结构由用户指令给定,请严格遵循

# 输出格式示例
你需要输出的内容必须符合如下结构示例(字段名和字段类型仅为示例,实际以用户指令为准):

{
  "meta": [
    {
      "field_name": "示例字段名",
      "field_type": "string",
      "field_value": "示例字段值"
    },
    {
      "field_name": "示例字段名",
      "field_type": "date_time",
      "field_value": "2025-08-12T00:00:00+08:00"
    }
  ]
}

# 字段类型约束
field_type 仅允许使用以下类型之一,不得使用未列出的类型:
- int64
- float32
- string
- bool
- list<string>
- list<int64>
- date_time
  - 格式示例:2025-08-12T00:00:00+08:00
- geo_point
  - 格式示例:"longitude,latitude"
  - longitude 取值范围 (-180, 180),类型为 float32
  - latitude 取值范围 (-90, 90),类型为 float32

# 严格限制
- 严禁编造标签值或补全缺失信息
- 不要输出空值、null、占位符或默认值
- 不要输出与标签无关的任何内容

# 参考资料
以下内容为同一文档或视频的多段切片,请在整体理解后完成打标签任务:

<context>
  {{ .retrieved_chunks }}
</context>

3.3.3 执行打标任务

配置完成后,建议先在产品界面的【知识问答】中测试打标效果,验证提示词配置和标签生成质量。
文档打标示例:

Image

Image

视频打标示例:

Image

Image

确认效果符合预期后,可点击左下角【创建服务调用】,参考 知识服务接口文档 发起问答请求,即可得到打标结果。

3.3.4 标签写入及检索

如后续需要在知识库检索文档时使用对应标签过滤,则需要将大模型打标的结果可以通过 更新知识库文档信息接口 再更新到文档标签上。
请求示例:

curl -i -X POST \
  -H 'Content-Type: application/json' \
  -H 'Authorization: HMAC-SHA256 ***' \
  https://api-knowledgebase.mlp.cn-beijing.volces.com/api/knowledge/doc/update_meta \
  -d '{
    "collection_name": "test_collection_name",
    "project": "",
    "doc_id": "test123",
    // 自动打标结果示例
    "meta": [
      {"field_name": "报告主题", "field_type": "string", "field_value": "科技创新公司财务报告"},
      {"field_name": "发布时间", "field_type": "date_time", "field_value": "2025-03-15T00:00:00+08:00"}
    ]
  }'

标签写入成功后,可在列表页查看已配置的标签值;进行知识检索/问答时,支持基于标签编辑过滤条件实现精准检索与问答。

Image

列表页查看标签值

Image

编辑过滤条件
最近更新时间:2026.01.29 21:26:01
这个页面对您有帮助吗?
有用
有用
无用
无用