You need to enable JavaScript to run this app.
数据智能体

数据智能体

复制全文
知识库
导入知识
复制全文
导入知识

新建知识库后,需要导入相关的知识内容。企业知识引擎根据不同类型的知识库,支持多种导入方式,本文为您介绍不同类型的知识库导入知识的操作步骤。

前提条件

您已新建好知识库,具体操作步骤请参见新建知识库

通用类型知识库

步骤一 导入知识

  1. 点击新建好的知识库,进入知识库详情页面。
  2. 点击「导入知识」按钮,上传知识文件**。**
    Image

步骤二 选择导入方式

若您新建的知识库内容类型为通用内容,则支持四种方式导入,分别是上传文件、从微信素材库导入、从对象存储导入、从关系型数据库导入。选择对应的导入方式后,点击「下一步」,进入对应的导入知识数据页面。
Image

步骤三 导入知识数据

方式一 上传文件

直接上传文件作为知识库内容,目前支持上传的格式包括doc、docx、pdf、pptx、txt、md、html、json、xlsx、csv、png、jpg等格式,单次可上传最多10个文件,单个文件不超过100M。
Image

  1. 选择文件夹作为保存路径。
    系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
    Image
  2. 上传文件作为知识库内容。
  3. 点击「下一步」。

方式二 从微信素材库导入

导入微信公众号素材库的知识。
Image

  1. 配置以下参数信息,并选择保存路径。

    参数

    参数说明

    AccessKey

    用于标识用户身份的公开密钥,是访问服务时的身份识别。
    微信公众号AK获取方式参考:登录微信公众平台>设置与开发>基本设置>公众号开发信息启用开发者密码,即可看到AppID,其相当于AK。

    SecretKey

    与AK配对的私有密钥,用于验证请求合法性,是访问服务时的身份凭证。

    • 微信公众号SK通常指API Key,获取方式参考:登录微信公众平台>设置与开发>基本设置>公众号开发信息启用开发者密码,按照提示操作即可获取AppSecret,其相当于SK。
    • 同时,还需在微信公众号设置IP白名单,将相关服务器IP地址添加进去,否则可能无法正常调用接口。设置方式可登录微信公众平台>开发>基本设置>IP白名单,添加白名单IP。关于获取对应的IP地址,SaaS版本请联系火山引擎技术人员,私有化版本请自行查阅。

    保存路径

    系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
    Image

  2. 点击「查询可导入的知识」,可选择该公众号素材库中的内容是部分导入还是全部导入。

  3. 点击「下一步」。

方式三 从对象存储导入

可导入火山云TOS,腾讯云COS,阿里云OSS等支持S3协议的对象存储服务或系统中的知识。
Image

  1. 配置以下参数信息,并选择保存路径。

    参数

    参数说明

    示例

    AccessKey

    用于标识用户身份的公开密钥,是访问服务时的身份识别。
    通常您可以通过数据源产品控制台内的密钥管理功能获取。

    AKxxxxxxxxxxx0

    SecretKey

    与AK配对的私有密钥,用于验证请求合法性,是访问服务时的身份凭证。
    通常您可以通过数据源产品控制台内的密钥管理功能获取。

    abxxxxxxxxxxG

    桶名(Bucket Name)

    对象存储中用于存储对象(文件等数据)的容器、空间,唯一标识一个云存储 “桶”(Bucket)的名称。在对象存储服务控制台的桶(Bucket)列表中,可以查找到已创建的桶名。

    aws-s3-photos-companyx-xxxx

    接入点

    为桶(Bucket)创建的访问入口,是桶的专用访问入口,可对不同接入点配置不同的访问控制权限及网络控制策略。
    通常您可以在对象存储服务控制台的接入点列表查看接入点名称等信息。您需要提供网络联通可访问的地址。

    arn:aws:s3:us-west-2:12345678xxxx:accesspoint/marketing-department

    文件目录

    目前仅支持读取一级目录。对象存储中文件的存储路径,对象存储服务中通常以“/”为分隔符来模拟目录结构。支持添加多个文件目录。
    例如:“abc/xyz/test123.txt”中,“abc"可看作一级目录,”xyz"可看作是二级目录,"test123.txt"是文件。

    abc/

    保存路径

    系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
    Image

    test

  2. 点击「查询可导入的知识」,可选择该公众号素材库中的内容是部分导入还是全部导入。

  3. 点击「下一步」。

方式四 从关系型数据库导入

支持关系型数据库导入知识,可导入MySQL等关系型数据库产品中的知识。
Image

  1. 配置以下参数信息,并选择保存路径。

    参数

    参数说明

    示例

    导入任务名称

    数据导入知识库后的名称

    test

    数据库类型

    支持MySQL和MaxCompute

    /

    保存路径

    系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
    Image

    test

    当选择MySQL类型时,需要配置以下参数:

    参数

    参数说明

    示例

    服务器

    指运行关系型数据库服务的计算机或服务器地址,通常以IP地址或域名形式存在。

    • 若为本地数据库:可通过服务器的操作系统查询IP地址(如Windows 用ipconfig、Linux用ifconfig或ip addr命令)
    • 若为云数据库(如阿里云RDS、腾讯云CDB):登录数据库控制台,在”实例详情“页面中,通常会显示”内网地址“、”外网地址“(按需选择,内网地址适用于同区域服务连接、速度更快),您需要提供网络联通可访问的地址。
    • 若为域名形式:由管理员配置,可直接询问数据库管理员获取

    192.168.1.100

    端口号

    服务器上用于区分不同服务的数字标识,关系型数据库会占用特定端口接收连接请求。不同数据库有默认端口(可修改),用于确保连接请求准确送达数据库服务。
    获取位置:

    • 若使用默认端口:可参考示例中常见数据库的默认端口(需确认未被修改)
    • 若为自定义端口:在数据库配置文件(如MySQL的my.cnf/my.ini,PostgreSQL的postgresql.conf)中,搜索“port”字段即可查看;云数据库控制台的“实例详情”或“网络配置”页面,通常会显示当前端口号。

    常见默认端口示例:

    • MySQL:3306
    • PostgreSQL:5432
    • SQL Server:1433
    • Oracle:1521

    用户名

    可联系数据库管理员或自行登录云数据库控制台的账号管理模块查看

    app_user

    密码

    可联系数据库管理员或自行登录云数据库控制台的账号管理模块查看

    xxxxxx

    数据库名

    输入数据库名称

    user_center

    当选择MaxCompute类型时,需要配置以下参数:

    参数

    参数说明

    示例

    Project

    项目空间,数据管理和资源隔离的基本单元

    retail_business

    Endpoint

    接入点,客户端连接MaxCompute的网络地址。您需要提供网络联通可访问的地址。

    http://service.odps-vpc.aliyun.com/api

    Access Id

    阿里云账号或RAM用户的AccessKey ID。访问标识,用于标识用户身份的唯一字符串,您可以进入阿里云AccessKey管理页面获取AccessKey ID。

    LTAI4Fw2NbDxxxxxxxxxABCDE

    Access Secret Key

    AccessKey ID对应的AccessKey Secret。访问密钥,与Access Id配对的安全凭证

    5jKpxxxxxxxxx890abcdefghijklmnopqrstuvwxyz

  2. 点击「查询可导入的知识」,可选择取数方式为选择表或自定义SQL,并查询自定义SQL的表详情。
    MaxCompute支持的SQL命令全部支持,具体详情可参见MaxCompute的SQL概述

  3. 点击「下一步」。

步骤四 配置知识分段方式

上传成功后,点击「下一步」,进入知识分段方式配置,配置相关参数,并点击「完成」。

说明

知识分段是将长文档拆分成较小、更易于模型处理和检索的单元的过程,合理的配置有助于提升检索的准确性和效率。

Image

参数

参数说明

默认配置

自动关键词

提取分段中的关键词数量,为每个块提取N个关键词以提高其排名得分。0表示自动提取,最多30

0

自动问题

针对问题类问答自动拆分问题数量,为每个块提取N个问题以提高其排名得分,0表示系统自动拆分,最多为10

0

拆分策略

  • 基于plain text切分:基于纯文本拆分,不依赖任何富文本格式的情况下,仅依据文本内容中的字符、标点、换行等自然边界,将长文本分割为较短的片段。这种方法常用于 NLP 预处理、RAG 系统、文档索引等,核心是保留语义连贯性并适配模型输入限制。
  • 基于[paragraph/段落]的切分:以文本中的 “段落” 为天然分割单元,将长文档直接拆分为独立的段落片段,适用于尊重文本原有的段落结构和语义边界,不破坏段落内部的逻辑连贯性的场景。
  • 基于文档逻辑结构(文档树/章节)切分:以文档自身的层级化组织框架为依据,将长文档拆分为对应 “章节、子章节、小节” 等逻辑单元的片段。适用于需要沿用这一框架,最大程度保留文档的知识体系完整性的场景。

基于文档逻辑结构(文档树/章节)切分

字符长度

每个块的字符长度,单位:字节。

512

是否识别PDF表格

控制是否解析PDF中的表格数据:开启后可提取表格结构化信息,关闭则仅处理纯文本。

开启

是否识别PDF图片

开启后,系统会用OCR工具将PDF图片转为文字,再导入知识库

开启

PDF页数限制

单次处理PDF的最大页数,超出部分自动截断:适用于大文件分批次处理,避免内存过载。

1000

是否合并小chunks

仅当拆分策略为段落时生效:开启后自动合并相邻的小段落(字符数 < 阈值),减少碎片化。

开启

是否解析扫描件

控制是否启用识别扫描件,关闭则仅处理可复制文本。

开启

是否使用pdf的outline进行章节理解

是否基于PDF目录(Outline)智能识别章节结构:开启可提升长文档章节切分准确性。

开启

自定义分隔符

  • 当前系统会使用默认分隔符(句号 / 段落)进行导入知识内容分割。
  • 如果您还希望使用其他分隔符进行分割,可在此处配置自定义分隔符。自定义分隔符的优先级高于默认分隔符。
  • 支持添加多个自定义分隔符,多个自定义分隔符间使用“

”隔开,例如:!|?|。|####

是否以Markdown返回

控制结果格式:开启返回结构化Markdown格式,关闭返回纯文本。

开启

Markdown是否折叠

控制Markdown是否折叠。

关闭

excel解析是否开启表格识别

控制是否解析Excel中的表格数据:开启可提取表格结构化信息,关闭则仅处理单元格文本。

开启

转换图片的超时时间

pptx/ppt解析中转换图片的最大时间,单位为秒

60

使用整页的ppt图片代替小图片

开启后,在ppt-like文件中,使用整页的ppt图片代替小图片,完整保留原PPT的版式布局、内容逻辑与视觉细节,避免小图片缩放导致信息裁剪或模糊。

关闭

是否使用vlm能力

VLM视觉语言模型(Vision-Language Model),主要包括章节理解、图片理解等。开启后,系统可识别并理解图片内容,并结合文本进行分析;否则只处理纯文本。

开启

章节预期的最大层级

强制限定文档树解析的最大标题层级(如2表示仅识别到二级标题),避免过深层级干扰语义。

60无默认配置

文档去重

开启后,系统会校验本次上传的文件内容是否与该知识库已有文件重复,如有重复则不可上传。通过校验文件MD5,只有完全重复的文件才会被判定为重复。

关闭

错别字检测

开启后,系统会检测上传的文件内容是否有错别字。

关闭

语句不完整检测

开启后,系统会检测上传的语句是否有不完整的现象。

关闭

敏感词检测

开后后,系统会检测上传的内容是否有敏感词。

关闭

Query缓存类型知识库
  1. 点击新建好的知识库,进入知识库详情页面。
  2. 点击「导入知识」按钮,上传知识文件**。**
    Image
  3. 选择保存路径。
    系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
    Image
  4. 上传Query缓存的内容文件。
    文件支持xlsx、csv等格式,单次可上传最多10个文件,单个文件不超过100M。

    说明

    建议您点击「下载模板」,按照模板的要求填写Query名称、描述。

  5. 点击「完成」。
    Image

QA问答类型知识库
  1. 点击新建好的知识库,进入知识库详情页面。
  2. 点击「导入知识」按钮,上传知识文件**。**
    Image
  3. 选择保存路径。
    系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
    Image
  4. 上传QA问答的内容文件。
    文件支持xlsx、csv等格式,单次可上传最多10个文件,单个文件不超过100M。

    说明

    建议您点击「下载模板」,按照模板的要求填写问题和答案。

  5. 点击「完成」。
    Image

术语类型知识库
  1. 点击新建好的知识库,进入知识库详情页面。
  2. 点击「导入知识」按钮,上传知识文件**。**
    Image
  3. 选择保存路径。
    系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
    Image
  4. 上传术语的内容文件。
    文件支持xlsx、csv等格式,单次可上传最多10个文件,单个文件不超过100M。

    说明

    建议您点击「下载模板」,按照模板的要求填写术语名称、术语释义。

  5. 点击「完成」。
    Image

客户数据类型知识库

步骤一 导入前检查

  • 由于主体企业知识引擎是对接/导入VeCDP中的相关数据,因此在导入知识前,您需要确认当前操作的账号已开通火山引擎VeCDP服务,且执行导入操作的用户需拥有待导入VeCDP对应数据资源的查看权限,否则您将无法正常操作后续的知识导入操作。
  • 如果没有相关权限可联系管理员先进行授权,授权操作详见VeCDP授权文档

步骤二 导入知识

  1. 点击新建好的知识库,进入知识库详情页面。
  2. 点击「导入知识」按钮,上传知识文件**。**
    Image

步骤三 选择导入方式

选择从「VeCDP导入」,可导入当前项目在VeCDP客户数据平台中已有的标签、数据档案、数据集。
Image

步骤四 导入知识数据

完成以下参数配置,点击「下一步」。
Image

参数

参数说明

导入任务名称

Vector CDP数据导入知识库后的名称

保存路径

选择要保存的文件夹
系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。
Image

VeCDP主体

选择要导入的客户数据平台的主体

用户范围

在下拉框中选择需要导入的用户分群。下拉列表中可选的用户分群为VeCDP中已创建的、且当前操作账号有权限的用户分群列表。

  • 当前不支持直接导入全量用户,需通过选择合适的用户分群来确定导入的用户范围。如果您的业务场景需要导入全量用户时,您可先在VeCDP中通过标签圈选创建全量用户的用户分群,再在此处选择全量用户的用户分群。
  • 建议您根据实际情况选择需要导入的用户分群范围,尽量避免选择过多用户。当导入的用户过多时,例如选择的用户分群包含数千万用户ID,导入速度可能变慢,甚至导致失败。

需要包含的ID信息类型

需要包含的ID信息类型:根据实际使用场景选择上传哪一类用户ID类型。

说明

在实际业务场景中通常可能存在多个用户ID类型,例如,手机号、账号ID等,VeCDP会根据多个用户ID类型进行MAPPIING生成一个oneID来唯一标识一个用户。此处您可根据当前业务的实际需要选择需要使用哪一类用户ID类型,后续导入数据时即导入对应ID类型的相关用户数据。

需要包含的数据

需要包含的数据:主体企业知识引擎支持从VeCDP导入标签、主体属性、行为事件、业务明细、会话档案这五类数据,用户可根据需求选择单类或多类数据进行导入。

  • 会话档案数据后续会转存至主体企业知识引擎中,并经由知识解析引擎进行向量化等处理,用于后续的场景使用。
  • 标签、主体属性等其他数据不会转存至主体企业知识引擎中,在后续使用时直接读取VeCDP中的对应用户数据。

步骤五 配置知识分段方式

点击「完成」。
由于当前知识库的导入方式为VeCDP导入, 不需要分段解析。您无需再进行配置,直接点击「完成」即可。

操作结果

完成知识分段配置并提交后,知识导入任务开始执行。知识库管理列表页将展示知识处理状态,如处理中、处理成功等信息。
Image

测试导入结果

在知识库页面,点击「知识召回测试」,进入知识库测试页面。支持输入关键词,来完成相关段落的召回,用户可以基于混合相似度、关键词相似度、向量相似度等指标,评估召回准确度。
Image

相似度类型

定义

分值含义

匹配场景

混合相似度

综合多种不同相似度计算方法(如关键词相似度、向量相似度等)的结果,按一定权重组合或采用复杂融合方式得出的综合指标,用于衡量文本相似程度。

分值越高,文本在综合多种因素后的相似程度越高,一般在 0 到 1 之间,0 表示完全不相似,1 表示完全相同。

综合考量整体相似性:如果希望对文本的相似性有一个全面、综合的评估,不局限于某一个方面,那么混合相似度是最佳选择。在大多数实际应用场景中,单一的相似度指标可能无法完全准确地衡量文本的相似程度,混合相似度能够融合多种因素,提供一个更全面、更可靠的相似性度量,适用于信息检索、文本分类等多种场景。

关键词相似度

通过对文本分词处理,提取关键词,对比两个文本的关键词集合,依据关键词匹配程度(如采用杰卡德相似系数等方法)确定相似度。

反映文本在关键词层面的重合程度,分值越高,关键词重合度越高,文本在主题和关键信息上可能越相似,一般在 0 到 1 之间,0 表示无相同关键词,1 表示关键词完全一致。

注重精确匹配和特定关键信息:如果任务是需要精确查找包含特定关键词的文本,或者对文本中特定关键信息的匹配度要求较高,例如在法律条文检索、技术术语查找等场景中,关键词相似度会是一个重要的指标。可以重点关注关键词相似度较高的结果,以确保找到的文本包含所需的关键内容。

向量相似度

将文本转换为向量空间中的向量,通过计算向量之间的距离(如欧式距离)或夹角(如余弦相似度)等方式衡量文本相似性。

对于余弦相似度,分值在 - 1 到 1 之间,1 表示文本完全相似,-1 表示文本差异极大,0 表示无相似性;其他向量相似度计算方法的分值含义类似,越接近最大值表示文本越相似,越接近最小值表示文本差异越大。

关注语义理解和上下文关联:当需要理解文本的语义含义,挖掘文本之间潜在的语义关联,或者对文本的上下文语境有较高要求时,如文本生成、智能问答等场景,向量相似度更为重要。因为向量相似度能够更好地捕捉文本的语义信息,即使文本使用的关键词不同,但只要语义相似,向量相似度就会较高,有助于找到与问题在语义上真正相关的文本。

下一步
  • 配置知识标签、有效期,召回测试知识,具体操作请参见管理知识

参考:知识分段配置与调优建议

场景1:从文本特征维度评估

  • 基于复杂程度评估,可参考以下参数配置逻辑:

    参数

    复杂文本

    简单文本

    说明

    如学术研究论文等专业内容,涉及多领域知识和复杂逻辑。

    如日常对话、简单咨询记录等内容,不涉及复杂的逻辑与知识解析。

    自动关键词

    建议配置12-20,覆盖多领域交叉概念。

    建议配置8-12(或更少),聚焦高频主题。

    自动问题

    建议配置4-6,拆解复杂逻辑链条。

    建议配置2-3,简化交互意图。

    拆分策略

    文档树 / 章节,保留目录结构。

    段落(按自然段切分,如客服对话中的问答轮次)。

    字符长度

    512-1024(或更高)(容纳长段落公式 / 图表描述)。

    128-256(适配短对话 / 单句指令)。

    是否识别PDF表格

    建议开启(提取实验数据表格、法规附表)。

    可选开启(仅含文本时关闭以节省资源)。

    是否使用PDF的 Outline

    建议开启(利用目录定位章节,如 “第三章 模型构建→3.1 算法原理”)。

    可选关闭(无目录结构时无需启用)。

    章节预期的最大层级

    3-4 级。

    1-2 级。

    块token数

    建议配置512-1024(或更高),以确保长段落语义连贯性。

    建议配置128-256,避免冗余计算。

    分段标识符

    建议以句号、分号等严谨符号分段。

    建议以句号、逗号等常规符号分段。

    布局识别

    建议开启。

    建议开启。

    表格转HTML

    建议开启。

    建议开启。

  • 基于文本长度评估,可参考以下参数配置逻辑:

    参数

    长文本

    短文本

    说明

    例如技术手册、长篇小说等内容。

    例如社交媒体评论、短消息等内容。

    拆分策略

    文档树 / 章节(按 “章→节→小节” 拆分)。

    段落 / 自定义分隔符(按 “\n” 或 “。” 切分)。

    字符长度

    1024+(跨章节语义关联,如 “第五章公式→第六章应用”)。

    128-256(单条消息独立处理)。

    是否合并小 chunks

    关闭(保留章节独立性,如 “附录 A” 与 “正文” 分开)。

    开启(合并相邻短句,如 “你好→请问有什么可以帮你?”)。

    PDF页数限制

    500-1000(分批次处理大文件,如 “2000 页法规分 4 次解析”)。

    无特殊限制(单页 / 少量内容一次性处理)。

    块Token数

    建议配置512-1024(或更高),兼容长上下文依赖。

    建议配置128-256,快速响应需求。

    分段标识符

    建议以换行符、章节标题等作为分段标识。

    建议以句号或自然停顿为分段标识。

    布局识别

    建议开启

    建议开启

    表格转HTML

    建议开启

    建议开启

场景2:从应用场景维度评估

  • 高精度场景(学术研究、法律文档等)。
    • 核心目标:最大化知识关联性与完整性。
    • 配置策略:关键词提取数量多,问题拆分细致,字符长度长,严格按文本结构和逻辑分段,准确识别布局并处理表格数据。
  • 高效率场景(智能客服、实时交互等)
    • 核心目标:平衡语义理解与响应速度。
    • 配置策略:在保证理解语义的基础上,关键词和问题数量适中,采用简单易处理的分段标识符,布局识别和表格处理要简洁高效。
最近更新时间:2025.09.26 10:41:49
这个页面对您有帮助吗?
有用
有用
无用
无用