导入知识--数据智能体-火山引擎

文档中心

数据智能体

知识库

导入知识

新建知识库后，需要导入相关的知识内容。企业知识引擎根据不同类型的知识库，支持多种导入方式，本文为您介绍不同类型的知识库导入知识的操作步骤。

前提条件

您已新建好知识库，具体操作步骤请参见新建知识库。

通用类型知识库

步骤一导入知识

点击新建好的知识库，进入知识库详情页面。
点击「导入知识」按钮，上传知识文件。

步骤二选择导入方式

若您新建的知识库内容类型为通用内容，则支持四种方式导入，分别是上传文件、从微信素材库导入、从对象存储导入、从关系型数据库导入。选择对应的导入方式后，点击「下一步」，进入对应的导入知识数据页面。

步骤三导入知识数据

方式一上传本地文件

在选择导入方式界面，选择文件类型。
支持的文件类型包括：通用文档（doc/docx/txt/md）、PDF、演示文稿类（ppt/pptx/pdf演示文稿类）、表格（xlsx/csv）、图片（jpg/jpeg/png）、音频（mp3/wav）、视频（mp4/avi/mov）、压缩文件（zip）、其他（html/json）。
单击下一步，在导入知识数据界面，选择文件夹作为保存路径。
系统会根据您创建的知识库，自动创建一个以知识库名称命名的文件夹，作为默认的保存路径。若您需要保存在其他文件夹，可在知识管理页面新建文件夹。
上传文件作为知识库内容。
单击下一步。

方式二从对象存储导入

在选择导入方式界面，选择对象存储。

单击下一步，在导入知识数据界面，可导入火山云TOS，腾讯云COS，阿里云OSS等支持S3协议的对象存储服务或系统中的知识。选择保存路径，填写导入任务名称，并选择要导入的对象存储；若没有，可点击新建。

选择保存路径时，系统会根据您创建的知识库，自动创建一个以知识库名称命名的文件夹，作为默认的保存路径。若您需要保存在其他文件夹，可在知识管理页面新建文件夹。

对象存储数据源参数配置说明如下表。

参数	参数说明	示例
数据源名称	填写数据源名称。	Demo
AccessKey	用于标识用户身份的公开密钥，是访问服务时的身份识别。通常您可以通过数据源产品控制台内的密钥管理功能获取。	AKxxxxxxxxxxx0
SecretKey	与AK配对的私有密钥，用于验证请求合法性，是访问服务时的身份凭证。通常您可以通过数据源产品控制台内的密钥管理功能获取。	abxxxxxxxxxxG
桶名（Bucket Name）	对象存储中用于存储对象（文件等数据）的容器、空间，唯一标识一个云存储 “桶”（Bucket）的名称。在对象存储服务控制台的桶（Bucket）列表中，可以查找到已创建的桶名。	aws-s3-photos-companyx-xxxx
接入点	为桶（Bucket）创建的访问入口，是桶的专用访问入口，可对不同接入点配置不同的访问控制权限及网络控制策略。通常您可以在对象存储服务控制台的接入点列表查看接入点名称等信息。您需要提供网络联通可访问的地址。	arn:aws:s3:us-west-2:12345678xxxx:accesspoint/marketing-department
文件目录	目前仅支持读取一级目录。对象存储中文件的存储路径，对象存储服务中通常以“/”为分隔符来模拟目录结构。支持添加多个文件目录。例如：“abc/xyz/test123.txt”中，“abc"可看作一级目录，”xyz"可看作是二级目录，"test123.txt"是文件。	abc/

在新建数据源对话框内配置好参数后，单击测试连接，连接成功后单击保存。
单击查询可导入的知识，并选择导入知识范围。
配置完成后单击下一步。

方式三从微信素材库导入

在选择导入方式界面，选择微信素材库。

单击下一步，在导入知识数据界面，导入微信公众号素材库的知识。选择保存路径，填写导入任务名称，并选择要导入的素材库；若没有，可点击新建。

选择保存路径时，系统会根据您创建的知识库，自动创建一个以知识库名称命名的文件夹，作为默认的保存路径。若您需要保存在其他文件夹，可在知识管理页面新建文件夹。

微信素材库数据源参数配置说明如下表。

参数	参数说明
数据源名称	填写数据源名称
AccessKey	用于标识用户身份的公开密钥，是访问服务时的身份识别。微信公众号AK获取方式参考：登录微信公众平台>设置与开发>基本设置>公众号开发信息启用开发者密码，即可看到AppID，其相当于AK。
SecretKey	与AK配对的私有密钥，用于验证请求合法性，是访问服务时的身份凭证。微信公众号SK通常指API Key，获取方式参考：登录微信公众平台>设置与开发>基本设置>公众号开发信息启用开发者密码，按照提示操作即可获取AppSecret，其相当于SK。同时，还需在微信公众号设置IP白名单，将相关服务器IP地址添加进去，否则可能无法正常调用接口。设置方式可登录微信公众平台>开发>基本设置>IP白名单，添加白名单IP。关于获取对应的IP地址，私有化版本请自行查阅。

参数

参数说明

数据源名称

填写数据源名称

AccessKey

用于标识用户身份的公开密钥，是访问服务时的身份识别。
微信公众号AK获取方式参考：登录微信公众平台>设置与开发>基本设置>公众号开发信息启用开发者密码，即可看到AppID，其相当于AK。

SecretKey

与AK配对的私有密钥，用于验证请求合法性，是访问服务时的身份凭证。

微信公众号SK通常指API Key，获取方式参考：登录微信公众平台>设置与开发>基本设置>公众号开发信息启用开发者密码，按照提示操作即可获取AppSecret，其相当于SK。
同时，还需在微信公众号设置IP白名单，将相关服务器IP地址添加进去，否则可能无法正常调用接口。设置方式可登录微信公众平台>开发>基本设置>IP白名单，添加白名单IP。关于获取对应的IP地址，私有化版本请自行查阅。

在新建数据源对话框内配置好参数后，单击测试连接，连接成功后单击保存。
单击查询可导入的知识，并选择导入知识范围。
配置完成后单击下一步。

方式四从关系型数据库导入

在选择导入方式界面，选择关系型数据库。

支持关系型数据库导入知识，可导入MySQL等关系型数据库产品中的知识。

选择保存路径时，系统会根据您创建的知识库，自动创建一个以知识库名称命名的文件夹，作为默认的保存路径。若您需要保存在其他文件夹，可在知识管理页面新建文件夹。

关系型数据库数据源参数配置说明如下表。

参数	参数说明	示例
导入任务名称	数据导入知识库后的名称	test
数据库类型	支持MySQL和MaxCompute	/

当选择MySQL类型时，需要配置以下参数：

参数	参数说明	示例
服务器	指运行关系型数据库服务的计算机或服务器地址，通常以IP地址或域名形式存在。若为本地数据库：可通过服务器的操作系统查询IP地址（如Windows 用ipconfig、Linux用ifconfig或ip addr命令）若为云数据库（如阿里云RDS、腾讯云CDB）：登录数据库控制台，在”实例详情“页面中，通常会显示”内网地址“、”外网地址“（按需选择，内网地址适用于同区域服务连接、速度更快），您需要提供网络联通可访问的地址。若为域名形式：由管理员配置，可直接询问数据库管理员获取	192.168.1.100
端口号	服务器上用于区分不同服务的数字标识，关系型数据库会占用特定端口接收连接请求。不同数据库有默认端口（可修改），用于确保连接请求准确送达数据库服务。获取位置：若使用默认端口：可参考示例中常见数据库的默认端口（需确认未被修改）若为自定义端口：在数据库配置文件（如MySQL的my.cnf/my.ini，PostgreSQL的postgresql.conf）中，搜索“port”字段即可查看；云数据库控制台的“实例详情”或“网络配置”页面，通常会显示当前端口号。	常见默认端口示例： MySQL：3306 PostgreSQL：5432 SQL Server：1433 Oracle：1521
用户名	可联系数据库管理员或自行登录云数据库控制台的账号管理模块查看	app_user
密码	可联系数据库管理员或自行登录云数据库控制台的账号管理模块查看	xxxxxx
数据库名	输入数据库名称	user_center

当选择MaxCompute类型时，需要配置以下参数：

参数	参数说明	示例
Project	项目空间，数据管理和资源隔离的基本单元	retail_business
Endpoint	接入点，客户端连接MaxCompute的网络地址。您需要提供网络联通可访问的地址。	`http://service.odps-vpc.aliyun.com/api`
Access Id	阿里云账号或RAM用户的AccessKey ID。访问标识，用于标识用户身份的唯一字符串，您可以进入阿里云AccessKey管理页面获取AccessKey ID。	LTAI4Fw2NbDxxxxxxxxxABCDE
Access Secret Key	AccessKey ID对应的AccessKey Secret。访问密钥，与Access Id配对的安全凭证	5jKpxxxxxxxxx890abcdefghijklmnopqrstuvwxyz

单击查询可导入的知识，可选择取数方式为选择表或自定义SQL，并查询自定义SQL的表详情。
MaxCompute支持的SQL命令全部支持，具体详情可参见MaxCompute的SQL概述。
配置完成后单击下一步。

步骤四配置知识分段方式

知识分段是将长文档拆分成较小、更易于模型处理和检索的单元的过程，合理的配置有助于提升检索的准确性和效率。

说明

自动分段功能在V1.29及以上版本支持。
知识标签功能在V1.30.3及以上版本支持。

进入知识分段方式配置，选择分段模式。
- 选择自动分段，由模型按照文档结构自动识别文档进行切片，需要根据页面指引配置解析策略和分段最大长度。
- 选择自定义分段，支持自定义参数配置，需要根据页面指引配置解析策略和分段最大长度等参数。
- 选择模型总结分段，需要根据页面指引配置解析策略和分段最大长度。
- 选择上下文感知分段，需要根据页面指引配置解析策略和分段最大长度。

设置知识质量检测参数。

参数	参数说明	默认配置
文档去重	开启后，系统会校验本次上传的文件内容是否与该知识库已有文件重复，如有重复则不可上传。通过校验文件MD5，只有完全重复的文件才会被判定为重复。	关闭
错别字检测	开启后，系统会检测上传的文件内容是否有错别字。	关闭
语句不完整检测	开启后，系统会检测上传的语句是否有不完整的现象。	关闭
敏感词检测	开后后，系统会检测上传的内容是否有敏感词。	关闭

配置知识标签。
通过知识打标对知识进行分类，具体配置操作请参见知识分类。

Query缓存类型知识库

点击新建好的知识库，进入知识库详情页面。
点击上传，上传Query缓存的内容文件，然后点击完成。

文件支持xlsx、csv等格式，单次可上传最多10个文件，单个文件不超过100M。
说明
建议您点击下载模板，按照模板的要求填写Query名称、描述。
点击缓存Query，新建Query缓存**。**
在新建Query缓存面板，填写相关参数，然后点击保存。

QA问答类型知识库

点击新建好的知识库，进入知识库详情页面。
点击上传，上传QA问答的内容文件，然后点击完成。

文件支持xlsx、csv等格式，单次可上传最多10个文件，单个文件不超过100M。
说明
建议您点击下载模板，按照模板的要求填写问题和答案。
点击QA问答，新建QA问答**。**
在新建QA问答面板中，填写问题和回答，然后点击保存。一次最多添加20个问答。

术语类型知识库

点击新建好的知识库，进入知识库详情页面。
点击上传，上传QA问答的内容文件，然后点击完成。

文件支持xlsx、csv等格式，单次可上传最多10个文件，单个文件不超过100M。
说明
建议您点击下载模板，按照模板的要求填写术语名称、术语释义。
点击术语，新建术语**。**
在新建术语面板中，填写术语名称和释义，还可以点击添加，添加近义词，然后点击保存。一次最多添加20个术语。

客户数据类型知识库

步骤一导入前检查

由于主体企业知识引擎是对接/导入VeCDP中的相关数据，因此在导入知识前，您需要确认当前操作的账号已开通火山引擎VeCDP服务，且执行导入操作的用户需拥有待导入VeCDP对应数据资源的查看权限，否则您将无法正常操作后续的知识导入操作。
如果没有相关权限可联系管理员先进行授权，授权操作详见VeCDP授权文档。

步骤二导入知识

点击新建好的知识库，进入知识库详情页面。
点击导入知识，上传知识文件**。**

步骤三选择导入方式

选择从VeCDP导入，可导入当前项目在VeCDP客户数据平台中已有的标签、数据档案、数据集。

步骤四导入知识数据

完成以下参数配置，点击下一步。

参数	参数说明
导入任务名称	Vector CDP数据导入知识库后的名称
保存路径	选择要保存的文件夹系统会根据您创建的知识库，自动创建一个以知识库名称命名的文件夹，作为默认的保存路径。若您需要保存在其他文件夹，可在知识管理页面新建文件夹。
VeCDP主体	选择要导入的客户数据平台的主体
用户范围	在下拉框中选择需要导入的用户分群。下拉列表中可选的用户分群为VeCDP中已创建的、且当前操作账号有权限的用户分群列表。当前不支持直接导入全量用户，需通过选择合适的用户分群来确定导入的用户范围。如果您的业务场景需要导入全量用户时，您可先在VeCDP中通过标签圈选创建全量用户的用户分群，再在此处选择全量用户的用户分群。建议您根据实际情况选择需要导入的用户分群范围，尽量避免选择过多用户。当导入的用户过多时，例如选择的用户分群包含数千万用户ID，导入速度可能变慢，甚至导致失败。
需要包含的ID信息类型	需要包含的ID信息类型：根据实际使用场景选择上传哪一类用户ID类型。说明在实际业务场景中通常可能存在多个用户ID类型，例如，手机号、账号ID等，VeCDP会根据多个用户ID类型进行MAPPIING生成一个oneID来唯一标识一个用户。此处您可根据当前业务的实际需要选择需要使用哪一类用户ID类型，后续导入数据时即导入对应ID类型的相关用户数据。
需要包含的数据	需要包含的数据：主体企业知识引擎支持从VeCDP导入标签、主体属性、行为事件、业务明细、会话档案这五类数据，用户可根据需求选择单类或多类数据进行导入。会话档案数据后续会转存至主体企业知识引擎中，并经由知识解析引擎进行向量化等处理，用于后续的场景使用。标签、主体属性等其他数据不会转存至主体企业知识引擎中，在后续使用时直接读取VeCDP中的对应用户数据。

步骤五配置知识分段方式

点击完成。
由于当前知识库的导入方式为VeCDP导入, 不需要分段解析。您无需再进行配置，直接点击完成即可。

操作结果

完成知识分段配置并提交后，知识导入任务开始执行。知识库管理列表页将展示知识处理状态，如处理中、处理成功等信息。

测试导入结果

在知识库页面，点击知识召回测试，进入知识库测试页面。支持输入关键词，来完成相关段落的召回，用户可以基于混合相似度、关键词相似度、向量相似度等指标，评估召回准确度。

相似度类型	定义	分值含义	匹配场景
混合相似度	综合多种不同相似度计算方法（如关键词相似度、向量相似度等）的结果，按一定权重组合或采用复杂融合方式得出的综合指标，用于衡量文本相似程度。	分值越高，文本在综合多种因素后的相似程度越高，一般在 0 到 1 之间，0 表示完全不相似，1 表示完全相同。	综合考量整体相似性：如果希望对文本的相似性有一个全面、综合的评估，不局限于某一个方面，那么混合相似度是最佳选择。在大多数实际应用场景中，单一的相似度指标可能无法完全准确地衡量文本的相似程度，混合相似度能够融合多种因素，提供一个更全面、更可靠的相似性度量，适用于信息检索、文本分类等多种场景。
关键词相似度	通过对文本分词处理，提取关键词，对比两个文本的关键词集合，依据关键词匹配程度（如采用杰卡德相似系数等方法）确定相似度。	反映文本在关键词层面的重合程度，分值越高，关键词重合度越高，文本在主题和关键信息上可能越相似，一般在 0 到 1 之间，0 表示无相同关键词，1 表示关键词完全一致。	注重精确匹配和特定关键信息：如果任务是需要精确查找包含特定关键词的文本，或者对文本中特定关键信息的匹配度要求较高，例如在法律条文检索、技术术语查找等场景中，关键词相似度会是一个重要的指标。可以重点关注关键词相似度较高的结果，以确保找到的文本包含所需的关键内容。
向量相似度	将文本转换为向量空间中的向量，通过计算向量之间的距离（如欧式距离）或夹角（如余弦相似度）等方式衡量文本相似性。	对于余弦相似度，分值在 - 1 到 1 之间，1 表示文本完全相似，-1 表示文本差异极大，0 表示无相似性；其他向量相似度计算方法的分值含义类似，越接近最大值表示文本越相似，越接近最小值表示文本差异越大。	关注语义理解和上下文关联：当需要理解文本的语义含义，挖掘文本之间潜在的语义关联，或者对文本的上下文语境有较高要求时，如文本生成、智能问答等场景，向量相似度更为重要。因为向量相似度能够更好地捕捉文本的语义信息，即使文本使用的关键词不同，但只要语义相似，向量相似度就会较高，有助于找到与问题在语义上真正相关的文本。

下一步

配置知识标签、有效期，召回测试知识，具体操作请参见管理知识。

参考：知识分段配置与调优建议

场景1：从文本特征维度评估

基于复杂程度评估，可参考以下参数配置逻辑：

参数	复杂文本	简单文本
说明	如学术研究论文等专业内容，涉及多领域知识和复杂逻辑。	如日常对话、简单咨询记录等内容，不涉及复杂的逻辑与知识解析。
自动关键词	建议配置12-20，覆盖多领域交叉概念。	建议配置8-12（或更少），聚焦高频主题。
自动问题	建议配置4-6，拆解复杂逻辑链条。	建议配置2-3，简化交互意图。
拆分策略	文档树 / 章节，保留目录结构。	段落（按自然段切分，如客服对话中的问答轮次）。
字符长度	512-1024（或更高）（容纳长段落公式 / 图表描述）。	128-256（适配短对话 / 单句指令）。
是否识别PDF表格	建议开启（提取实验数据表格、法规附表）。	可选开启（仅含文本时关闭以节省资源）。
是否使用PDF的 Outline	建议开启（利用目录定位章节，如 “第三章模型构建→3.1 算法原理”）。	可选关闭（无目录结构时无需启用）。
章节预期的最大层级	3-4 级。	1-2 级。
块token数	建议配置512-1024（或更高），以确保长段落语义连贯性。	建议配置128-256，避免冗余计算。
分段标识符	建议以句号、分号等严谨符号分段。	建议以句号、逗号等常规符号分段。
布局识别	建议开启。	建议开启。
表格转HTML	建议开启。	建议开启。

基于文本长度评估，可参考以下参数配置逻辑：

参数	长文本	短文本
说明	例如技术手册、长篇小说等内容。	例如社交媒体评论、短消息等内容。
拆分策略	文档树 / 章节（按 “章→节→小节” 拆分）。	段落 / 自定义分隔符（按 “\n” 或 “。” 切分）。
字符长度	1024+（跨章节语义关联，如 “第五章公式→第六章应用”）。	128-256（单条消息独立处理）。
是否合并小 chunks	关闭（保留章节独立性，如 “附录 A” 与 “正文” 分开）。	开启（合并相邻短句，如 “你好→请问有什么可以帮你？”）。
PDF页数限制	500-1000（分批次处理大文件，如 “2000 页法规分 4 次解析”）。	无特殊限制（单页 / 少量内容一次性处理）。
块Token数	建议配置512-1024（或更高），兼容长上下文依赖。	建议配置128-256，快速响应需求。
分段标识符	建议以换行符、章节标题等作为分段标识。	建议以句号或自然停顿为分段标识。
布局识别	建议开启	建议开启
表格转HTML	建议开启	建议开启

场景2：从应用场景维度评估

高精度场景（学术研究、法律文档等）。
- 核心目标：最大化知识关联性与完整性。
- 配置策略：关键词提取数量多，问题拆分细致，字符长度长，严格按文本结构和逻辑分段，准确识别布局并处理表格数据。
高效率场景（智能客服、实时交互等）
- 核心目标：平衡语义理解与响应速度。
- 配置策略：在保证理解语义的基础上，关键词和问题数量适中，采用简单易处理的分段标识符，布局识别和表格处理要简洁高效。

最近更新时间：2026.05.19 15:18:15

这个页面对您有帮助吗？

有用

无用

数据智能体

步骤一 导入知识 #

步骤二 选择导入方式 #

步骤三 导入知识数据 #

方式一 上传本地文件 #

方式二 从对象存储导入 #

方式三 从微信素材库导入 #

方式四 从关系型数据库导入 #

步骤四 配置知识分段方式 #

步骤一 导入前检查 #

步骤二 导入知识 #

步骤三 选择导入方式 #

步骤四 导入知识数据 #

步骤五 配置知识分段方式 #

场景1：从文本特征维度评估 #

场景2：从应用场景维度评估 #