新建知识库后,需要导入相关的知识内容。企业知识引擎根据不同类型的知识库,支持多种导入方式,本文为您介绍不同类型的知识库导入知识的操作步骤。
您已新建好知识库,具体操作步骤请参见新建知识库。
若您新建的知识库内容类型为通用内容,则支持四种方式导入,分别是上传文件、从微信素材库导入、从对象存储导入、从关系型数据库导入。选择对应的导入方式后,点击「下一步」,进入对应的导入知识数据页面。
直接上传文件作为知识库内容,目前支持上传的格式包括doc、docx、pdf、pptx、txt、md、html、json、xlsx、csv、png、jpg等格式,单次可上传最多10个文件,单个文件不超过100M。
导入微信公众号素材库的知识。
配置以下参数信息,并选择保存路径。
参数 | 参数说明 |
|---|---|
AccessKey | 用于标识用户身份的公开密钥,是访问服务时的身份识别。 |
SecretKey | 与AK配对的私有密钥,用于验证请求合法性,是访问服务时的身份凭证。
|
保存路径 | 系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。 |
点击「查询可导入的知识」,可选择该公众号素材库中的内容是部分导入还是全部导入。
点击「下一步」。
可导入火山云TOS,腾讯云COS,阿里云OSS等支持S3协议的对象存储服务或系统中的知识。
配置以下参数信息,并选择保存路径。
参数 | 参数说明 | 示例 |
|---|---|---|
AccessKey | 用于标识用户身份的公开密钥,是访问服务时的身份识别。 | AKxxxxxxxxxxx0 |
SecretKey | 与AK配对的私有密钥,用于验证请求合法性,是访问服务时的身份凭证。 | abxxxxxxxxxxG |
桶名(Bucket Name) | 对象存储中用于存储对象(文件等数据)的容器、空间,唯一标识一个云存储 “桶”(Bucket)的名称。在对象存储服务控制台的桶(Bucket)列表中,可以查找到已创建的桶名。 | aws-s3-photos-companyx-xxxx |
接入点 | 为桶(Bucket)创建的访问入口,是桶的专用访问入口,可对不同接入点配置不同的访问控制权限及网络控制策略。 | arn:aws:s3:us-west-2:12345678xxxx:accesspoint/marketing-department |
文件目录 | 目前仅支持读取一级目录。对象存储中文件的存储路径,对象存储服务中通常以“/”为分隔符来模拟目录结构。支持添加多个文件目录。 | abc/ |
保存路径 | 系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。 | test |
点击「查询可导入的知识」,可选择该公众号素材库中的内容是部分导入还是全部导入。
点击「下一步」。
支持关系型数据库导入知识,可导入MySQL等关系型数据库产品中的知识。
配置以下参数信息,并选择保存路径。
参数 | 参数说明 | 示例 |
|---|---|---|
导入任务名称 | 数据导入知识库后的名称 | test |
数据库类型 | 支持MySQL和MaxCompute | / |
保存路径 | 系统会根据您创建的知识库,自动创建一个以知识库名称命名的文件夹,作为默认的保存路径。若您需要保存在其他文件夹,可在知识管理页面新建文件夹。 | test |
当选择MySQL类型时,需要配置以下参数:
参数 | 参数说明 | 示例 |
|---|---|---|
服务器 | 指运行关系型数据库服务的计算机或服务器地址,通常以IP地址或域名形式存在。
| 192.168.1.100 |
端口号 | 服务器上用于区分不同服务的数字标识,关系型数据库会占用特定端口接收连接请求。不同数据库有默认端口(可修改),用于确保连接请求准确送达数据库服务。
| 常见默认端口示例:
|
用户名 | 可联系数据库管理员或自行登录云数据库控制台的账号管理模块查看 | app_user |
密码 | 可联系数据库管理员或自行登录云数据库控制台的账号管理模块查看 | xxxxxx |
数据库名 | 输入数据库名称 | user_center |
当选择MaxCompute类型时,需要配置以下参数:
参数 | 参数说明 | 示例 |
|---|---|---|
Project | 项目空间,数据管理和资源隔离的基本单元 | retail_business |
Endpoint | 接入点,客户端连接MaxCompute的网络地址。您需要提供网络联通可访问的地址。 |
|
Access Id | 阿里云账号或RAM用户的AccessKey ID。访问标识,用于标识用户身份的唯一字符串,您可以进入阿里云AccessKey管理页面获取AccessKey ID。 | LTAI4Fw2NbDxxxxxxxxxABCDE |
Access Secret Key | AccessKey ID对应的AccessKey Secret。访问密钥,与Access Id配对的安全凭证 | 5jKpxxxxxxxxx890abcdefghijklmnopqrstuvwxyz |
点击「查询可导入的知识」,可选择取数方式为选择表或自定义SQL,并查询自定义SQL的表详情。
MaxCompute支持的SQL命令全部支持,具体详情可参见MaxCompute的SQL概述。
点击「下一步」。
上传成功后,点击「下一步」,进入知识分段方式配置,配置相关参数,并点击「完成」。
说明
知识分段是将长文档拆分成较小、更易于模型处理和检索的单元的过程,合理的配置有助于提升检索的准确性和效率。
参数 | 参数说明 | 默认配置 |
|---|---|---|
自动关键词 | 提取分段中的关键词数量,为每个块提取N个关键词以提高其排名得分。0表示自动提取,最多30 | 0 |
自动问题 | 针对问题类问答自动拆分问题数量,为每个块提取N个问题以提高其排名得分,0表示系统自动拆分,最多为10 | 0 |
拆分策略 |
| 基于文档逻辑结构(文档树/章节)切分 |
字符长度 | 每个块的字符长度,单位:字节。 | 512 |
是否识别PDF表格 | 控制是否解析PDF中的表格数据:开启后可提取表格结构化信息,关闭则仅处理纯文本。 | 开启 |
是否识别PDF图片 | 开启后,系统会用OCR工具将PDF图片转为文字,再导入知识库 | 开启 |
PDF页数限制 | 单次处理PDF的最大页数,超出部分自动截断:适用于大文件分批次处理,避免内存过载。 | 1000 |
是否合并小chunks | 仅当拆分策略为段落时生效:开启后自动合并相邻的小段落(字符数 < 阈值),减少碎片化。 | 开启 |
是否解析扫描件 | 控制是否启用识别扫描件,关闭则仅处理可复制文本。 | 开启 |
是否使用pdf的outline进行章节理解 | 是否基于PDF目录(Outline)智能识别章节结构:开启可提升长文档章节切分准确性。 | 开启 |
自定义分隔符 |
| ”隔开,例如: |
是否以Markdown返回 | 控制结果格式:开启返回结构化Markdown格式,关闭返回纯文本。 | 开启 |
Markdown是否折叠 | 控制Markdown是否折叠。 | 关闭 |
excel解析是否开启表格识别 | 控制是否解析Excel中的表格数据:开启可提取表格结构化信息,关闭则仅处理单元格文本。 | 开启 |
转换图片的超时时间 | pptx/ppt解析中转换图片的最大时间,单位为秒 | 60 |
使用整页的ppt图片代替小图片 | 开启后,在ppt-like文件中,使用整页的ppt图片代替小图片,完整保留原PPT的版式布局、内容逻辑与视觉细节,避免小图片缩放导致信息裁剪或模糊。 | 关闭 |
是否使用vlm能力 | VLM视觉语言模型(Vision-Language Model),主要包括章节理解、图片理解等。开启后,系统可识别并理解图片内容,并结合文本进行分析;否则只处理纯文本。 | 开启 |
章节预期的最大层级 | 强制限定文档树解析的最大标题层级(如2表示仅识别到二级标题),避免过深层级干扰语义。 | 60无默认配置 |
文档去重 | 开启后,系统会校验本次上传的文件内容是否与该知识库已有文件重复,如有重复则不可上传。通过校验文件MD5,只有完全重复的文件才会被判定为重复。 | 关闭 |
错别字检测 | 开启后,系统会检测上传的文件内容是否有错别字。 | 关闭 |
语句不完整检测 | 开启后,系统会检测上传的语句是否有不完整的现象。 | 关闭 |
敏感词检测 | 开后后,系统会检测上传的内容是否有敏感词。 | 关闭 |
说明
建议您点击「下载模板」,按照模板的要求填写Query名称、描述。
说明
建议您点击「下载模板」,按照模板的要求填写问题和答案。
说明
建议您点击「下载模板」,按照模板的要求填写术语名称、术语释义。
选择从「VeCDP导入」,可导入当前项目在VeCDP客户数据平台中已有的标签、数据档案、数据集。
完成以下参数配置,点击「下一步」。
参数 | 参数说明 |
|---|---|
导入任务名称 | Vector CDP数据导入知识库后的名称 |
保存路径 | 选择要保存的文件夹 |
VeCDP主体 | 选择要导入的客户数据平台的主体 |
用户范围 | 在下拉框中选择需要导入的用户分群。下拉列表中可选的用户分群为VeCDP中已创建的、且当前操作账号有权限的用户分群列表。
|
需要包含的ID信息类型 | 需要包含的ID信息类型:根据实际使用场景选择上传哪一类用户ID类型。 说明 在实际业务场景中通常可能存在多个用户ID类型,例如,手机号、账号ID等,VeCDP会根据多个用户ID类型进行MAPPIING生成一个oneID来唯一标识一个用户。此处您可根据当前业务的实际需要选择需要使用哪一类用户ID类型,后续导入数据时即导入对应ID类型的相关用户数据。 |
需要包含的数据 | 需要包含的数据:主体企业知识引擎支持从VeCDP导入标签、主体属性、行为事件、业务明细、会话档案这五类数据,用户可根据需求选择单类或多类数据进行导入。
|
点击「完成」。
由于当前知识库的导入方式为VeCDP导入, 不需要分段解析。您无需再进行配置,直接点击「完成」即可。
完成知识分段配置并提交后,知识导入任务开始执行。知识库管理列表页将展示知识处理状态,如处理中、处理成功等信息。
在知识库页面,点击「知识召回测试」,进入知识库测试页面。支持输入关键词,来完成相关段落的召回,用户可以基于混合相似度、关键词相似度、向量相似度等指标,评估召回准确度。
相似度类型 | 定义 | 分值含义 | 匹配场景 |
|---|---|---|---|
混合相似度 | 综合多种不同相似度计算方法(如关键词相似度、向量相似度等)的结果,按一定权重组合或采用复杂融合方式得出的综合指标,用于衡量文本相似程度。 | 分值越高,文本在综合多种因素后的相似程度越高,一般在 0 到 1 之间,0 表示完全不相似,1 表示完全相同。 | 综合考量整体相似性:如果希望对文本的相似性有一个全面、综合的评估,不局限于某一个方面,那么混合相似度是最佳选择。在大多数实际应用场景中,单一的相似度指标可能无法完全准确地衡量文本的相似程度,混合相似度能够融合多种因素,提供一个更全面、更可靠的相似性度量,适用于信息检索、文本分类等多种场景。 |
关键词相似度 | 通过对文本分词处理,提取关键词,对比两个文本的关键词集合,依据关键词匹配程度(如采用杰卡德相似系数等方法)确定相似度。 | 反映文本在关键词层面的重合程度,分值越高,关键词重合度越高,文本在主题和关键信息上可能越相似,一般在 0 到 1 之间,0 表示无相同关键词,1 表示关键词完全一致。 | 注重精确匹配和特定关键信息:如果任务是需要精确查找包含特定关键词的文本,或者对文本中特定关键信息的匹配度要求较高,例如在法律条文检索、技术术语查找等场景中,关键词相似度会是一个重要的指标。可以重点关注关键词相似度较高的结果,以确保找到的文本包含所需的关键内容。 |
向量相似度 | 将文本转换为向量空间中的向量,通过计算向量之间的距离(如欧式距离)或夹角(如余弦相似度)等方式衡量文本相似性。 | 对于余弦相似度,分值在 - 1 到 1 之间,1 表示文本完全相似,-1 表示文本差异极大,0 表示无相似性;其他向量相似度计算方法的分值含义类似,越接近最大值表示文本越相似,越接近最小值表示文本差异越大。 | 关注语义理解和上下文关联:当需要理解文本的语义含义,挖掘文本之间潜在的语义关联,或者对文本的上下文语境有较高要求时,如文本生成、智能问答等场景,向量相似度更为重要。因为向量相似度能够更好地捕捉文本的语义信息,即使文本使用的关键词不同,但只要语义相似,向量相似度就会较高,有助于找到与问题在语义上真正相关的文本。 |
基于复杂程度评估,可参考以下参数配置逻辑:
参数 | 复杂文本 | 简单文本 |
|---|---|---|
说明 | 如学术研究论文等专业内容,涉及多领域知识和复杂逻辑。 | 如日常对话、简单咨询记录等内容,不涉及复杂的逻辑与知识解析。 |
自动关键词 | 建议配置12-20,覆盖多领域交叉概念。 | 建议配置8-12(或更少),聚焦高频主题。 |
自动问题 | 建议配置4-6,拆解复杂逻辑链条。 | 建议配置2-3,简化交互意图。 |
拆分策略 | 文档树 / 章节,保留目录结构。 | 段落(按自然段切分,如客服对话中的问答轮次)。 |
字符长度 | 512-1024(或更高)(容纳长段落公式 / 图表描述)。 | 128-256(适配短对话 / 单句指令)。 |
是否识别PDF表格 | 建议开启(提取实验数据表格、法规附表)。 | 可选开启(仅含文本时关闭以节省资源)。 |
是否使用PDF的 Outline | 建议开启(利用目录定位章节,如 “第三章 模型构建→3.1 算法原理”)。 | 可选关闭(无目录结构时无需启用)。 |
章节预期的最大层级 | 3-4 级。 | 1-2 级。 |
块token数 | 建议配置512-1024(或更高),以确保长段落语义连贯性。 | 建议配置128-256,避免冗余计算。 |
分段标识符 | 建议以句号、分号等严谨符号分段。 | 建议以句号、逗号等常规符号分段。 |
布局识别 | 建议开启。 | 建议开启。 |
表格转HTML | 建议开启。 | 建议开启。 |
基于文本长度评估,可参考以下参数配置逻辑:
参数 | 长文本 | 短文本 |
|---|---|---|
说明 | 例如技术手册、长篇小说等内容。 | 例如社交媒体评论、短消息等内容。 |
拆分策略 | 文档树 / 章节(按 “章→节→小节” 拆分)。 | 段落 / 自定义分隔符(按 “\n” 或 “。” 切分)。 |
字符长度 | 1024+(跨章节语义关联,如 “第五章公式→第六章应用”)。 | 128-256(单条消息独立处理)。 |
是否合并小 chunks | 关闭(保留章节独立性,如 “附录 A” 与 “正文” 分开)。 | 开启(合并相邻短句,如 “你好→请问有什么可以帮你?”)。 |
PDF页数限制 | 500-1000(分批次处理大文件,如 “2000 页法规分 4 次解析”)。 | 无特殊限制(单页 / 少量内容一次性处理)。 |
块Token数 | 建议配置512-1024(或更高),兼容长上下文依赖。 | 建议配置128-256,快速响应需求。 |
分段标识符 | 建议以换行符、章节标题等作为分段标识。 | 建议以句号或自然停顿为分段标识。 |
布局识别 | 建议开启 | 建议开启 |
表格转HTML | 建议开启 | 建议开启 |