企业知识引擎是智能会话助手的底层能力,企业知识引擎功能提供全流程知识构建、管理能力与智能化AI应用能力,支持企业级用户构建通用知识库、定制AI应用,并通过精细化权限管理保障数据安全。企业知识引擎适用于企业内部知识管理、智能客服、智能问答等多种场景,本文为您介绍企业知识引擎的功能概述和如何创建并检测、管理企业知识引擎。
智能会话助手支持两种企业知识引擎类型:通用知识库与主体知识库,以满足不同业务需求。
对比项 | 通用知识库 | 主体知识库 |
---|---|---|
知识库定义 | 通用知识库是储存广泛领域知识的数据库,可包含产品说明手册、市场宣传物料、社交媒体资讯、技术文档、常见问题解答等内容。 | 主体知识库是围绕特定主体构建的知识集合,可包含客户标签体系、客户属性数据、客户画像数据、客户会话数据、客户音视频数据等内容,并通过结构化与非结构化数据的融合,全方位、立体化为智能会话等应用场景提供精准知识支撑。 |
知识导入方式 |
| 创建主体知识库后,从VeCDP(客户数据平台)导入标签、标签、主体属性、行为事件、业务明细、会话档案等数据。 |
导入数据存储 | 导入的数据会存储于智能会话助手Agent中。 |
|
注意事项 | 暂无 | 同一账号下需已开通火山引擎VeCDP服务,且执行导入操作的用户需拥有待导入VeCDP数据的查看权限。 |
典型应用场景 | 通用知识库主要用于智能知识问答场景。 | 主体知识库主要用于客服/导购、会话分析场景。 |
知识解析模型能力 | 智能会话助手Agent为您提供Doubao-embedding模型用于进行知识解析(例如,对知识进行向量化),如果您使用的是私有化环境,也可选择对接其他模型进行知识解析。 说明 后续在各个应用场景中使用知识库时,您可按需选择支持的推理模型。 | 依赖VeCDP数据能力,并可结合大模型进行分析和应用。 |
同时智能会话助手为您提供了企业知识引擎的管理、监测和权限管控能力。
使用账号密码登录智能营销Agent页面后,找到“智能会话助手”服务卡片,点击【立即体验】。
进入智能会话助手页面,在顶部导航栏中单击「知识库」,即可进入知识库页面。
在企业知识引擎管理页面,根据需要创建的知识库类型(通用知识库或主体知识库),确保选择了对应的标签页。然后,点击页面左上方的「新建知识库」按钮,填写基础配置信息,完成后单击保存,完成新的知识引擎的创建。
参数 | 配置说明-通用知识库 | 配置说明:主体知识库 |
---|---|---|
主体 | 通用知识库无需配置。 | 主体又称实体或对象,通常可以被运营或洞察分析,常见的主体为“人”。 |
名称 | 自定义名称。 | |
描述 | 简要描述知识库的用途或包含的内容(限制200字以内)。 | |
类型 | 选择后续导入的知识类型,目前支持“纯文本”或“多模态”。 | |
知识解析模型 | 用于将自然语言转化为向量,进行语义检索和QA问答生成,目前支持选择Doubao-embedding。 |
上传知识文件:点击「导入知识」按钮,完成所需知识的上传。
上传文件以导入知识内容,目前支持上传的格式包括doc、docx、pdf、pptx、txt、md、html、json、xlsx、csv等格式,单次可上传最多100个文件,单个文件不超过100M。
上传成功后,点击「下一步」,进入知识分段方式配置。
说明
知识分段是将长文档拆分成较小、更易于模型处理和检索的单元的过程,合理的配置有助于提升检索的准确性和效率。
参数 | 参数说明 | 默认配置 |
---|---|---|
自动关键词 | 提取分段中的关键词数量,0表自动提取。 | 0 |
自动问题 | 针对问题类问答自动拆分问题数量,0表示系统自动拆分。 | 0 |
拆分策略 | 基于plain text切分。 | 基于文档逻辑结构(文档树/章节)切分 |
字符长度 | 每个块的字符长度,单位:字节。 | 512 |
是否识别PDF表格 | 控制是否解析PDF中的表格数据:开启后可提取表格结构化信息,关闭则仅处理纯文本。 | 开启 |
PDF页数限制 | 单次处理PDF的最大页数,超出部分自动截断:适用于大文件分批次处理,避免内存过载。 | 1000 |
是否合并小chunks | 仅当拆分策略为段落时生效:开启后自动合并相邻的小段落(字符数 < 阈值),减少碎片化。 | 开启 |
是否解析扫描件 | 控制是否启用识别扫描件,关闭则仅处理可复制文本。 | 开启 |
是否使用pdf的outline进行章节理解 | 是否基于PDF目录(Outline)智能识别章节结构:开启可提升长文档章节切分准确性。 | 开启 |
自定义分隔符 |
| ”隔开,例如: |
是否以Markdown返回 | 控制结果格式:开启返回结构化Markdown格式,关闭返回纯文本。 | 开启 |
Markdown是否折叠 | 控制Markdown是否折叠。 | 关闭 |
excel解析是否开启表格识别 | 控制是否解析Excel中的表格数据:开启可提取表格结构化信息,关闭则仅处理单元格文本。 | 开启 |
章节预期的最大层级 | 强制限定文档树解析的最大标题层级(如2表示仅识别到二级标题),避免过深层级干扰语义。 | 无默认配置 |
完成知识分段配置并提交后,知识导入任务开始执行。
知识库管理列表页将展示知识处理状态,如处理中、处理成功等信息。
点击「知识召回测试」,进入知识库测试页面。支持输入关键词,来完成相关段落的召回,用户可以基于混合相似度、关键词相似度、向量相似度等指标,评估召回准确度。
相似度类型 | 定义 | 分值含义 | 匹配场景 |
---|---|---|---|
混合相似度 | 综合多种不同相似度计算方法(如关键词相似度、向量相似度等)的结果,按一定权重组合或采用复杂融合方式得出的综合指标,用于衡量文本相似程度。 | 分值越高,文本在综合多种因素后的相似程度越高,一般在 0 到 1 之间,0 表示完全不相似,1 表示完全相同。 | 综合考量整体相似性:如果希望对文本的相似性有一个全面、综合的评估,不局限于某一个方面,那么混合相似度是最佳选择。在大多数实际应用场景中,单一的相似度指标可能无法完全准确地衡量文本的相似程度,混合相似度能够融合多种因素,提供一个更全面、更可靠的相似性度量,适用于信息检索、文本分类等多种场景。 |
关键词相似度 | 通过对文本分词处理,提取关键词,对比两个文本的关键词集合,依据关键词匹配程度(如采用杰卡德相似系数等方法)确定相似度。 | 反映文本在关键词层面的重合程度,分值越高,关键词重合度越高,文本在主题和关键信息上可能越相似,一般在 0 到 1 之间,0 表示无相同关键词,1 表示关键词完全一致。 | 注重精确匹配和特定关键信息:如果任务是需要精确查找包含特定关键词的文本,或者对文本中特定关键信息的匹配度要求较高,例如在法律条文检索、技术术语查找等场景中,关键词相似度会是一个重要的指标。可以重点关注关键词相似度较高的结果,以确保找到的文本包含所需的关键内容。 |
向量相似度 | 将文本转换为向量空间中的向量,通过计算向量之间的距离(如欧式距离)或夹角(如余弦相似度)等方式衡量文本相似性。 | 对于余弦相似度,分值在 - 1 到 1 之间,1 表示文本完全相似,-1 表示文本差异极大,0 表示无相似性;其他向量相似度计算方法的分值含义类似,越接近最大值表示文本越相似,越接近最小值表示文本差异越大。 | 关注语义理解和上下文关联:当需要理解文本的语义含义,挖掘文本之间潜在的语义关联,或者对文本的上下文语境有较高要求时,如文本生成、智能问答等场景,向量相似度更为重要。因为向量相似度能够更好地捕捉文本的语义信息,即使文本使用的关键词不同,但只要语义相似,向量相似度就会较高,有助于找到与问题在语义上真正相关的文本。 |
通用知识库在成功导入知识并完成测试后,主要应用于知识问答场景,详情可参见:使用实践:知识问答场景 。
基于复杂程度评估,可参考以下参数配置逻辑:
参数 | 复杂文本 | 简单文本 |
---|---|---|
说明 | 如学术研究论文等专业内容,涉及多领域知识和复杂逻辑。 | 如日常对话、简单咨询记录等内容,不涉及复杂的逻辑与知识解析。 |
自动关键词 | 建议配置12-20,覆盖多领域交叉概念。 | 建议配置8-12(或更少),聚焦高频主题。 |
自动问题 | 建议配置4-6,拆解复杂逻辑链条。 | 建议配置2-3,简化交互意图。 |
拆分策略 | 文档树 / 章节,保留目录结构。 | 段落(按自然段切分,如客服对话中的问答轮次)。 |
字符长度 | 512-1024(或更高)(容纳长段落公式 / 图表描述)。 | 128-256(适配短对话 / 单句指令)。 |
是否识别PDF表格 | 建议开启(提取实验数据表格、法规附表)。 | 可选开启(仅含文本时关闭以节省资源)。 |
是否使用PDF的 Outline | 建议开启(利用目录定位章节,如 “第三章 模型构建→3.1 算法原理”)。 | 可选关闭(无目录结构时无需启用)。 |
章节预期的最大层级 | 3-4 级。 | 1-2 级。 |
块token数 | 建议配置512-1024(或更高),以确保长段落语义连贯性。 | 建议配置128-256,避免冗余计算。 |
分段标识符 | 建议以句号、分号等严谨符号分段。 | 建议以句号、逗号等常规符号分段。 |
布局识别 | 建议开启。 | 建议开启。 |
表格转HTML | 建议开启。 | 建议开启。 |
基于文本长度评估,可参考以下参数配置逻辑:
参数 | 长文本 | 短文本 |
---|---|---|
说明 | 例如技术手册、长篇小说等内容。 | 例如社交媒体评论、短消息等内容。 |
拆分策略 | 文档树 / 章节(按 “章→节→小节” 拆分)。 | 段落 / 自定义分隔符(按 “\n” 或 “。” 切分)。 |
字符长度 | 1024+(跨章节语义关联,如 “第五章公式→第六章应用”)。 | 128-256(单条消息独立处理)。 |
是否合并小 chunks | 关闭(保留章节独立性,如 “附录 A” 与 “正文” 分开)。 | 开启(合并相邻短句,如 “你好→请问有什么可以帮你?”)。 |
PDF页数限制 | 500-1000(分批次处理大文件,如 “2000 页法规分 4 次解析”)。 | 无特殊限制(单页 / 少量内容一次性处理)。 |
块Token数 | 建议配置512-1024(或更高),兼容长上下文依赖。 | 建议配置128-256,快速响应需求。 |
分段标识符 | 建议以换行符、章节标题等作为分段标识。 | 建议以句号或自然停顿为分段标识。 |
布局识别 | 建议开启 | 建议开启 |
表格转HTML | 建议开启 | 建议开启 |
主体知识库支持从VeCDP导入标签、主体属性、行为事件、业务明细、会话档案这五类数据,用户可根据需求选择单类或多类数据进行导入。
由于主体知识库是对接/导入VeCDP中的相关数据,因此在导入知识前,您需要确认当前操作的账号已开通火山引擎VeCDP服务,且执行导入操作的用户需拥有待导入VeCDP对应数据资源的查看权限,否则您将无法正常操作后续的知识导入操作。
如果没有相关权限可联系管理员先进行授权,授权操作详见:VeCDP授权文档。
点击「导入知识」按钮,完成所需知识的上传。
参数 | 配置说明 |
---|---|
导入任务名称 | VeCDP数据导入知识库后的名称。 |
用户范围 | 在下拉框中选择需要导入的用户分群。下拉列表中可选的用户分群为VeCDP中已创建的、且当前操作账号有权限的用户分群列表。
|
导入内容 |
|
完成知识导入后,知识管理列表页将展示知识处理状态,如处理中、处理成功等信息。
主体知识库主要用于API应用中,通过传入客户ID查询其标签、行为等数据,典型场景如: 客户360画像总结:根据查询到的标签属性行为明细,生成客户画像摘要。详情请参见:使用实践:客服 / 导购场景、使用实践:会话分析场景。
在资产监测页面,支持筛选一段时间内,企业知识引擎关联的AI应用数量、内容使用效能(如召回次数)等信息。
指标释义:
*关联AI应用数量:当前与该企业知识引擎绑定的AI应用总数。
*召回次数:企业知识引擎内容被AI应用调用的总次数。
指标释义:
*会话数量:使用AI应用发生的会话总数。
*点赞/点踩次数:Ai应用会话时,用户对于回复问题的点赞与点踩次数总数。
在模型监测页面,支持按用户或应用筛选查看,所调用的模型性能指标(如调用量、Token消耗、响应速度等),为资源优化与异常排查提供数据支撑。
指标释义:
*调用总次数:关联模型,被调用的总次数。
*调用总量Token数:输入与输出的Token累计消耗。
*输入总token数:输入的Token累计消耗。
*输出token数:输出的Token累计消耗。
*平均响应时长:从请求发起到返回结果的耗时(毫秒)。
企业知识引擎及AI应用的权限默认为创建人所有,管理员可在权限管理中灵活授权。
管理员点击右上角头像,选择访问控制;
进入用户管理 > 用户 ,点击新建用户 ,填写用户基本信息完成创建,新建用户具体方式可参考 用户管理 介绍。操作示例如下:
选择通过用户名创建。
在信息填写栏,输入用户名(必须是英文字母,不可输入中文),如test。
在登录设置中勾选编程访问-允许用户管理自己的API密钥,系统将自动为用户分配AK。
在登录设置中勾选控制台访问,选择自定义生成密码,并选择无需重置密码。
点击下一步。
在权限配置页面,完成所需权限勾选后,点击下一步。
在审阅页面,检查用户创建配置项是否准确,确认无误后点击提交即可完成IAM子账号的创建。
角色 | 权限范围 |
---|---|
集团管理员(admin) | 全集团下所有资源访问+权限分配权限 |
项目管理员 | 当前项目下所有资源的访问+权限分配权限 |
项目用户 | 被授予了编辑权限的企业知识引擎、AI应用的修改权限 |
(1)本服务输出的内容均由人工智能模型生成。
(2)本功能适用人群:仅限于客户在内部、自有业务、自己使用,客户不得通过数据智能体向公众提供生成式人工智能服务。
(3)本产品支持 SaaS 版本和私有化部署版本产品使用,如需购买或试用,请您联系商务人员进行咨询。