You need to enable JavaScript to run this app.
导航
企业知识引擎
最近更新时间:2025.06.10 10:53:35首次发布时间:2025.06.09 18:25:52
我的收藏
有用
有用
无用
无用

企业知识引擎是智能会话助手的底层能力,企业知识引擎功能提供全流程知识构建、管理能力与智能化AI应用能力,支持企业级用户构建通用知识库、定制AI应用,并通过精细化权限管理保障数据安全。企业知识引擎适用于企业内部知识管理、智能客服、智能问答等多种场景,本文为您介绍企业知识引擎的功能概述和如何创建并检测、管理企业知识引擎。

功能概述

智能会话助手支持两种企业知识引擎类型:通用知识库与主体知识库,以满足不同业务需求。

对比项

通用知识库

主体知识库

知识库定义

通用知识库是储存广泛领域知识的数据库,可包含产品说明手册、市场宣传物料、社交媒体资讯、技术文档、常见问题解答等内容。

主体知识库是围绕特定主体构建的知识集合,可包含客户标签体系、客户属性数据、客户画像数据、客户会话数据、客户音视频数据等内容,并通过结构化与非结构化数据的融合,全方位、立体化为智能会话等应用场景提供精准知识支撑。

知识导入方式

  • 创建通用知识库后,上传离线纯文件(如文本、文本+图片文件)。
  • 图片格式应为JPGE或PNG。
  • 支持上传的格式包括doc、docx、pdf、pptx、txt、md、html、json、xlsx、csv等格式,单次可上传最多100个文件,单个文件不超过100M。

创建主体知识库后,从VeCDP(客户数据平台)导入标签、标签、主体属性、行为事件、业务明细、会话档案等数据。

导入数据存储

导入的数据会存储于智能会话助手Agent中。

  • 会话档案:会话档案是VeCDP新增的数据档案类型,用以存储客户沟通记录等大段文本。导入VeCDP的会话档案数据时,会将数据转存到智能会话助手Agent,并在导入知识库时对文本进行向量化处理,支持基于文本内容的语义召回(如分析客户情绪变化)。
  • 其他数据:数据存储在VeCDP中的CK(ClickHouse)中,主体知识库不直接存储数据,而是直接读取VeCDP中的数据。

注意事项

暂无

同一账号下需已开通火山引擎VeCDP服务,且执行导入操作的用户需拥有待导入VeCDP数据的查看权限。

典型应用场景

通用知识库主要用于智能知识问答场景。

主体知识库主要用于客服/导购、会话分析场景。

知识解析模型能力

智能会话助手Agent为您提供Doubao-embedding模型用于进行知识解析(例如,对知识进行向量化),如果您使用的是私有化环境,也可选择对接其他模型进行知识解析。

说明

后续在各个应用场景中使用知识库时,您可按需选择支持的推理模型。

依赖VeCDP数据能力,并可结合大模型进行分析和应用。

同时智能会话助手为您提供了企业知识引擎的管理、监测和权限管控能力。

  • 企业知识引擎管理:提供文档向量化存储、智能检索与知识维护等功能。
  • 系统监测:追踪企业知识引擎关联的AI应用数量、内容使用效能(如召回次数)及模型性能指标(调用量、Token消耗、响应速度),为资源优化与异常排查提供数据支撑。
  • 权限管理:提供多级账号体系与资源访问控制机制。

创建企业知识引擎
  1. 使用账号密码登录智能营销Agent页面后,找到“智能会话助手”服务卡片,点击【立即体验】。
    Image

  2. 进入智能会话助手页面,在顶部导航栏中单击「知识库」,即可进入知识库页面。
    Image

  3. 在企业知识引擎管理页面,根据需要创建的知识库类型(通用知识库或主体知识库),确保选择了对应的标签页。然后,点击页面左上方的「新建知识库」按钮,填写基础配置信息,完成后单击保存,完成新的知识引擎的创建。
    Image

    参数

    配置说明-通用知识库

    配置说明:主体知识库

    主体

    通用知识库无需配置。

    主体又称实体或对象,通常可以被运营或洞察分析,常见的主体为“人”。

    名称

    自定义名称。

    描述

    简要描述知识库的用途或包含的内容(限制200字以内)。

    类型

    选择后续导入的知识类型,目前支持“纯文本”或“多模态”。
    纯文本:仅处理文档中的文字及表格。
    多模态:支持处理文档中的文字+图片(图片格式:JPGE、PNG)。

    知识解析模型

    用于将自然语言转化为向量,进行语义检索和QA问答生成,目前支持选择Doubao-embedding。

导入知识:通用知识库

Step1:导入知识

  1. 上传知识文件:点击「导入知识」按钮,完成所需知识的上传。
    Image
    上传文件以导入知识内容,目前支持上传的格式包括doc、docx、pdf、pptx、txt、md、html、json、xlsx、csv等格式,单次可上传最多100个文件,单个文件不超过100M。

  2. 上传成功后,点击「下一步」,进入知识分段方式配置。

    说明

    知识分段是将长文档拆分成较小、更易于模型处理和检索的单元的过程,合理的配置有助于提升检索的准确性和效率。

    Image

    参数

    参数说明

    默认配置

    自动关键词

    提取分段中的关键词数量,0表自动提取。

    0

    自动问题

    针对问题类问答自动拆分问题数量,0表示系统自动拆分。

    0

    拆分策略

    基于plain text切分。
    基于[paragraph/段落]的切分。
    基于文档逻辑结构(文档树/章节)切分。

    基于文档逻辑结构(文档树/章节)切分

    字符长度

    每个块的字符长度,单位:字节。

    512

    是否识别PDF表格

    控制是否解析PDF中的表格数据:开启后可提取表格结构化信息,关闭则仅处理纯文本。

    开启

    PDF页数限制

    单次处理PDF的最大页数,超出部分自动截断:适用于大文件分批次处理,避免内存过载。

    1000

    是否合并小chunks

    仅当拆分策略为段落时生效:开启后自动合并相邻的小段落(字符数 < 阈值),减少碎片化。

    开启

    是否解析扫描件

    控制是否启用识别扫描件,关闭则仅处理可复制文本。

    开启

    是否使用pdf的outline进行章节理解

    是否基于PDF目录(Outline)智能识别章节结构:开启可提升长文档章节切分准确性。

    开启

    自定义分隔符

    • 当前系统会使用默认分隔符(句号 / 段落)进行导入知识内容分割。
    • 如果您还希望使用其他分隔符进行分割,可在此处配置自定义分隔符。自定义分隔符的优先级高于默认分隔符。
    • 支持添加多个自定义分隔符,多个自定义分隔符间使用“

    ”隔开,例如:!|?|。|####

    是否以Markdown返回

    控制结果格式:开启返回结构化Markdown格式,关闭返回纯文本。

    开启

    Markdown是否折叠

    控制Markdown是否折叠。

    关闭

    excel解析是否开启表格识别

    控制是否解析Excel中的表格数据:开启可提取表格结构化信息,关闭则仅处理单元格文本。

    开启

    章节预期的最大层级

    强制限定文档树解析的最大标题层级(如2表示仅识别到二级标题),避免过深层级干扰语义。

    无默认配置

  3. 完成知识分段配置并提交后,知识导入任务开始执行。
    知识库管理列表页将展示知识处理状态,如处理中、处理成功等信息。
    Image

Step2:测试导入结果

点击「知识召回测试」,进入知识库测试页面。支持输入关键词,来完成相关段落的召回,用户可以基于混合相似度、关键词相似度、向量相似度等指标,评估召回准确度。
Image

相似度类型

定义

分值含义

匹配场景

混合相似度

综合多种不同相似度计算方法(如关键词相似度、向量相似度等)的结果,按一定权重组合或采用复杂融合方式得出的综合指标,用于衡量文本相似程度。

分值越高,文本在综合多种因素后的相似程度越高,一般在 0 到 1 之间,0 表示完全不相似,1 表示完全相同。

综合考量整体相似性:如果希望对文本的相似性有一个全面、综合的评估,不局限于某一个方面,那么混合相似度是最佳选择。在大多数实际应用场景中,单一的相似度指标可能无法完全准确地衡量文本的相似程度,混合相似度能够融合多种因素,提供一个更全面、更可靠的相似性度量,适用于信息检索、文本分类等多种场景。

关键词相似度

通过对文本分词处理,提取关键词,对比两个文本的关键词集合,依据关键词匹配程度(如采用杰卡德相似系数等方法)确定相似度。

反映文本在关键词层面的重合程度,分值越高,关键词重合度越高,文本在主题和关键信息上可能越相似,一般在 0 到 1 之间,0 表示无相同关键词,1 表示关键词完全一致。

注重精确匹配和特定关键信息:如果任务是需要精确查找包含特定关键词的文本,或者对文本中特定关键信息的匹配度要求较高,例如在法律条文检索、技术术语查找等场景中,关键词相似度会是一个重要的指标。可以重点关注关键词相似度较高的结果,以确保找到的文本包含所需的关键内容。

向量相似度

将文本转换为向量空间中的向量,通过计算向量之间的距离(如欧式距离)或夹角(如余弦相似度)等方式衡量文本相似性。

对于余弦相似度,分值在 - 1 到 1 之间,1 表示文本完全相似,-1 表示文本差异极大,0 表示无相似性;其他向量相似度计算方法的分值含义类似,越接近最大值表示文本越相似,越接近最小值表示文本差异越大。

关注语义理解和上下文关联:当需要理解文本的语义含义,挖掘文本之间潜在的语义关联,或者对文本的上下文语境有较高要求时,如文本生成、智能问答等场景,向量相似度更为重要。因为向量相似度能够更好地捕捉文本的语义信息,即使文本使用的关键词不同,但只要语义相似,向量相似度就会较高,有助于找到与问题在语义上真正相关的文本。

Step3:后续使用

通用知识库在成功导入知识并完成测试后,主要应用于知识问答场景,详情可参见:使用实践:知识问答场景

参考:知识分段配置与调优建议

场景1:从文本特征维度评估

  • 基于复杂程度评估,可参考以下参数配置逻辑:

    参数

    复杂文本

    简单文本

    说明

    如学术研究论文等专业内容,涉及多领域知识和复杂逻辑。

    如日常对话、简单咨询记录等内容,不涉及复杂的逻辑与知识解析。

    自动关键词

    建议配置12-20,覆盖多领域交叉概念。

    建议配置8-12(或更少),聚焦高频主题。

    自动问题

    建议配置4-6,拆解复杂逻辑链条。

    建议配置2-3,简化交互意图。

    拆分策略

    文档树 / 章节,保留目录结构。

    段落(按自然段切分,如客服对话中的问答轮次)。

    字符长度

    512-1024(或更高)(容纳长段落公式 / 图表描述)。

    128-256(适配短对话 / 单句指令)。

    是否识别PDF表格

    建议开启(提取实验数据表格、法规附表)。

    可选开启(仅含文本时关闭以节省资源)。

    是否使用PDF的 Outline

    建议开启(利用目录定位章节,如 “第三章 模型构建→3.1 算法原理”)。

    可选关闭(无目录结构时无需启用)。

    章节预期的最大层级

    3-4 级。

    1-2 级。

    块token数

    建议配置512-1024(或更高),以确保长段落语义连贯性。

    建议配置128-256,避免冗余计算。

    分段标识符

    建议以句号、分号等严谨符号分段。

    建议以句号、逗号等常规符号分段。

    布局识别

    建议开启。

    建议开启。

    表格转HTML

    建议开启。

    建议开启。

  • 基于文本长度评估,可参考以下参数配置逻辑:

    参数

    长文本

    短文本

    说明

    例如技术手册、长篇小说等内容。

    例如社交媒体评论、短消息等内容。

    拆分策略

    文档树 / 章节(按 “章→节→小节” 拆分)。

    段落 / 自定义分隔符(按 “\n” 或 “。” 切分)。

    字符长度

    1024+(跨章节语义关联,如 “第五章公式→第六章应用”)。

    128-256(单条消息独立处理)。

    是否合并小 chunks

    关闭(保留章节独立性,如 “附录 A” 与 “正文” 分开)。

    开启(合并相邻短句,如 “你好→请问有什么可以帮你?”)。

    PDF页数限制

    500-1000(分批次处理大文件,如 “2000 页法规分 4 次解析”)。

    无特殊限制(单页 / 少量内容一次性处理)。

    块Token数

    建议配置512-1024(或更高),兼容长上下文依赖。

    建议配置128-256,快速响应需求。

    分段标识符

    建议以换行符、章节标题等作为分段标识。

    建议以句号或自然停顿为分段标识。

    布局识别

    建议开启

    建议开启

    表格转HTML

    建议开启

    建议开启

场景2:从应用场景维度评估

  • 高精度场景(学术研究、法律文档等)。
    • 核心目标:最大化知识关联性与完整性。
    • 配置策略:关键词提取数量多,问题拆分细致,字符长度长,严格按文本结构和逻辑分段,准确识别布局并处理表格数据。
  • 高效率场景(智能客服、实时交互等)
    • 核心目标:平衡语义理解与响应速度。
    • 配置策略:在保证理解语义的基础上,关键词和问题数量适中,采用简单易处理的分段标识符,布局识别和表格处理要简洁高效。

导入知识:主体知识库

主体知识库支持从VeCDP导入标签、主体属性、行为事件、业务明细、会话档案这五类数据,用户可根据需求选择单类或多类数据进行导入。

Step1:导入前检查

由于主体知识库是对接/导入VeCDP中的相关数据,因此在导入知识前,您需要确认当前操作的账号已开通火山引擎VeCDP服务,且执行导入操作的用户需拥有待导入VeCDP对应数据资源的查看权限,否则您将无法正常操作后续的知识导入操作。
如果没有相关权限可联系管理员先进行授权,授权操作详见:VeCDP授权文档

Step2:导入知识

  1. 点击「导入知识」按钮,完成所需知识的上传。
    Image

    参数

    配置说明

    导入任务名称

    VeCDP数据导入知识库后的名称。

    用户范围

    在下拉框中选择需要导入的用户分群。下拉列表中可选的用户分群为VeCDP中已创建的、且当前操作账号有权限的用户分群列表。

    • 当前不支持直接导入全量用户,需通过选择合适的用户分群来确定导入的用户范围。如果您的业务场景需要导入全量用户时,您可先在VeCDP中通过标签圈选创建全量用户的用户分群,再在此处选择全量用户的用户分群。
    • 建议您根据实际情况选择需要导入的用户分群范围,尽量避免选择过多用户。当导入的用户过多时,例如选择的用户分群包含数千万用户ID,导入速度可能变慢,甚至导致失败。

    导入内容

    • 需要包含的ID信息类型:根据实际使用场景选择上传哪一类用户ID类型。

      说明

      在实际业务场景中通常可能存在多个用户ID类型,例如,手机号、账号ID等,VeCDP会根据多个用户ID类型进行MAPPIING生成一个oneID来唯一标识一个用户。此处您可根据当前业务的实际需要选择需要使用哪一类用户ID类型,后续导入数据时即导入对应ID类型的相关用户数据。

    • 需要包含的数据:主体知识库支持从VeCDP导入标签、主体属性、行为事件、业务明细、会话档案这五类数据,用户可根据需求选择单类或多类数据进行导入。
      • 会话档案数据后续会转存至主体知识库中,并经由知识解析引擎进行向量化等处理,用于后续的场景使用。
      • 标签、主体属性等其他数据不会转存至主体知识库中,在后续使用时直接读取VeCDP中的对应用户数据。
  2. 完成知识导入后,知识管理列表页将展示知识处理状态,如处理中、处理成功等信息。
    Image

Step3:后续使用

主体知识库主要用于API应用中,通过传入客户ID查询其标签、行为等数据,典型场景如: 客户360画像总结:根据查询到的标签属性行为明细,生成客户画像摘要。详情请参见:使用实践:客服 / 导购场景使用实践:会话分析场景

企业知识引擎管理

通用知识库

  1. 支持对知识库进行编辑:
    分段编辑:支持修改分段内容、删除分段。
    Image
    若对当前分段不满意,可点击右上角「重新分段」,调整参数配置重新运行,调整后将影响后续检索精度。
    Image
    Image
  2. 支持删除知识库:
    Image

主体知识库

  1. 支持对知识库进行编辑:
    Image
  2. 支持删除知识库:
    Image

系统监测

资产监测

在资产监测页面,支持筛选一段时间内,企业知识引擎关联的AI应用数量、内容使用效能(如召回次数)等信息。
Image

指标释义:
*关联AI应用数量:当前与该企业知识引擎绑定的AI应用总数。
*召回次数:企业知识引擎内容被AI应用调用的总次数。

Image

指标释义:
*会话数量:使用AI应用发生的会话总数。
*点赞/点踩次数:Ai应用会话时,用户对于回复问题的点赞与点踩次数总数。

模型监测

在模型监测页面,支持按用户或应用筛选查看,所调用的模型性能指标(如调用量、Token消耗、响应速度等),为资源优化与异常排查提供数据支撑。
Image

指标释义:
*调用总次数:关联模型,被调用的总次数。
*调用总量Token数:输入与输出的Token累计消耗。
*输入总token数:输入的Token累计消耗。
*输出token数:输出的Token累计消耗。
*平均响应时长:从请求发起到返回结果的耗时(毫秒)。

权限管理

企业知识引擎及AI应用的权限默认为创建人所有,管理员可在权限管理中灵活授权。

创建用户

管理员点击右上角头像,选择访问控制

进入用户管理 > 用户 ,点击新建用户 ,填写用户基本信息完成创建,新建用户具体方式可参考 用户管理 介绍。操作示例如下:

  1. 选择通过用户名创建

  2. 在信息填写栏,输入用户名(必须是英文字母,不可输入中文),如test。

  3. 在登录设置中勾选编程访问-允许用户管理自己的API密钥,系统将自动为用户分配AK。

  4. 在登录设置中勾选控制台访问,选择自定义生成密码,并选择无需重置密码

  5. 点击下一步

  6. 在权限配置页面,完成所需权限勾选后,点击下一步

  7. 在审阅页面,检查用户创建配置项是否准确,确认无误后点击提交即可完成IAM子账号的创建。
    Image

用户管理

  1. 点击权限管理,进入用户权限配置页面,左侧将展示所有当前项目下已创建的用户,若需要添加新用户,点击添加用户按钮,即可从集团下选择用户添加到当前项目中。
  2. 支持给用户授予某个企业知识引擎或者应用的编辑权限。
    Image
  3. 账号类型及权限说明如下

角色

权限范围

集团管理员(admin)

全集团下所有资源访问+权限分配权限

项目管理员

当前项目下所有资源的访问+权限分配权限

项目用户

被授予了编辑权限的企业知识引擎、AI应用的修改权限

特别声明

(1)本服务输出的内容均由人工智能模型生成。
(2)本功能适用人群:仅限于客户在内部、自有业务、自己使用,客户不得通过数据智能体向公众提供生成式人工智能服务。
(3)本产品支持 SaaS 版本和私有化部署版本产品使用,如需购买或试用,请您联系商务人员进行咨询。