You need to enable JavaScript to run this app.
数据智能体

数据智能体

复制全文
最佳实践:智能体配置与调优
数据集配置实践
复制全文
数据集配置实践

智能体的数据集为智能分析Agent进行数据查询时的数据来源,数据集的数据质量和相关配置会直接影响智能体的数据查询结果。当您已经通过数据清洗等操作保障了智能体数据集的数据质量后,数据集的配置调优对数据查询结果的影响就非常重要,本文为您介绍数据配置的推荐思路和场景实践。

背景信息
  • 对数据集进行配置优化时,您需要结合智能体的应用场景,对于典型的问题、常问的业务指标等需要有一定的了解,结合应用场景去配置数据集。
  • 数据集本身的数据质量对智能体的应用效果影响最大,因此当问数查询结果不符合预期时,您可先看下本身数据集的数据质量是否可以优化,是否需要先通过ETL方式对数据集先进行处理,例如将常问的、易理解错的业务指标先通过ETL处理好,相关实践参考可参见最佳实践:数据ETL处理规范

数据集-语义模型配置实践

通用配置思路

建议您根据当前智能体所需的数据集及各个数据集字段的现状,先梳理清楚各字段可能涉及的业务问数场景下的同义词等现状,再基于梳理结果进行配置。智能体的语义模型配置包含对整个数据集的语义配置、数据集中各个字段的语义配置两个主要部分。
Image

  • 整个数据集的语义配置:智能体通常包含多个数据集,在智能体进行选表时,会优先匹配数据集的语义模型结果(名称、描述、特征),建议仔细研读用户的问题集,找出能显著区分数据集的特征,以便对于大多数用户问题,通过特征识别来区分数据集。
  • 数据集中各个字段的语义配置:
    • 建议仅开启必要的字段;对于存在多个日期字段且数值一致时,仅需开启一个,优先开启分区字段。
    • 针对【字段名称同义词】,如果用户问题集中对于某个字段名称有多个表述,把这几个表述加到这里。
      注意添加的时候一定要严格按照问题集中的表述添加,不是越多越好。在满足问题集的情况下,越少越好。

规划&配置案例

数据集名称

语义模型基础信息

必要的字段

字段同义词

合同明细执行汇总_CK

统计客户合同执行的情况,包括销售组织、销售部门、产品等信息。
特征信息:技术类型

客户名称

客户、客户公司、买方、用户、终端用户

销售组织名称

销售公司、子公司、营销公司

营销部门名称

销售部门、销售部、营销部、部门

销售区域名称

销售区域、区域

销售员姓名

业务员、销售员、人员

物料名称

产品、产品名称

组件版型

板型、片型

PN结类型

结型

技术类型

技术路线

订单数量

销售量、销量、订单量

订单金额

销售金额

出库数量

发货数量、出库容量、发货容量、出库功率、发货功率

合同全周期汇总_CK

销售合同全周期数据

合同编号

合同编码、合同

合同名称

合同名字、合同名、客户合同

合同签署时间

合同签字时间、合同签订时间、合同生效时间、生效时间

合同签约公司名称

合同签订公司、合同签约公司、签约公司

销售公司名称

销售公司、合同执行公司、合同主体公司、合同公司

营销部门

营销部、销售部、销售部门、归属部门

营销部门名称

营销区域、销售大区、销售片区

销售员名称

销售员、业务员

订货客户名称

客户、用户、客户公司

最终客户名称

最终用户、终端用户

合同总量_W

合同销量、合同容量、合同功率

订单数量

订单功率、订单容量、订单量、订货量、订货功率、订货容量

订单单价

订单无税单价

订单金额

订货金额、订单无税金额、订货无税金额

订单价税合计金额

订单价税总额、订单价税金额

出库数量

出库片数

数据集-知识库配置实践

通用配置思路

  • 知识库名称应精准:​目前,知识库采用名称/说明的键值对(KV)结构,系统依据用户问题与知识名称的相似度来召回知识。因此,知识名称的定义必须精准,应尽可能精确匹配问题,避免使用宽泛的名称。
  • 知识定义需谨慎:若问题可通过在数据集定义表达式或在语义模型定义同义词来解决,则无需使用知识库。
  • 关注泛化性:若定义知识解决了当前问题,建议务必进行回归测试,查看其他问题是否因该知识的定义而出现性能劣化。

原则一:尽可能使用自定义规则召回

  • 建议在配置知识库时,尽可能使用“自定义规则”。绝大多数知识的召回规则都可以通过仔细配置规则来找到。
  • “每次都提供给大模型作参考”不是最优的配置方式,除非有特殊情况,否则不建议频繁使用。建议不要为图省事而使用默认召回,否则可能导致某些问题的回答效果意外变差。

Image

原则二:当某知识适用于多种情况时,应添加多条精确规则的知识,而非一条模糊规则的知识

举例说明:假设用户提出与“豆包大模型”相关的问题,该知识适用;同时,用户提出与“豆包小模型”相关的问题,该知识同样适用。建议不要为图省事而采用默认召回方式,而应配置两条知识,一条以“豆包大模型”进行规则召回,另一条以“豆包小模型”进行规则召回。
在使用规则召回时,业务名词并非关键,只需写出希望添加知识的语句开头即可。此外,需特别注意“预览”部分,这是最终传输给大模型的内容,确保其准确无误即可。在规则召回模式下,业务名词、连接词和说明可自行安排,重点是保证预览内容的准确性。
应根据问题集中的所有问法,结合数据集中的字段,分析出最为精确的规则,使该规则仅对需要添加知识的问题生效,而尽量避免对其他不需要该知识的问题产生影响。
注意:如果添加某个知识仅是为了通过某些字段进行计算,建议在数据集中添加计算表达式字段来实现,而非直接添加知识,否则效果可能会意外变差。

规划&配置案例

通常您可以将业务场景下,当前数据集涉及的内部名词黑话、指标计算逻辑配置到该数据集的知识库。建议您根据当前数据集的各个字段先分别进行梳理,示例如下。

  • 内部名词黑话

    数据集名称

    业务名词

    同义词

    说明(名词释义)

    涉及的数据集字段

    合同明细执行汇总_CK

    卖的怎么样

    销量

    卖的怎么样指[订货数量]及对应的[订货金额]

    订单数量、订单金额、出库量

    技术类型

    技术路线

    技术类型表示产品的技术类型,包括PERC、TOPCon、HJT等类型

    xxx购物全渠道分析

    直录播

    节目播放类型

    播放类型;其中,
    直播:播放类型≠再播放;
    录播:播放类型=再播放;

  • 指标计算逻辑

    数据集名称

    业务名词

    说明(名词释义)

    xxx购物全渠道分析

    取消率

    取消金额/订购金额

    出库率

    出库金额/订购金额

    配送完成率

    配送完成金额/出库金额

    退货率

    退货金额/出库金额

    转换率(数量)

    销售数量/订购数量

    转换率(金额)

    销售金额/订购金额

    毛利率

    销售利润/销售额

    直播转化率

    直播成交人数/直播观看人数

    粉丝留存

    净关注着/总关注着

    客单价-视频号

    成交金额/成交人数

    平均单价

    订购金额/订购数量

    播放次数

    一段时间内,每一个播放时间段均有这个货号的次数,count时间段

    On-air数量/金额/利润(均值)

    总数量(利润或金额)/播放次数

最近更新时间:2025.11.27 19:50:42
这个页面对您有帮助吗?
有用
有用
无用
无用