You need to enable JavaScript to run this app.
导航
数据集配置
最近更新时间:2025.11.21 11:41:14首次发布时间:2025.09.29 16:00:01
复制全文
我的收藏
有用
有用
无用
无用

智能体的查询会基于此步骤配置的数据集的数据,用户可以自定义智能体查询的数据集范围,让智能体可以更好地应用于当前的业务。本文为您介绍创建与配置智能分析Agent时,智能体可查询的数据集相关的配置指导。

前提条件

进行智能体的数据集配置前,您需要先将对应数据创建为DataAgent的数据集,完成数据准备操作,详情请参见:数据准备概述

进入数据集配置页面

进入智能体管理配置页面后,单击左侧导航栏的“数据集配置”,进入数据集配置页面。
Image

添加数据集

自主选择数据集

您可以单击页面中的「添加数据集」,添加自己有权限的数据集。
Image

AI配置建议

智能分析Agent为您提供「优化数据集配置」功能,您可以通过上传一些问题,AI会给出您数据集配置的建议。使用此功能时,

  1. 点击「优化数据集配置」按钮,根据界面提示,下载问题模版,填写“数据集名称”和可能的“问题”,然后点击「批量上传问题」,产品将会根据用户针对数据集可能的疑问,帮助用户优化数据集配置。
    Image
  2. 上传成功后点击「确定」,等待优化建议生成完成后,点击「查看」。
    Image

配置数据集

配置语义模型

配置要点

细分

要点说明

配置目的

语义模型可以在数据集基础上对数据集名称、字段等信息做面向智能体使用者语义的重新设定,主要是为了帮助模型更好理解数据集内包含了哪些数据、这些字段的业务语义是什么,以提升智能体自动选择数据集和问答的准确性。
例如:实际业务场景中用户会用一些约定俗成的“黑话”称呼某些字段或者字段的值,则可以将这些“黑话”配置到字段名或者字段值同义词上。

注意事项

  • 如果语义模型名称、字段名称等没有重新设定,会沿用数据集上的定义。
  • 一旦设置了字段开启、关闭后,后续数据集新增字段不会自动加入当前语义模型,可按需手动开启。

操作指导

  1. 点击数据集配置页面的「语义模型」。
    Image

  2. 点击「设置模型基础信息」,为语义模型添加名称、描述以及特征。
    Image
    相关参数配置说明如下:

    参数

    配置说明

    语义模型名称

    支持用户自定义语义模型名称,如不指定,默认同步于数据集名称。

    语义模型描述

    支持用户添加对语义模型的描述内容,如不指定,默认同步于数据集描述。

    特征

    语义模型的特征值,用于定义当前数据集区分于其他数据集的关键特征,用户可使用逗号、回车分隔多个值。

    注意

    • 特征会影响智能体表召回数据集的优先级
    • 单个特征建议长度不超过5个字符,特征总数建议不超过10个
    • 特征示例:aaa,bbb,ccc
  3. 点击「配置」进入语义模型字段配置界面,对数据集中的字段进行语义模型配置,字段配置界面上方会显示数据集中字段的名称和类型。
    Image
    不同数据类型的字段涉及的配置参数有部分差异,各配置参数说明如下。

    • 通用配置参数

      参数

      配置说明

      智能体字段名称

      用户可以自定义智能体字段名称,当查询时的描述为该名称时,智能体会优先使用该字段进行查询。为空时与数据集该字段名称保持一致。

      注意

      智能体字段名称可以为空,非必要不修改,因为修改之后会直接覆盖数据集中的原始字段名称。

      字段名称同义词

      用户可以设置一个或多个该字段名称的同义词,当查询时的描述在这些同义词中,智能体会优先使用该字段进行查询。多个同义词用逗号或回车分隔。

      字段描述

      用户可以增加对智能体字段的描述,用于帮助对字段的理解,为空时与数据集该字段描述保持一致。

      默认召回

      如勾选「默认召回」,则该字段每次提问时都会作为提示词传输给大模型。

    • 文本类字段特有配置参数

      参数

      配置说明

      字段值召回

      文本类字段默认打开字段值召回按钮,您可按需关闭,关闭后字段值将不会被召回。

      字段值黑名单

      不希望召回的字段值

      高频字段值说明

      对于高频的文本字段可以配置字段含义范围。配置示例如下。
      Image

    • 数值类字段特有配置参数

      参数

      配置说明

      默认计算方式

      在下拉框中选择数值类的字段取值的默认计算方式。当前支持:求和、计数、计数不同、均值、最大值、最小值。
      Image

  4. 开启需要使用语义模型的字段。
    您可以通过检索,逐个开启数据集中所需的字段的语义模型配置内容,也可点击字段列表下方的「批量开启状态」,开启数据集中所有字段的语义模型配置。
    Image

配置知识库

配置要点

细分

要点说明

配置目的

智能体支持为数据集配置知识库,用户可以将一些行业黑话、不准确或歧义的表达等,添加进知识库中,以此可以让大模型更好地理解用户提出的问题。

注意事项

需要数据集编辑或以上权限才可以添加。

操作指导

  1. 点击数据集配置的「知识库」进入企业知识引擎配置页面。
    Image

  2. 点击「知识库」,进行知识库相关配置。
    Image
    相关参数配置说明如下:

    参数

    配置说明

    匹配度阈值

    调节业务名词与问题的向量匹配度,最小为0,最大为1,1表示精准匹配。
    (对大模型不熟悉的用户建议不要调整)

    知识召回上限

    控制当前数据集一次性召回知识数量的最大值,避免召回过多知识对大模型造成干扰。
    (可以配置,但不建议太多,2 - 5 这个区间比较好)

  3. 点击「添加知识」,为知识库添加更多知识。
    Image
    数据集的知识通常可用于对数据集字段进行组合后的一个数据范围的说明,相关参数配置说明和示例如下:

    参数

    配置说明

    配置示例

    业务名词

    业务常用语如特有名词、黑话、常用术语的名字,当召回规则为“跟随知识库配置”时,业务名词会作为关键字,用于召回该条知识。

    例如,对于某个人群画像数据集,需要按人群画像拆解人群字段时:

    • 城市白领人群:城市字段(北上广)+年龄字段(2050)+收入字段(26w)

    连接词

    用于连接业务名词和说明,包括“表示”和“无”两种连接词,连接词的作用主要是使得整句话更通畅,可以根据预览整句知识的通顺情况决定是否需要连接词。

    说明

    • 输入对知识的定义、解释说明等,是知识的核心部分,知识的说明需要精准易懂,帮助大模型更准确的理解。 例如对业务名词“搜索业绩口径”的说明是“定义:订单/流量计入搜索“。
    • 支持通过“[ ]”来引用数据集中的字段。

    同义词

    业务名词的同义词,和业务名词的作用一样。如年龄分布的同义词有年龄画像、年龄构成、年龄结构。

    预览

    可通过预览检查知识整体是否通畅。这是最终给到模型的知识,包含业务名词、连接词、说明的串连。

    召回规则

    包括跟随知识库配置、默认召回和自定义规则。

    • 跟随知识库配置表示根据业务名词或者同义词的相似度来匹配知识
    • 默认召回表示该条知识每次提问时都会作为提示词传输给大模型
    • 自定义规则表示根据用户问题中关键词匹配规则,可设置包含关键词和不包含关键词,关键词可以填多个,多个关键词之间是“且”的关系。

    参与召回字段名

    字段名召回是指当前这个知识,是否参与字段召回,参与的方式是在知识中根据字段名来召回。比如知识名:销售情况表示销售额、利润率。则该知识参与召回,会召回销售额、利润率两个字段。

    参与召回字段值

    字段值召回是指当前这个知识,是否参与字段召回,参与的方式是在知识中根据字段值来召回。比如知识名:抖西表示抖音、西瓜、今日头条。则该知识参与召回,会根据抖音、西瓜、今日头条等值,召回“产品名”这个字段。

配置筛选

  1. 用户点击「筛选配置」进入数据集筛选配置界面,可以根据数据集中的维度字段或指标字段对智能体所用数据集数据进行筛选。
    Image

  2. 设置智能体所用数据集的筛选条件,用户可根据所需数据情况使用维度筛选、指标筛选或日期筛选。
    Image

    筛选条件

    适用场景

    操作指导

    维度筛选

    需要按照维度字段对数据进行筛选,维度和指标字段对区分参见维度和指标

    维度筛选

    指标筛选

    需要按照指标字段对数据进行筛选,维度和指标字段的区分参见维度和指标

    指标筛选

    日期筛选

    需要按照日期类型的字段对数据进行筛选

    日期筛选

配置数据集就绪

点击「数据集就绪配置」进入配置数据集就绪界面,可设置数据集就绪的同步日期时间,设置好后点击「保存」。
Image

  • 当飞书端主动推送触发时将检测该T-N的时间分区数据是否就绪,该分区数据就绪则开始推送。
  • 示例:设定为T-2, 在2020-10-05日,完成“2020-10-03”日数据同步,则相关主动推送开始推送。

从其他智能体导入语义模型/知识库

智能分析Agent支持直接导入其他智能体的语义模型和知识库配置。当您在某个智能体中添加了一个数据集,并对数据集完成了语义模型、知识库的配置,后续在创建新的智能体时,如果您需要使用同一个数据集,且数据集的字段语义模型、知识库与此前的配置类似,您可以直接将对应的配置导入到新建的智能体中。

注意

  • 仅具备管理员权限的用户可进行导入的操作。
  • 如果导入的数据集语义模型与当前数据集配置的语义模型存在相同的字段,则导入的语义模型会覆盖相同字段已配置好的语义模型。
  1. 在新建的智能体中已添加了其他智能体已添加并配置过的数据集。
  2. 在新的智能体的数据集页面中,可以单击页面右上方的“从其他智能体导入”按钮。
    Image
  3. 在弹出的窗口中选择待导入的语义模型和知识库所在的智能体、数据集,并勾选待导入的语义模型或知识库。
    • 导入语义模型:
      • 会将源智能体数据集中各字段的语义模型配置(智能体字段名称、同义词、召回开关等)同步至当前智能体的数据集中。
      • 源智能体数据集设置的模型基础信息(语义模型名称、特征等)不会同步至当前智能体,因此导入后,您需要按需手动设置当前智能体数据集的模型基础信息。
    • 导入知识库:
      • 会将源智能体数据集中添加的一条一条知识(业务名称、连接词、说明等)同步至当前智能体的数据集中。
      • 源智能体数据设置的知识库配置(匹配度阈值、知识召回上限)不会同步至当前智能体,因此导入后,您需要按需手动设置当前智能体数据集的知识库配置。
  4. 勾选完成后单击“确定”,完成导入。

查看、删除数据集

查看数据集列表与状态

完成数据集配置后,您可以在数据集配置页面查看当前智能体可查询的数据集列表,并查看各数据集的应用状态。
Image

开启/关闭数据集

数据集创建完成后,默认为“开启分析”状态,如果后续数据集不需要再被当前智能体查询使用,您可在数据集配置页面关闭对应数据集。
关闭数据集后,数据集的配置会保留,但是后续使用智能体时将不会再查询使用对应数据集中的数据。

删除数据集

  • 支持对已经添加的数据集进行删除。
    Image
  • 如果当前数据集已经被用于推荐问题中,则需要先修改推荐问题后才可以删除当前数据集。
    Image