You need to enable JavaScript to run this app.
导航
Data Agent 产品名词解释
最近更新时间:2025.10.09 17:39:33首次发布时间:2025.08.19 14:19:16
复制全文
我的收藏
有用
有用
无用
无用

本文档介绍 Data Agent 相关名词的含义,以便于您更好地理解和使用产品。

智能体

名称

术语含义

别名

智能体

基于大语言模型(LLM)构建的AI系统,能够理解自然语言、执行任务并通过对话与用户交互,具备自主决策和学习能力。在本产品中指的是 智能分析 Agent 或 智能营销 Agent。

Agent

智能分析 Agent

智能分析 Agent 是一款基于AI深度思考与大数据分析的专家顾问,融合大模型深度思考能力,兼顾灵活智能问数与深度研究报告功能。

分析 Agent

智能营销 Agent

智能营销 Agent 是一款依托 AI 深度思考能力与大数据分析技术构建的综合性数字营销智能工具,整合了智能会话助手与智能营销策略两大核心模块。

营销 Agent

智能会话助手

智能会话助手是一款融合实时客户画像洞察与AI决策引擎的对话式营销中枢,通过购买意向识别、智能话术生成、精准商品推荐和全链路任务自动化实现从客户需求解析、权益推荐到档案更新的全场景智能交互,以多系统协同的闭环管理提升客户转化效率与经营精细度。

智能营销策略 Agent

智能营销策略 Agent 是一款基于AI深度思考与大数据分析的数字营销决策中枢,通过“目标输入-策略生成-任务配置-动态优化“的智能闭环,实现从营销要素解析、智能圈群匹配到全渠道策略输出的全流程自动化,为企业打造具备秒级响应与持续进化能力的"AI总参谋"决策系统。

自然语言

人类日常使用的语言(如中文、英文),智能体通过理解和生成自然语言实现人机交互。

Prompt

用户输入给智能体的指令或问题,用于引导其生成特定响应或执行任务,设计质量直接影响输出效果。

提示词、指令输入

大模型

参数量巨大的预训练语言模型(如豆包),具备强大的自然语言理解和生成能力,是智能体的核心基础。

LLM、大语言模型

企业知识引擎

是智能体的专属知识中枢,集中存储、管理企业各类知识资产,为智能体提供知识支撑。智能分析Agent与智能营销Agent均具备企业知识引擎功能。

  • 智能分析Agent中:企业知识引擎是深度研究Agent的专属知识中枢,支持上传企业私有文档,通过智能匹配与结构化提取,将内部知识精准注入分析流程。与联网搜索形成互补,确保研究结论兼具时效性与业务深度。
  • 智能营销Agent中:企业知识引擎是智能会话助手的底层能力,提供全流程知识构建、管理能力与智能化AI应用能力,支持企业级用户构建通用企业知识引擎、定制AI应用,并通过精细化权限管理保障数据安全。包含通用企业知识引擎与主体企业知识引擎。

知识库

知识配置

知识配置指为智能分析 Agent 的企业知识引擎配置知识的过程,支持上传企业私有化文档。配置的知识将会被自动打标为三种类型:业务知识、分析框架和分析报告。

语义模型

对数据集元信息(名称、字段等)进行业务语义标注和映射的模型,用于提升智能体对数据的理解和问答准确性。

非结构化数据

无固定格式的数据(如文本、图像、视频),智能体需借助多模态技术处理此类数据。

异构数据

向量化

将数据转换为数值向量(嵌入表示),使智能体能够计算语义相似度和进行高效检索。

嵌入表示、Embedding

对话

智能体与用户通过多轮自然语言交互完成任务的过程,需维护上下文一致性以实现连贯交流。

会话

数据集

名称

术语含义

别名

数据集

数据集指由一张或多张表组成的数据模型,是智能体的数据来源,在为智能体配置数据前,需要在“数据集”模块建立数据连接,将数据接入 Data Agent,并完成数据向量化。

全量表

全量表是一种数据存储或分区方式,其核心特征是:在数据的每个分区(通常按日期等时间维度划分)中,存储的是截至该分区对应日期时,研究对象或业务实体的全部最新状态数据。

增量表

增量表是与全量表相对的一种数据分区方式,其特点是:在每个分区(通常按时间周期划分)中,仅存储该周期内新增或发生变更的数据,而非截至该周期的全部数据。

关联数据集

关联数据集指通过字段匹配实现关联的多个数据集,可依据业务场景联合使用,进而形成满足自身数据需求的数据集。

字段

字段包含维度和指标两种属性。

  • 维度是划分分析数据的视角,为非聚合状态的字段(如日期、作者 UID 等);
  • 指标是通过不同聚合方式对数据进行量度的属性,多以数字形式呈现(如作者投稿数)。

表达式

表达式可通过 SQL 编写,用于获取目标数据。例如,原表有字段 price(值为 19.99),用 round (price) 可得到整数金额字段 rounded_price(值为 20)。

函数

函数是数据处理过程中可调用的预定义操作指令,用于实现各类数据处理功能,如上述表达式中用于时间转换的 toMonth 和 toDateTime 函数。

同步

将指定数据库的数据定期搬运到 Data Agent 数据库中。

  • 定时同步 :可以自行设置起始时间定时对数据进行同步,支持同步历史数据。
  • 手动同步:仅首次同步,后续不再自动更新;如需同步则需手动点击「同步」按钮。

依赖

依赖是指在数据处理相关流程中,不同节点或任务之间存在的关联性,这种关联性决定了任务的执行顺序和条件,以保障数据处理的有序性和有效性。其主要分为调度依赖和推荐依赖两种类型。

  • 调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。
  • 推荐依赖是指在带分区的 LAS 数据源中,系统能自动构建数据源分区探测任务,自动配置调度依赖。当检测任务检查到上游分区就绪的时候,才会实际的触发当天的任务实例的运行(不带分区的数据源不支持此依赖类型)。

参数

参数为可灵活调整的变量,可应用于计算字段,实现单个计算字段乃至整个图表的动态逻辑方案。当参数取值不同时,字段表达式对应的计算逻辑亦会不同。

主键

主键是数据集里用于唯一标识每条记录的字段或字段组合。设置主键后,能快速定位和检索数据,从而提升查询效率。

分区

分区是将数据集按照特定规则(如时间、地域等)从物理存储上划分为多个独立部分的机制。通过分区,可减少查询时需扫描的数据量,分散系统处理压力,提升数据查询与管理效率,尤其适用于大规模数据集。

分片

分片是将数据集依据分片字段的规则,在分布式存储环境中拆分并均匀分布到多个节点的方式。其核心目的是避免数据集中存储导致的性能瓶颈,通过多节点并行处理提升数据查询和处理速度。

抽样字段

抽样字段是在对数据集进行抽样查询时,作为数据抽样依据的特定字段。系统默认基于该字段进行 HASH 运算来选取部分数据样本,以此在保证查询结果具有一定代表性的同时,减少数据处理量,提升查询响应速度。

抽样占比

抽样占比是指在可视化查询中,基于抽样字段抽取的数据样本量占数据集总数据量的比例。该比例越小,抽取的样本数据量越少,查询时的计算与传输负载越低,可视化查询的响应速度也就越快。

数据生命周期

数据生命周期是指数据集从产生到被清理的整个过程中,系统依据预设的日期规则(如保留时长、清理周期等)自动对无用或过期数据进行清理的管理机制,旨在合理释放存储资源,保障系统高效运行。

可视化建模

名称

术语含义

别名

数据建模

按照某种数据处理逻辑将元数据数据清洗、加工及生产的过程叫做数据建模。

数据加工

画布

可视化建模的核心界面,支持通过拖拽算子并建立连接关系来构建数据处理流程。

算子

画布中的功能模块单元,提供数据输入、加工、计算或输出等特定能力,以方块形式呈现。

连线

画布中连接两个算子的有向箭头,表示数据流动的方向和依赖关系。

数据集

是数据准备的基础建模工具,提供基础的多表关联的数据建模能力,同时也是可被产品使用的数据容器,包含ClickHouse数据集/Hive数据集。

实时任务

对持续更新的数据流进行即时处理和计算的可视化建模任务,通常用于实时分析场景。

流式任务

离线任务

基于周期更新的数据源(如天级/小时级)执行的可视化建模任务,依赖定时或手动触发运行。

数据连接

名称

术语含义

别名

数据连接

用于配置与外部数据源的通信参数,建立系统与数据库/数据服务的连接通道,是数据查询、分析和建模的前提条件。

数据源接入

数据源

提供数据的存储系统或服务,包括关系型数据库、NoSQL 等,需通过数据连接配置才能访问。

数据库

抽取

将数据从源系统(如数据库、文件、API等)提取并传输到目标存储或计算引擎的过程。

  • 离线抽取:将数据离线抽取到 Data Agent 内置高性能存储计算引擎中,目前支持的大部分数据库都默认支持离线抽取。
  • 实时抽取:将数据实时抽取到引擎中存储,仅支持 Kafka、Pulsar 数据源等。

直连

直接访问源数据库执行查询,利用数据库原生计算能力,避免数据迁移开销。

服务器

提供数据服务的物理或虚拟主机的网络地址,是数据连接配置的核心参数之一。

主机、IP地址

端口

服务器上用于特定服务通信的网络端口号(如MySQL默认3306),与服务器地址共同构成连接端点。

通信端口

VPC

虚拟私有云(Virtual Private Cloud),为数据连接提供隔离的网络环境,保障数据传输安全性。

私有网络、专有网络

项目中心

名称

术语含义

别名

项目

系统中独立的业务工作空间,基于业务主题或部门划分,提供资源隔离和权限控制。项目成员可在此空间内协作完成数据连接、可视化建模、数据预览等操作。

项目资源

归属于特定项目的所有实体对象,包括数据集、数据连接、可视化任务、仪表盘等,受项目权限体系管控。

用户组

具有相同权限角色的用户集合,用于批量管理项目成员的数据访问和操作权限。

权限

名称

术语含义

别名

系统

系统指的是整个火山引擎系统。

火山引擎

产品

产品指的是 Data Agent 产品。

DataAgent

主账号

主账号可以看作是一个特殊的用户(被称为根用户,root user),是云服务资源的拥有者,也是资源计量、资源计费的主体。主账号默认拥有账号下所有权限。

主用户、系统管理员

子账号

子账号,是由火山引擎账号(主账号)或具有管理权限的 IAM 用户创建。

子用户

行权限控制

通过数据过滤条件限制用户对数据集特定行的访问权限(如仅允许查看本部门数据),实现数据行级安全管控。

RLS(Row-Level Security)

列权限控制

通过字段黑白名单限制用户对数据集特定列的访问权限(如屏蔽敏感字段),实现数据列级安全管控。

CLS(Column-Level Security)