通过本功能,您可以配置扫描任务,实现对指定数据资源进行分类分级识别,并推荐资源owner对识别到的数据表字段进行分类分级打标。
约束限制
仅任务创建人和任务负责人可以管理自己的任务。
前提条件
- 已创建分类分级标签,相关说明请参见分类分级管理。
- 已创建支持类型的安全模式的集群,且该集群已完成元数据采集。创建集群相关操作说明可参见集群管理,元数据采集的相关说明请参见元数据采集。
新建扫描任务
登录DataLeap控制台。
选择概览 > 数据安全 > 安全标签 > 扫描管理,进入扫描管理页面。
单击新建扫描任务按钮,弹出新建扫描任务侧拉窗口。

设置任务信息后,单击确定按钮,完成创建。
新建扫描任务相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
|---|
基础信息 |
*名称 | 扫描任务的名称,自行设定,不可重复。
名称由中文、英文、数字或下划线组成,长度不超过50字符。 |
*描述 | 扫描任务的说明信息,长度不超过200字符。 |
责任人 | 扫描任务的责任人,默认为任务创建人,不可编辑。 |
分类分级 |
*数据源 | 数据源类型,目前已支持 MiniBase Hive、Apache Hive、LAS、EMR StarRocks、GaussDB、Gbase8a。 说明 - 该功能支持 LAS3,但暂不支持 LAS3 集群下的 hudi 表。LAS3 以 Apache Hive(CDH-3.2.2 版本) 方式接。
- EMR StarRocks 仅 3.x 版本支持该功能。
|
*集群 | 分类分级扫描的库表所属的集群,下拉可选已注册并创建采集器的集群。 说明 - 选择数据源后,才可选择对应的集群。
- 仅可选择安全模式且已创建对应采集器的集群。若已绑定集群从快捷模式切换为安全模式,则数据安全侧第二天才能看到该元数据。
|
*扫描范围 | 支持指定数据表、指定数据库的所有表和所有数据表三个选项,下拉可选。 - 指定数据表:支持用户选择多个数据表。可选择在线选择或批量填写。
- 在线选择:下拉可选已创建的数据库,以及数据库下已创建的表。
- 批量填写:填写数据表完整路径“database.table”,多个数据表用英文逗号分隔。
- 指定数据库的所有表:支持用户选择多个数据库。可选择在线选择或批量填写。
- 在线选择:下拉可选已创建的数据库资源。
- 批量填写:填写数据库完整路径“database.*”,*表示所有数据表,多个数据库用英文逗号分隔。
- 所有数据表:用户无需选择数据资源,会对该类型下的所有表进行扫描。
扫描所有数据表会有较大资源消耗,可能需要等较长时间,请谨慎操作。
|
*标注范围 | 是指识别指定范围内数据表的对应列。支持按分类和按分级两种方式标注范围,标注范围下拉可选,支持设置多个。 - 按分类:支持模糊检索,可选择多个标签或标签分类,选项内容为整个标签树。
- 按分级:支持选择多个分级,选项内容为所有密级L1~L4。
|
*队列 | 任务调度时使用的资源队列,下拉可选已创建的资源队列。创建资源队列的操作请参见资源管理。 说明 仅当数据源选择 MiniBase Hive、Apache Hive 或 LAS 时,需设该参数。 |
任务调度 |
状态 | 默认开启,不可编辑。 |
*调度类型 | 支持手动执行和周期执行两个选项。 - 手动执行:由用户在任务列表的操作列单击执行按钮触发执行计划。
- 周期执行:指任务可基于配置的调度参数定时自动执行。
|
*调度生效日期 | 调度的生效时间范围。超出调度生效时间,任务会自动关闭。 - 开始时间默认填写为“当下日期和时刻”,结束时间默认填写为“一个月后的同一日期和时刻”。
- 开始时间:只能选“当下日期和时刻”之后的时间。
- 结束时间:距离开始时间不超过1年,不能在开始时间之前。
|
*执行频率 | 支持周级和月级两个选项。 - 周级:执行日期需要设置每周几来执行,支持多选。
- 月级:执行日期需要设置每月几号执行,支持多选。
|
*执行日期 | 采用“日期”+“时刻”的配置方式。 - 当执行频率选择周级时,执行日期选项为周一 ~ 周日,可多选,执行时刻选择具体的时间。
- 当执行频率选择月级时,执行日期选项为1~31,可多选,执行时刻选择具体的时间。
|
*执行扫描范围 | 可配置每次执行计划的扫描范围,来避免周期任务对所有数据表进行多次无意义的重复扫描和识别。
支持增量扫描和全量扫描两个选项。 - 增量扫描:每次执行只扫描指定范围内新增的数据表或新增了数据字段的数据表,第一次执行计划扫描所有表。
- 全量扫描:每次执行计划扫描指定范围内的所有数据表。
|
管理扫描任务
- 登录DataLeap控制台。
- 选择概览 > 数据安全 > 安全标签 > 扫描管理,进入扫描管理页面。

- 可执行以下管理操作:
- 设置搜索信息,搜索符合条件的扫描任务列表。当设置多个搜索条件时,会取各个条件的交集进行查询。
- 单击任务列表中某条信息的任务名称,可以查看该任务详情,包括配置信息和执行记录。
- 单击任务列表中某条信息操作列的编辑按钮,在弹出的编辑任务窗口中,可以修改该信息。
- 单击任务列表中某条信息操作列的执行按钮,可以手动运行该任务。
- 单击任务列表中某条信息操作列的更多 > 终止最近执行按钮,二次确认后,可以终止该任务。
- 单击任务列表中某条信息操作列的更多 > 关闭按钮,二次确认后,可以关闭该任务。
- 单击任务列表中某条信息操作列的更多 > 开启按钮,二次确认后,可以启动该任务。
- 单击任务列表中某条信息操作列的更多 > 删除按钮,二次确认后,可以删除该任务以及任务相关的数据。
- 单击任务列表中某条信息操作列的更多 > 修改负责人按钮,在弹出的窗口中,输入用户账号关键词搜索并在下拉列表中选择对应账号,完成负责人修改。
- 勾选一条或多条信息后,可以单击任务列表下方的批量操作按钮,执行批量执行、批量关闭、批量启动、批量删除和批量修改负责人等操作。
说明
- 仅处于开启状态的任务可进行关闭和执行操作。
- 仅处于关闭状态的任务可进行开启操作。
- 批量操作时,若同时选择了关闭状态和开启状态的任务,则不可进行批量执行、关闭、启动操作。
后续操作
运行扫描任务后,库表的owner和权限负责人可查看识别结果,进行数据字段分类分级打标。相关操作可参见识别结果管理。