StarRocks 是一款高性能分析型数据仓库,广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。您无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析, 让您的数据分析变得更加简单和敏捷。
使用StarRocks,您可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模型,兼容 MySQL 协议,支持标准 SQL 语法,便于您对接使用。
下文将为您介绍通过 DataLeap 创建StarRocks 节点,使用 SQL 语句,周期性的在 StarRocks 集群中进行数据加工、查询、分析等操作。
新建DataLeap项目时,已在引擎服务绑定设置中,勾选StarRocks高性能分析型数据仓库引擎。操作详见“新建项目”。
任务创建完成后,您便可进入StarRocks SQL任务编辑界面,在配置界面中您可按需编写StarRocks支持的SQL语法。
编辑任务
在代码编辑器界面,输入对应 StarRocks SQL语句,示例如下:
说明
在一个 StarRocks SQL节点中,当节点中存在多个Query时,仅执行最后一个Query并返回相应结果。
--创建 StarRocks 数据库; CREATE DATABASE IF NOT EXISTS emr_sr_x; --创建数据表 DROP TABLE IF EXISTS emr_sr_x.sr_test_table; CREATE TABLE IF NOT EXISTS emr_sr_x.sr_test_table ( event_day DATE, siteid INT DEFAULT '10', city VARCHAR(32) DEFAULT '', username VARCHAR(32) DEFAULT '', pv BIGINT SUM DEFAULT '0' ) AGGREGATE KEY(event_day, siteid, city, username) PARTITION BY RANGE(event_day) ( PARTITION p201706 VALUES LESS THAN ('2020-07-01'), PARTITION p201707 VALUES LESS THAN ('2020-08-01'), PARTITION p201708 VALUES LESS THAN ('2020-09-01') ) DISTRIBUTED BY HASH(siteid) BUCKETS 10 PROPERTIES("replication_num" = "1"); --清空表中历史数据 TRUNCATE TABLE emr_sr_x.sr_test_table; --插入新数据 insert into emr_sr_x.sr_test_table VALUES ('2020-07-11',27,'天津市丽县', '张三',1669); --查询 StarRocks 表中数据 SELECT * FROM emr_sr_x.sr_test_table;
格式化StarRocks SQL语句
代码编辑区编写完对应 SQL 语句后,您可单击上方导航栏功能区中的格式化按钮,依据在“个性化设置”中的 SQL 格式化风格的设置,格式化编辑完成的代码,使其语法结构看起来简洁明了。
调度设置
任务配置完成后,在右侧导航栏中,单击调度配置按钮,配置调度设置相关参数,便可进行StarRocks SQL任务周期性调度。调度设置说明详见“调度设置”。
依赖关系
设置任务上游依赖,可通过依赖推荐或手动添加的方式进行设置。依赖推荐方式说明如下:
例如 SQL 代码示例为:
INSERT INTO new_employees (id, name, department, salary) SELECT id, name, department, salary FROM employees WHERE department = 'IT';
在调度设置界面,单击依赖推荐后,便可自动返回 employees 表所在的任务,作为上游依赖项。
任务输入输出参数
通过配置依赖任务,支持将上游任务的输出参数当作下游任务的输入参数。
说明
调试操作,直接使用线上数据进行调试,需谨慎操作。
说明
因结果页预览数据以及项目安全设置均存在限制,查询结果显示数据可能小于实际数据量。建议按如下处理方式:
详见“新建项目”。
调试结果无误后,单击提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:提交上线。
注意
后续任务运维操作详见:离线任务运维。