DolphinScheduler 是一个分布式、可扩展的工作流调度程序平台,以其强大的容错性和易用性而闻名。本文为您介绍如何使用DolphinScheduler连接ByteHouse进行数据查询分析。
使用DolphinScheduler连接ByteHouse时,当前支持以下三种方式连接:
细分项 | 已验证版本/注意事项 |
---|---|
DolphinScheduler-含ByteHouse驱动 说明 使用ByteHouse数据源方式连接ByteHouse时需要。 | v3.1.9 |
DolphinScheduler-常规版本,不含ByteHouse驱动 说明 使用MySQL、ClickHouse数据源方式连接ByteHouse时需要。 | v3.1.2 或以上版本,DolphinScheduler-常规版本下载链接 |
MySQL驱动 说明 使用MySQL数据源方式连接ByteHouse时需要。 | 8.0.16,MySQL驱动下载链接 |
已获取ByteHouse帐户 API Token | API Token的获取方式请参阅文档 获取 API Token。 |
登录并进入ByteHouse控制台后,在顶部租户管理的基本信息页面,查看网络组配置,确认已绑定VPC,并绑定了公网域名。
进入顶部租户管理的连接信息页面,在API Key模块新建一个API key,并将API Key保存至本地,用于后续的配置使用。
说明
一个子账号最多支持创建两个API Key,如果此前您有已创建好的API key,也可直接使用已创建好的API Key。
进入顶部租户管理的参数设置页面,查看已设置了默认计算组,并确保此计算组是正在运行的状态,未被停止。后续对接ByteHouse后的数据查询等操作,即会使用此处配置的默认计算组。
在使用之前,请提前准备好Dolphin scheduler v3.1.2 或以上版本环境。以下为简单的安装步骤示例。
说明
出于演示目的,以下将使用独立部署环境作为操作示例。
Docker安装:
docker run --name dolphinscheduler-standalone-server -p 12345:12345 -p 25333:25333 -d apache/dolphinscheduler-standalone-server:3.1.2
二进制安装:
tar -xvzf apache-dolphinscheduler-*-bin.tar.gz cd apache-dolphinscheduler-*-bin bash ./bin/dolphinscheduler-daemon.sh start standalone-server
登录 DolphinScheduler 主页,如 http://localhost:12345/dolphinscheduler/ui/login ,并填写账号与用户名。安装后的默认用户名/密码是:admin/dolphinscheduler123。
单击顶部Security页签进入Security页面后,单击Create Tenant,创建一个新的租户。
单击顶部DataSource页签,进入数据源页面,单击Create DataSource,创建数据源。
您可根据业务需要选择创建以下三种数据源中的一种,后续均可使用对应数据源连接ByteHouse。
参数 | 配置说明 |
---|---|
Datasource | 选择BYTEHOUSE。 |
Datasource Name | 自定义数据源名称。 |
IP | 配置为ByteHouse的公网域名,格式为: |
Port | 数据库端口号,配置为固定取值:19000。 |
User Name & Password | 登录ByteHouse数据库的用户名和密码。
|
Database Name | 配置为ByteHouse已创建的数据库名称。 |
jdbc connect parameters | 使用ByteHouse数据源时,无需再配置额外的连接参数。 |
下载MySQL驱动,并移动到DolphinScheduler指定目录。
standalone-server/libs/standalone-server/
。// For Docker Installation docker cp ~/Downloads/mysql-connector-j-8.0.31.jar {DOCKER_CONTAINER_ID}:/opt/dolphinscheduler/libs/standalone-server/ // For Binary Installation cp ~/Downloads/mysql-connector-java-8.0.16/mysql-connector-java-8.0.16.jar standalone-server/libs/standalone-server
重启DolphinScheduler。
// For Docker Installation // Stop Container docker stop {DOCKER_CONTAINER_ID} // Start Container docker start {DOCKER_CONTAINER_ID} // For Binary Installation // Stop Server bash ./bin/dolphinscheduler-daemon.sh stop standalone-server // Start Server bash ./bin/dolphinscheduler-daemon.sh start standalone-server
新建MySQL数据源。
参数 | 配置说明 |
---|---|
Datasource | 选择MySQL。 |
Datasource Name | 自定义数据源名称。 |
IP | 配置为ByteHouse的公网域名,格式为: |
Port | 数据库端口号,配置为固定取值:3306。 |
User Name & Password | 登录ByteHouse数据库的用户名和密码。
|
Database Name | 配置为ByteHouse已创建的数据库名称。 |
jdbc connect parameters | 在连接参数中配置ssl开关参数,打开SSL开关。
说明 ByteHouse 需要加密认证,从而保护数据安全,因此您需打开SSL,否则后续连接时会报错:
|
参数 | 配置说明 |
---|---|
Datasource | 选择ClickHouse。 |
Datasource Name | 自定义数据源名称。 |
IP | 配置为ByteHouse的公网域名,格式为: |
Port | 数据库端口号,配置为固定取值:8123。 |
User Name & Password | 登录ByteHouse数据库的用户名和密码。
|
Database Name | 配置为ByteHouse已创建的数据库名称。 |
jdbc connect parameters | 在连接参数中配置ssl开关参数,打开SSL开关。
说明 ByteHouse 需要加密认证,从而保护数据安全,因此您需打开SSL,否则后续连接时会报错:
|
完成数据源创建后,后续您即可使用数据源连接ByteHouse进行数据查询分析。以下以一个简单操作作为示例。
SQL
类型的工作流节点,并将节点拖拽到工作流画布中,自定义配置工作流节点的名称,例如:ByteHouseSQLSELECT
。