You need to enable JavaScript to run this app.
导航

Datagen

最近更新时间2023.09.12 16:22:50

首次发布时间2022.09.08 17:27:42

当您需要检验作业是否可以正常运行、逻辑是否正确时,为了减少外部系统开销和避免干扰因素,可以选择使用一些调试专用的 Connector。
Datagen 连接器是一个系统内置的调试专用源表,作用是周期性的生成随机数据,它可以作为数据源直接引用。

DDL 定义

CREATE TABLE datagen_source (
    name String,
    score INT
 ) WITH (
     'connector' = 'datagen',
     'rows-per-second' = '5'   
 );

WITH 参数

参数

是否必选

默认值

数据类型

描述

connector

(none)

String

指定使用的连接器,此处是 Datagen 连接器。

rows-per-second

10000

Long

每秒生成随机数的条数。

fields.#.kind

random

String

指定生成随机数的方法:

  • random:默认值,表示无界的随机数生成器,可以指定随机生成数的最大最小值。
  • sequence:有界的序列生成器,可以指定序列的起始和结束值,当序列数达到结束值时,不再生成序列数。

fields.#.min

(Minimum value of type)

(Type of field)

随机数的最小值,适用于数字类型。

fields.#.max

(Maximum value of type)

(Type of field)

随机数的最大值,适用于数字类型。

fields.#.length

100

Integer

随机生成字符的长度,适用于 char、varchar、string 类型。

fields.#.start

(none)

(Type of field)

序列数据的起始值。

fields.#.end

(none)

(Type of field)

序列数据的结束值。

示例代码

CREATE TABLE datagen_source (
     siteid INT,
     citycode SMALLINT,
     username STRING,
     pv BIGINT
     )
WITH (
  'connector' = 'datagen',
  'rows-per-second' = '5',                
  'fields.username.length' = '30',            
  'fields.siteid.max' = '1000',   
  'fields.siteid.min' = '100'        
);
CREATE TABLE print_sink (
    siteid INT,
    citycode SMALLINT,
    username STRING,
    pv BIGINT
    )
WITH (
     'connector' = 'print',
     'print-identifier' = 'out'            
);
insert into print_sink
select * from datagen_source;