对于没有准备数据集的用户,LAS 提供简化的 TPC-DS 样例数据,您可以使用它来快速体验 LAS 的一站式分析能力。
该操作将会在 LAS 中创建对应的库、表,并导入数据。目前提供的简化的 LAS 数据表为 TPC-DS 中核心 4 张表 Customer,Store_Sales, Data_Dim, Store 表。
其中 Store_Sales 为相对较大的事实表,您可以将该表与其余表对应的字段进行 Join 来发起较为复杂的查询,验证 LAS 的整体性能。
同时,LAS 还提供了针对本数据集的 样例 SQL,用于快速查询,具体请参考 场景样例 SQL。
在导入页面会提供简化的 TPC-DS 数据集的 E-R 图,目前提供两种数据大小 1GB、 10GB。大小是按照原始 TPC-DS 的生成 4 张表的文本大小作为基准,实际存储在 LAS 上面的样例数据集是经过压缩后的,本身大小会小于预期的大小,存储计费以最终实际存储的大小为准。
点击表上方的 导入样例数据,系统将自动给您提供一个样例的库名,您可以在基础上进行修改,导入样例数据会新建数据库,因此不允许选择已有的数据库进行导入。当有重复的数据库时,系统将进行报错提示您重新导入。
点击 立即导入 ,将开始样例数据集的导入任务,稍等几秒后,导入可以放到后台执行。
您也可选择点击 后台导入 ,当导入成功后,可以在 Schema 管理页面看到生成后的表。
标蓝为事实表,标绿为维度表,下面是他们的关系图:
[事实表] Store_Sales:销售记录表。
[维度表] Customers:客户信息表。
[维度表] Stores:商店信息表。
[维度表] Date_Dim:时间信息表。
此处参考 TPC 官方文档,部分字段,在参考文档中没有描述,则标记为“暂无参考”。
字段名称 | 字段描述 | 字段类型 | 引用的连接表 | 连接字段 |
---|---|---|---|---|
ss_sold_date_sk | 销售日期 | bigint | Date_Dim | d_date_sk |
ss_sold_time_sk | 销售时间 | bigint | ||
ss_item_sk | 销售物品 | bigint | ||
ss_customer_sk | 客户信息 | bigint | Customer | c_customer_sk |
ss_cdemo_sk | 暂无参考 | bigint | ||
ss_hdemo_sk | 暂无参考 | bigint | ||
ss_addr_sk | 地址信息 | bigint | ||
ss_store_sk | 商店信息 | bigint | Stores | s_store_sk |
ss_promo_sk | 促销信息 | bigint | ||
ss_ticket_number | 订单号 | bigint | ||
ss_quantity | 数量 | int | ||
ss_wholesale_cost | 整个销售总额 | double | ||
ss_list_price | 列表价格 | double | ||
ss_sales_price | 销售价格 | double | ||
ss_ext_discount_amt | 外部折扣相关信息 | double | ||
ss_ext_sales_price | 外部销售价格 | double | ||
ss_ext_wholesale_cost | 外部整个销售总额 | double | ||
ss_ext_list_price | 外部列表价格 | double | ||
ss_ext_tax | 外部税相关 | double | ||
ss_coupon_amt | 打折券 | double | ||
ss_net_paid | 消费额 | double | ||
ss_net_paid_inc_tax | 消费税 | double | ||
ss_net_profit | 盈利 | double |
字段名称 | 字段描述 | 字段类型 | 引用的连接表 | 连接字段 |
---|---|---|---|---|
c_customer_sk | 客户信息 | bigint | ||
c_customer_id | 客户 id | string | ||
c_current_cdemo_sk | 暂无参考 | bigint | ||
c_current_hdemo_sk | 暂无参考 | bigint | ||
c_current_addr_sk | 地址信息 | bigint | ||
c_first_shipto_date_sk | 运输时间 | bigint | Date_Dim | d_date_sk |
c_first_sales_date_sk | 销售时间 | bigint | Date_Dim | d_date_sk |
c_salutation | 称呼 | string | ||
c_first_name | 名 | string | ||
c_last_name | 姓 | string | ||
c_preferred_cust_flag | 偏好标记 | string | ||
c_birth_day | 生日 | int | ||
c_birth_month | 生日月份 | int | ||
c_birth_year | 出生年 | int | ||
c_birth_country | 出生国家 | string | ||
c_login | 登陆信息 | string | ||
c_email_address | 邮件地址 | string | ||
c_last_review_date_sk | 上次评价日期 | bigint |
字段名称 | 字段描述 | 字段类型 | 引用的连接表 | 连接字段 |
---|---|---|---|---|
s_store_sk | 商店 | bigint | ||
s_store_id | 商店 id | string | ||
s_rec_start_date | 商店开始时间 | date | ||
s_rec_end_date | 商店结束时间 | date | ||
s_closed_date_sk | 商店关闭时间 | bigint | Date_Dim | d_date_sk |
s_store_name | 商店名称 | string | ||
s_number_employees | 雇员数量 | int | ||
s_floor_space | 暂无参考 | int | ||
s_hours | 小时 | string | ||
s_manager | 经理 | string | ||
s_market_id | 市场信息 | int | ||
s_geography_class | 地理位置信息 | string | ||
s_market_desc | 市场描述 | string | ||
s_market_manager | 市场经理 | string | ||
s_division_id | 暂无参考 | int | ||
s_division_name | 暂无参考 | string | ||
s_company_id | 公司Id | int | ||
s_company_name | 公司名称 | string | ||
s_street_number | 街道编号 | string | ||
s_street_name | 街道名称 | string | ||
s_street_type | 街道类型 | string | ||
s_suite_number | 住宿编号 | string | ||
s_city | 城市 | string | ||
s_county | 国家 | string | ||
s_state | 洲 | string | ||
s_zip | 邮政编号 | string | ||
s_gmt_offset | gmt 便宜 | double | ||
s_tax_precentage | 税收百分比 | double |
字段名称 | 字段描述 | 字段类型 | 引用的连接表 | 连接字段 |
---|---|---|---|---|
d_date_sk | 日期 | bigint | ||
d_date_id | 日期 id | string | ||
d_date | 具体 date | date | ||
d_month_seq | 第几月份 | int | ||
d_week_seq | 第几周 | int | ||
d_quarter_seq | 第几季度 | int | ||
d_year | 年份 | int | ||
d_dow | 暂无参考 | int | ||
d_moy | 月份相关信息 | int | ||
d_dom | 暂无参考 | int | ||
d_qoy | 暂无参考 | int | ||
d_fy_year | 年份相关信息 | int | ||
d_fy_quarter_seq | 季度序列 | int | ||
d_fy_week_seq | 周数序列 | int | ||
d_day_name | 显示的天数 | string | ||
d_quarter_name | 显示的季度 | string | ||
d_holiday | 节日 | string | ||
d_weekend | 周末 | string | ||
d_following_holiday | 后续节日信息 | string | ||
d_first_dom | 暂无信息 | int | ||
d_last_dom | 暂无信息 | int | ||
d_same_day_ly | 是否同一天 | int | ||
d_same_day_lq | 是否同一天 | int | ||
d_current_day | 是否为当前的天数 | string | ||
d_current_week | 是否为当前的周数 | string | ||
d_current_month | 是否为当前的月份 | string | ||
d_current_quarter | 是否为当前的季度 | string | ||
d_current_year | 是否为当前的年份 | string |