You need to enable JavaScript to run this app.
导航

样例数据集

最近更新时间2023.03.03 15:40:43

首次发布时间2022.02.24 10:16:17

1. 样例数据集功能

对于没有准备数据集的用户,LAS 提供简化的 TPC-DS 样例数据,您可以使用它来快速体验 LAS 的一站式分析能力。
该操作将会在 LAS 中创建对应的库、表,并导入数据。目前提供的简化的 LAS 数据表为 TPC-DS 中核心 4 张表 Customer,Store_Sales, Data_Dim, Store 表。
其中 Store_Sales 为相对较大的事实表,您可以将该表与其余表对应的字段进行 Join 来发起较为复杂的查询,验证 LAS 的整体性能。
同时,LAS 还提供了针对本数据集的 样例 SQL,用于快速查询,具体请参考 场景样例 SQL
alt
在导入页面会提供简化的 TPC-DS 数据集的 E-R 图,目前提供两种数据大小 1GB、 10GB。大小是按照原始 TPC-DS 的生成 4 张表的文本大小作为基准,实际存储在 LAS 上面的样例数据集是经过压缩后的,本身大小会小于预期的大小,存储计费以最终实际存储的大小为准。

点击表上方的 导入样例数据,系统将自动给您提供一个样例的库名,您可以在基础上进行修改,导入样例数据会新建数据库,因此不允许选择已有的数据库进行导入。当有重复的数据库时,系统将进行报错提示您重新导入。
点击 立即导入 ,将开始样例数据集的导入任务,稍等几秒后,导入可以放到后台执行。
您也可选择点击 后台导入 ,当导入成功后,可以在 Schema 管理页面看到生成后的表。

2. 样例数据集数据字典

标蓝为事实表,标绿为维度表,下面是他们的关系图:

  • [事实表] Store_Sales:销售记录表。

  • [维度表] Customers:客户信息表。

  • [维度表] Stores:商店信息表。

  • [维度表] Date_Dim:时间信息表。

3. 数据字典

此处参考 TPC 官方文档,部分字段,在参考文档中没有描述,则标记为“暂无参考”。

3.1 Store_Sales 销售表

字段名称字段描述字段类型引用的连接表连接字段
ss_sold_date_sk销售日期bigintDate_Dimd_date_sk
ss_sold_time_sk销售时间bigint
ss_item_sk销售物品bigint
ss_customer_sk客户信息bigintCustomerc_customer_sk
ss_cdemo_sk暂无参考bigint
ss_hdemo_sk暂无参考bigint
ss_addr_sk地址信息bigint
ss_store_sk商店信息bigintStoress_store_sk
ss_promo_sk促销信息bigint
ss_ticket_number订单号bigint
ss_quantity数量int
ss_wholesale_cost整个销售总额double
ss_list_price列表价格double
ss_sales_price销售价格double
ss_ext_discount_amt外部折扣相关信息double
ss_ext_sales_price外部销售价格double
ss_ext_wholesale_cost外部整个销售总额double
ss_ext_list_price外部列表价格double
ss_ext_tax外部税相关double
ss_coupon_amt打折券double
ss_net_paid消费额double
ss_net_paid_inc_tax消费税double
ss_net_profit盈利double

3.2 Customer 客户表

字段名称字段描述字段类型引用的连接表连接字段
c_customer_sk客户信息bigint
c_customer_id客户 idstring
c_current_cdemo_sk暂无参考bigint
c_current_hdemo_sk暂无参考bigint
c_current_addr_sk地址信息bigint
c_first_shipto_date_sk运输时间bigintDate_Dimd_date_sk
c_first_sales_date_sk销售时间bigintDate_Dimd_date_sk
c_salutation称呼string
c_first_namestring
c_last_namestring
c_preferred_cust_flag偏好标记string
c_birth_day生日int
c_birth_month生日月份int
c_birth_year出生年int
c_birth_country出生国家string
c_login登陆信息string
c_email_address邮件地址string
c_last_review_date_sk上次评价日期bigint

3.3 Store 商店表

字段名称字段描述字段类型引用的连接表连接字段
s_store_sk商店bigint
s_store_id商店 idstring
s_rec_start_date商店开始时间date
s_rec_end_date商店结束时间date
s_closed_date_sk商店关闭时间bigintDate_Dimd_date_sk
s_store_name商店名称string
s_number_employees雇员数量int
s_floor_space暂无参考int
s_hours小时string
s_manager经理string
s_market_id市场信息int
s_geography_class地理位置信息string
s_market_desc市场描述string
s_market_manager市场经理string
s_division_id暂无参考int
s_division_name暂无参考string
s_company_id公司Idint
s_company_name公司名称string
s_street_number街道编号string
s_street_name街道名称string
s_street_type街道类型string
s_suite_number住宿编号string
s_city城市string
s_county国家string
s_statestring
s_zip邮政编号string
s_gmt_offsetgmt 便宜double
s_tax_precentage税收百分比double

3.4 Date_Dim 时间表

字段名称字段描述字段类型引用的连接表连接字段
d_date_sk日期bigint
d_date_id日期 idstring
d_date具体 datedate
d_month_seq第几月份int
d_week_seq第几周int
d_quarter_seq第几季度int
d_year年份int
d_dow暂无参考int
d_moy月份相关信息int
d_dom暂无参考int
d_qoy暂无参考int
d_fy_year年份相关信息int
d_fy_quarter_seq季度序列int
d_fy_week_seq周数序列int
d_day_name显示的天数string
d_quarter_name显示的季度string
d_holiday节日string
d_weekend周末string
d_following_holiday后续节日信息string
d_first_dom暂无信息int
d_last_dom暂无信息int
d_same_day_ly是否同一天int
d_same_day_lq是否同一天int
d_current_day是否为当前的天数string
d_current_week是否为当前的周数string
d_current_month是否为当前的月份string
d_current_quarter是否为当前的季度string
d_current_year是否为当前的年份string