You need to enable JavaScript to run this app.
导航

SQL查询-下载数据

最近更新时间2024.04.07 16:15:33

首次发布时间2024.01.19 14:08:30

1. 概述

DataWind 的 SQL 查询模块允许用户下载查询结果并进行分析。(本功能为增值模块,目前仅限私有化部署可使用,自V2.58.0及以上版本支持。如您需要使用,请联系贵公司的商务人员或客户成功经理咨询购买事宜)。

2. 功能介绍

2.1 下载行数限制

目前支持的下载格式:CSV
图片
CSV 格式下载行数限制如下:
行数<=100W 且 文件大小 <=5G

2.2 如何查询超过100万行的数据

SQL 查询结果最多显示100万条,如需跑超过100万行的全量数据,可在语句后添加"limit 一个比你所取数行数大或相等的值"。
图片

2.3 如何下载超过100万行的数据

面对大量数据无法直接下载的情况,系统支持选择写入您有权限的 Hdfs 链接并在 Hdfs 中下载数据。
Tqs 支持将结果数据直接写入 Hdfs,您可以进行如下配置
在 Spark 写入结果后,您自行下载即可。

set tqs.query.engine.type=sparkcli;   -- 目前只支持sparkcli
set tqs.query.result.hdfs.enabled=true; -- 打开开关
set tqs.query.result.hdfs.path=\*\*\*; -- 指定hdfs路径
set tqs.query.result.format=csv; -- 指定csv格式 或者 parquet格式   【csv/parquet】
set tqs.query.result.partition.num=200; -- 指定生成的hdfs文件个数,可以根据结果文件大小自己调整。如果不设置 跟最后一次的shuffle数一致
select xxx from xxx; -- 直接写SELECT(不用加insert directory),结果将保存在HDFS中

注意:

  • 配置中设置的是不存在的 Hdfs 目录。
  • 重复执行相同操作会更新覆盖原有数据。
  • 若将结果写入 Hdfs,将不能再通过 Tqs 接口获取计算结果。

2.4 使用技巧

下载后的 CSV 若出现直接以表格形式打开乱码/长数字(如 Uid 等)被科学计数法等问题,可按以下步骤尝试:
步骤一: 前往下载文件夹,右键单击文件,选择打开方式-文本编辑。
步骤二: 按 Ctrl(Ios 系统为 Cmd+A),全选并复制内容。
步骤三: 打开 Excel 软件,粘贴后点击粘贴选项,选择「使用文本导入向导」,分隔符号选择逗号;如有需要避免科学计数的长数字字段,在第三步选中该列字段并设为文本格式。
步骤四: 点击完成后保存即可。