You need to enable JavaScript to run this app.
导航

数据集常见 FAQ

最近更新时间2024.01.03 15:00:45

首次发布时间2021.02.23 10:42:00

1. 数据集

1.1 常见报错信息

修改了 hive 表字段类型修改,同步不成功是什么问题?

现象举例1:hive 数据在原数据库中不为空,而同步到DataWind这边,不管是数据集预览,还是可视化查询,结果都是空值。
数据库有值:

数据集同步后,预览值为null:

现象举例2:hive数据开始同步到DataWind的是int类型,发现数据类型不符合预期(显示值全是0,预期是0.23),在hive更改数据类型为double,但是在DataWind数据预览发现依旧不是预想的0.23。
alt

原因解析:hive表的构成是一份存储文件和一份描述文件,在修改字段类型时,只修改了描述文件,而存储文件的类型没有修改,造成数据同步时,类型转换不正常。

解决办法

  • 修改hive表的字段类型之后,需要重新灌入数据到hive表;
  • 然后到DataWind这边编辑、保存对应的数据集,再重新同步数据。

说明

编辑、保存数据集是用来更新数据集模型中的字段类型,这一步操作会导致类型变更的字段那一列数据丢失,重新同步数据后正常。

kafka 接入数据集报错 OLAP 接口异常

可能原因: 字段格式不允许

排查建议:

当前不支持嵌套json,不支持修改map字段列。

如非以上情况,Kafka接入相关问题请按照以下文档进行排查:https://www.volcengine.com/docs/4726/68864

飞书表格数据源显示上游数据源 Token 不存在

可能原因: 用户第一次使用飞书数据源会触发此问题,为缺少飞书表格权限token。

解决方案:

前端页面会弹出二维码,用户通过扫码记录token即可。

1.2 数据口径常见问题

数据准确性和口径问题

相似问题:

XXX的数不对
不同表的相同维度数据不一致
图表/看板表格中的链接无法打开
如何提数据需求
指标不对

解决方案:

需要了解部门数据情况,或具有数据需求建议联系部门的分析师或数据研发确认;

数据表数据准确性、数据口径问题建议联系对应数据集owner确认;

图表内内容展示、链接跳转问题建议联系对应的数据集owner或对应业务确认。

1.3 数据接入常见问题

上传数据集提示格式错误

请检查上传数据集数据是否有换行符,换行符会被识别为多条数据处理,从而出现格式错误

飞书表格上传失败/数据不符合预期

1.权限相关 (常见报错:连接信息有误:链接不合法;无权限)

(1)填写的链接,扫码者需要有读权限。
(2)填写一个链接,会把该文档下所有sheet都导入。

2.文件要求

(3)仅支持普通电子表格的识别。
(4)文档需要起名,不能是“未命名表格”,文档和sheet名字不要包含英文的点号'.',否则可能会导致文档schema获取失败。

3.文档格式要求

(5)只会读取第一组列名连续不为空的列;第一列列名不能为空,否则会报错。
(6)列名尽量是一个普通文本,不能全是数字,不能是图片、超链接,不能命名为p_date,不要包含$,`(反引号),!,否则可能会同步失败;创建数据集之后飞书表格的列名不要随便修改,否则会导致同步失败。列名太长可能会同步失败
(7)列名不能重复,否则会报错。
(8)行尽量不要为空,全为空的行,因为计入到sheet的行数里面,也会以类似[null,null,null,null]的格式加入到数据里。
(9)不支持合并单元格的处理,不支持公式的处理。
(10)一列里尽量不要有不同数据类型,否则可能会导致同步失败。

常见报错原因:

连接信息有误:链接不合法;无权限;未命名表格;token过期

schema出错:第一列列名为空;列名格式不合法

飞书表格上传显示应用非法

支持飞书表格创建数据集。

开启飞书数据集,需先行完成接入飞书应用配置。

1.4 数据集创建常见问题

p_date 是什么

p_date 是数据集的分区日期字段,产品会将原 Hive 表中 date/p_date 分区字段均更名为p_date。

p_date 代表上游 hive 表中的数据产生日期,或数据同步到数据集的日期(如上游数据没有日期分区)。在可视化查询中,可以根据分析需求用来进行日期维度的选择和筛选。

离线数据想要进行分析怎么办

选择数据集-添加数据集,选择对应数据源。若需对离线数据进行分析,可上传离线数据(支持excel和csv)作为数据源。详见:https://www.volcengine.com/docs/4726/68862

申请具有行限制的数据表权限后,无法创建对应数据集

申请对应行后,创建数据集时需在筛选条件中加上限制行。如申请权限时仅申请了app_name='news'的数据权限,则数据集创建时需限制筛选条件app_name='news'

如何添加飞书表格

相似问题:

在线填报

操作步骤:

在飞书创建好表格,在数据集界面,点击左侧栏「新建数据集」—— 选择「飞书表格」—— 填写需要上传的文档链接

https://www.volcengine.com/docs/4726/68863

为什么搜索不到数据表

产品仅支持展示当前登陆用户有权限查看的表。如果搜不到请查看当前数据连接/登录账号是否具备对应表的读权限

1.5 数据同步常见问题

数据集一直显示等待执行

相似问题:

上游数据跑完后一直未吊起同步
数据集同步卡着
数据集同步阻塞
设置的数据集同步任务到现在还没有开始

产品内存在诸多项目,各项目内的数据集都会有相应的同步任务,所有的同步任务共同随机排队使用队列资源。

数据同步流程:

到达定时时间——产品内所有定时任务开始排队等待提交yarn任务——yarn队列开始排队—— 正式执行计算+调度——同步成功

若同时段并发超限,会导致数据一直在等待执行状态。

加快方式:

  • 调整数据集优先级。优先级将影响调度时的优先顺序,越高越容易拿到资源;

  • 自行设定一个非高峰期的定时时间,比如每日8:00-10:00是高峰时间,可错开该定时时段;

数据集同步慢

可能原因:

  • 数据集配置有误

  • 参数配置不合理

排查方案:

  • 确认模型配置是否正确,包含连接方式、join条件等 https://www.volcengine.com/docs/4726/47758

  • 可优化同步参数配置,提升同步效率 https://www.volcengine.com/docs/4726/67237

飞书表格同步失败

相似问题:

为什么修改了飞书表格后同步不成功?
修改后的飞书表格数据集无法同步?

可能原因:

删除/重命名了已有字段,导致同步时无法获取已有字段信息。

处理建议:

在模型配置页面内,查看当前勾选字段与飞书表格内列名是否一致。

如有不一致,需点击编辑,进入数据集模型配置页面,勾选新字段;

并在字段配置页面进行匹配即可。

数据集显示等待执行,一直不同步

当产品内同步任务超过并发数时,部分任务会处于排队状态,在同步状态内显示等待执行,此时请耐心等待。如需提高任务优先级,可调整任务同步的定时时间或调整优先级。

数据超限怎么办?如何修改生命周期

路径:数据管理-详情-同步设置-设置-修改

生命周期限制:单分区数据量**生命周期<30T,可设置1-1500天!

数据集历史数据消失

请检查数据集设置的生命周期,过期后分区数据将被删除;但同步记录仍保存。

数据集如何添加url链接描述

选择数据集,点击 ⋮ 选择创建示例即可添加链接描述

查询前一天的数据,第二天什么时候更新

数据集会根据设定同步时间同步。如设定每天0点同步,那就是0点开始更新

同步配置保存时显示数据量超量,要求缩小数据范围或缩短保留天数怎么办

将生命周期改为7天,创建完成后再前往同步状态中修改需要的生命周期

1.6 数据集编辑/修改/删除常见问题

底表字段更新后数据集未更新

相似问题:

上游数据新增了字段,但是数据集里没有
修改底表字段类型后数据集字段类型未同步
底层表更新后可视化查询没数据、
数据集新增字段看不到

底层表新增/修改字段后,需在数据集模型配置中更新选择字段;更新后,要重新同步数据集,新字段才会有数据;对应日期的新字段有数据后,再进行对应可视化查询。

已经建好的看板对应的数据集能改吗

  1. 数据集的非性能设置可以直接修改,修改后等待执行完成即可在看板查询(历史数据需手动重新同步)。
  2. 数据集的性能设置不可以修改
  3. 如更改字段,请确保看板在用的字段名称不变,避免查询失败。

数据集删了图表还在吗

数据集删除后,图表列表页同步删除该图表,看板中图表仍占位,但会提示“数据库查无记录”

数据集从回收站恢复后,图表列表恢复该图表,看板中图表仍占位正常

在图表列表中删除图表,则图表永久删除,看板中该图表消失,会影响布局

数据集删除字段后无法保存

请排查是否:1.删除字段为join连接字段,更换join字段;2.其他字段依赖于删除字段,删除依赖于已删除字段的字段,或更改依赖。

1.7 其他数据集管理常见问题

创建类目之后如何对字段进行分类

进入对应数据集,点击修改字段,对需要分类的字段进行类目选择

可视化查询界面如何查看数据集owner

点击数据集名称边上的 ⋮ 选择查看数据集,即可看到数据集详情和owner

数据集的底表名如何查

进入该数据集的可视化查询,点击右上角查看查询历史,选择任一历史查询的SQL详情查看,即可看到数据集对应的clickhouse表名