现象举例1:hive 数据在原数据库中不为空,而同步到DataWind这边,不管是数据集预览,还是可视化查询,结果都是空值。
数据库有值:
数据集同步后,预览值为null:
现象举例2:hive数据开始同步到DataWind的是int类型,发现数据类型不符合预期(显示值全是0,预期是0.23),在hive更改数据类型为double,但是在DataWind数据预览发现依旧不是预想的0.23。
原因解析:hive表的构成是一份存储文件和一份描述文件,在修改字段类型时,只修改了描述文件,而存储文件的类型没有修改,造成数据同步时,类型转换不正常。
解决办法:
说明
编辑、保存数据集是用来更新数据集模型中的字段类型,这一步操作会导致类型变更的字段那一列数据丢失,重新同步数据后正常。
可能原因: 字段格式不允许
排查建议:
当前不支持嵌套json,不支持修改map字段列。
如非以上情况,Kafka接入相关问题请按照以下文档进行排查:https://www.volcengine.com/docs/4726/68864
可能原因: 用户第一次使用飞书数据源会触发此问题,为缺少飞书表格权限token。
解决方案:
前端页面会弹出二维码,用户通过扫码记录token即可。
相似问题:
XXX的数不对
不同表的相同维度数据不一致
图表/看板表格中的链接无法打开
如何提数据需求
指标不对
解决方案:
需要了解部门数据情况,或具有数据需求建议联系部门的分析师或数据研发确认;
数据表数据准确性、数据口径问题建议联系对应数据集owner确认;
图表内内容展示、链接跳转问题建议联系对应的数据集owner或对应业务确认。
请检查上传数据集数据是否有换行符,换行符会被识别为多条数据处理,从而出现格式错误
1.权限相关 (常见报错:连接信息有误:链接不合法;无权限)
(1)填写的链接,扫码者需要有读权限。
(2)填写一个链接,会把该文档下所有sheet都导入。
2.文件要求
(3)仅支持普通电子表格的识别。
(4)文档需要起名,不能是“未命名表格”,文档和sheet名字不要包含英文的点号'.',否则可能会导致文档schema获取失败。
3.文档格式要求
(5)只会读取第一组列名连续不为空的列;第一列列名不能为空,否则会报错。
(6)列名尽量是一个普通文本,不能全是数字,不能是图片、超链接,不能命名为p_date,不要包含$,`(反引号),!,否则可能会同步失败;创建数据集之后飞书表格的列名不要随便修改,否则会导致同步失败。列名太长可能会同步失败
(7)列名不能重复,否则会报错。
(8)行尽量不要为空,全为空的行,因为计入到sheet的行数里面,也会以类似[null,null,null,null]的格式加入到数据里。
(9)不支持合并单元格的处理,不支持公式的处理。
(10)一列里尽量不要有不同数据类型,否则可能会导致同步失败。
常见报错原因:
连接信息有误:链接不合法;无权限;未命名表格;token过期
schema出错:第一列列名为空;列名格式不合法
支持飞书表格创建数据集。
开启飞书数据集,需先行完成接入飞书应用配置。
p_date 是数据集的分区日期字段,产品会将原 Hive 表中 date/p_date 分区字段均更名为p_date。
p_date 代表上游 hive 表中的数据产生日期,或数据同步到数据集的日期(如上游数据没有日期分区)。在可视化查询中,可以根据分析需求用来进行日期维度的选择和筛选。
选择数据集-添加数据集,选择对应数据源。若需对离线数据进行分析,可上传离线数据(支持excel和csv)作为数据源。详见:https://www.volcengine.com/docs/4726/68862
申请对应行后,创建数据集时需在筛选条件中加上限制行。如申请权限时仅申请了app_name='news'的数据权限,则数据集创建时需限制筛选条件app_name='news'
相似问题:
在线填报
操作步骤:
在飞书创建好表格,在数据集界面,点击左侧栏「新建数据集」—— 选择「飞书表格」—— 填写需要上传的文档链接
https://www.volcengine.com/docs/4726/68863
产品仅支持展示当前登陆用户有权限查看的表。如果搜不到请查看当前数据连接/登录账号是否具备对应表的读权限
相似问题:
上游数据跑完后一直未吊起同步
数据集同步卡着
数据集同步阻塞
设置的数据集同步任务到现在还没有开始
产品内存在诸多项目,各项目内的数据集都会有相应的同步任务,所有的同步任务共同随机排队使用队列资源。
数据同步流程:
到达定时时间——产品内所有定时任务开始排队等待提交yarn任务——yarn队列开始排队—— 正式执行计算+调度——同步成功
若同时段并发超限,会导致数据一直在等待执行状态。
加快方式:
调整数据集优先级。优先级将影响调度时的优先顺序,越高越容易拿到资源;
自行设定一个非高峰期的定时时间,比如每日8:00-10:00是高峰时间,可错开该定时时段;
可能原因:
数据集配置有误
参数配置不合理
排查方案:
确认模型配置是否正确,包含连接方式、join条件等 https://www.volcengine.com/docs/4726/47758
可优化同步参数配置,提升同步效率 https://www.volcengine.com/docs/4726/67237
相似问题:
为什么修改了飞书表格后同步不成功?
修改后的飞书表格数据集无法同步?
可能原因:
删除/重命名了已有字段,导致同步时无法获取已有字段信息。
处理建议:
在模型配置页面内,查看当前勾选字段与飞书表格内列名是否一致。
如有不一致,需点击编辑,进入数据集模型配置页面,勾选新字段;
并在字段配置页面进行匹配即可。
当产品内同步任务超过并发数时,部分任务会处于排队状态,在同步状态内显示等待执行,此时请耐心等待。如需提高任务优先级,可调整任务同步的定时时间或调整优先级。
路径:数据管理-详情-同步设置-设置-修改
生命周期限制:单分区数据量**生命周期<30T,可设置1-1500天!
请检查数据集设置的生命周期,过期后分区数据将被删除;但同步记录仍保存。
选择数据集,点击 ⋮ 选择创建示例即可添加链接描述
数据集会根据设定同步时间同步。如设定每天0点同步,那就是0点开始更新
将生命周期改为7天,创建完成后再前往同步状态中修改需要的生命周期
相似问题:
上游数据新增了字段,但是数据集里没有
修改底表字段类型后数据集字段类型未同步
底层表更新后可视化查询没数据、
数据集新增字段看不到
底层表新增/修改字段后,需在数据集模型配置中更新选择字段;更新后,要重新同步数据集,新字段才会有数据;对应日期的新字段有数据后,再进行对应可视化查询。
数据集删除后,图表列表页同步删除该图表,看板中图表仍占位,但会提示“数据库查无记录”
数据集从回收站恢复后,图表列表恢复该图表,看板中图表仍占位正常
在图表列表中删除图表,则图表永久删除,看板中该图表消失,会影响布局
请排查是否:1.删除字段为join连接字段,更换join字段;2.其他字段依赖于删除字段,删除依赖于已删除字段的字段,或更改依赖。
进入对应数据集,点击修改字段,对需要分类的字段进行类目选择
点击数据集名称边上的 ⋮ 选择查看数据集,即可看到数据集详情和owner
进入该数据集的可视化查询,点击右上角查看查询历史,选择任一历史查询的SQL详情查看,即可看到数据集对应的clickhouse表名