本文为您介绍如何上传本地 Excel/CSV 文件来创建数据集。
注意事项
- 上传的 Excel/CSV 文件大小要求:
- 数据连接上传文件大小限制:500 M
- 追加文件大小限制:500 M
- 替代文件大小限制:500 M
- 上传的 Excel/CSV 文件列名要求:
- 第一列列名不能为空(系统仅会读取列名连续不为空的列)
- 需为普通文本,禁止开头为数字、全部为数字、图片、超链接、包含公式、由双下划线(__)组成
- 不可使用保留字作为列名(不区分大小写):
index、constraint - 列名不可重复
- 列名字符数不宜过长(建议不超过 10 个字符)
- 字段值要求:如字段值为中文,长度建议不超过 30 个中文字符
- 文件编码要求:UTF-8
- CSV 连接器支持范围:支持文本文件 & 支持指定分隔符
从数据连接新建
- 进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,点击数据连接。

- 在页面中选择 Excel/CSV 连接方式。

- 选择需要上传的 Excel/CSV 文件。

从数据集新建
- 进入火山引擎,点击「数据准备」-「数据集」,选择左上角「新建」按钮,新建数据集。

- 选择数据连接的时候,点击 Excel/CSV。

- 选择需要上传的 Excel/CSV 文件。

后续步骤:创建数据集
- 使用之前创建好的数据连接创建数据集。点击「数据准备」-「数据集」,选择左上角「新建」按钮进行数据集的新建。

- 搜索或下拉选择之前新建好的数据连接。更多请参考数据集创建概述。

其他功能
基本信息查看
将鼠标 hover 到对应数据连接上,即可查看该数据连接的详细信息,包括名称、创建者和创建时间。

追加文件
本地文件(Excel/CSV)不支持更新,但支持文件追加,用户可通过文件追加的方式将新增数据手动添加至数据集(相当于增量更新)。
注意
文件追加功能不影响追加前文件内数据的同步。
例如:
当用户按如下进行操作:
04月12日:用户使用 A 文件(内含 100 行数据)创建数据集并完成首次同步
04月13日:用户使用文件追加功能上传 B 文件(内含 10 行数据)保存后重新同步数据
则系统内各分区数据如下:
P_date=0412:100行数据(来源于A文件)
P_date=0413:110行数据(来源于A文件+B文件)
用户可通过重新同步历史数据,将追加数据更新至系统。
重新同步0412的数据后,P_date=0412 应包含 110 行数据(来源于A文件+B文件)。
操作步骤:
- 进入「数据准备」-「数据连接」页面,点击「编辑」-「追加文件」。

- 点击「上传」或「上传文件」,选择本地 Excel/CSV 文件进行上传。

- 对于上传成功的追加数据,系统会根据追加字段和原始表字段名称关系进行自动匹配,用户可点击「预览」核实匹配关系是否准确。如果有误,可选择「重新解析」,或手动调整「追加字段」与「原始表字段」的对应关系。无误后,点击「确定」。

- 保存之后,抽取方式使用该数据连接创建的数据集需手动同步,方可将新增数据同步至底表,直连表则无需手动同步。
注意
追加后,下游抽取数据集/可视化建模均在下次更新时才可获取最新数据。
替换文件
本地文件(Excel/CSV)不支持更新,但支持文件替换。用户可通过文件替换的方式将所有文件全部更新(相当于全量更新)。
注意
文件替换后,被替换文件内数据将停止同步。
例如:
当用户按如下进行操作:
04月12日:用户使用 A 文件(内含 100 行数据)创建数据集并完成首次同步
04月13日:用户使用文件替换功能上传 B 文件(内含 10 行数据)保存后重新同步数据
则系统内各分区数据如下:
P_date=0412:100 行数据(来源于 A 文件)
P_date=0413:10 行数据(来源于 B 文件)
用户可通过重新同步历史数据,将替换数据更新至系统。
重新同步 0412 的数据后,P_date=0412 应包含 10 行数据(来源于 B 文件)。
操作步骤:
- 进入「数据准备」-「数据连接」页面,点击「编辑」-「替换文件」。

- 点击「上传」或「上传文件」,选择本地 Excel/CSV 文件进行上传。

- 对于上传成功的追加数据,系统会根据替换字段和原始表字段名称关系进行自动匹配,用户可点击「预览」核实匹配关系是否准确。如果有误,可选择「重新解析」,或手动调整「替换字段」与「原始表字段」的对应关系。对于替换数据中新增的字段,如不需要,也可选择「清空新增字段」。无误后,点击「确定」。

- 保存之后,抽取方式使用该数据连接创建的数据集需手动同步,方可将新增数据同步至底表,直连表则无需手动同步。
注意
替换后,下游抽取数据集/可视化建模均在下次更新时才可获取最新数据。
授权数据连接
点击该数据连接在右上角的「权限分配」按钮,即可将该数据连接授权给其他用户使用。
授权项包括:查看、编辑、管理。更多信息详见用户权限详解。

删除数据连接
点击到数据连接上的右边删除按钮,即可删除该数据连接。

注意
如果提示中出现【该数据连接关联下游 x 个数据集将无法使用】,需谨慎处理。
