数据集共享旨在帮助用户在保障数据安全与隐私的前提下,便捷地实现跨主体的数据协作与价值变现,适用于多方联合科研、数据服务商向客户提供样本数据、在数据市场中进行数据交易等场景,其核心是实现数据跨租户流通,被共享方访问共享数据的方式分为两类,具体差异如下:本文将引导您完成数据集共享的创建与管理操作。
访问方式 | 核心特点 | 权限说明 |
|---|---|---|
直接访问 | 权限直接授予,操作便捷 | 直接获得共享方数据的读权限,可直接查看、读取数据 |
受控访问 | 数据“可用不可读”,安全性高 | 仅能按指定方式使用数据(如模型训练、数据处理),无法拷贝数据,访问需经特定流程管控 |
LAS 平台作为中立第三方,是共享方与被共享方的核心连接载体,承担 “数据中转 + 权限管控 + 操作审计” 核心角色,架构流程如下:
已创建数据集,且拥有管理权限。
字段信息
字段名 | 是否必填 | 示例值 | 描述 |
|---|---|---|---|
名称 | 是 | dataset_shared | 本次共享的名称,名称只能以中文、字母与数字开头,只能包含中文、字母、数字、下划线和中划线,长度限制为1~100个字符,暂不支持特殊字符。 |
描述 | 是 | 用于分享的数据集 | 本次共享的摘要信息、备注、说明等 |
数据集 | 是 | dataset_1 | 只能选择您有管理权限的数据集,并且只能是您租户所创建的数据集,不能是其他租户共享给您的,从下拉列表中选择您要共享的数据集。 |
共享范围 | 是 | 定向共享 | 支持定向共享与数据集市,定向共享是指对单个租户的点对点共享,数据集市是指共享到数据集市,火山上的LAS用户都可以看到,目前暂只支持定向共享 |
共享有效期 | 是 | 不限 | 默认不限日期,你可以指定到期时间,指定到天即可。 |
接收方主账号 | 是 | 123*** | 接收方的主账号 |
接收方子账号 | 否 | 1234****78 | 接收方的子账号,多个的话以英文逗号间隔,这里填的子账号将会收到该共享信息并有权限处理,如果不填的话,则只有接收方的主账号才能看到该共享信息并有权限处理。 |
访问类型 | 是 | 直接访问 | 指定买方对数据的访问方式,分为直接访问与受控访问,默认为直接访问。 |
镜像 | 是 | image-1 | 当访问类型为受控访问时该项必填,其将作为该数据集被买方使用时的代码运行环境,从下拉列表中选择对应的镜像。 |
样本数据 | 是 | 10 | 默认10个,只有表格类型(格式为Lance、Iceberg、CSV、JSONL、Parquet)的数据集才支持共享时有系统自动生成样本数据,你可以用这个参数设定生成的数量,最多不超过1万个。 |
状态 | 触发条件 | 可执行操作 | 操作后果 |
|---|---|---|---|
系统处理中 | 需生成样本数据 | 无 | 若样本数据生成失败,则状态变更为“处理失败”,若样本数据生成成功,则状态变更为“等待对方接受” |
等待接收 | 共享方发起共享,且无需生成样本数据或样本数据已生成成功 | 详情、接收、拒绝 | 接收:状态变为 “已接收”;拒绝:状态变为 “已拒绝” |
已接收 | 被共享方点击 “接收” 并完成设置 | 详情 | 获得数据集使用权限(直接访问:读权限;受控访问:使用权限) |
已拒绝 | 被共享方点击 “拒绝” | 详情 | 无法访问该数据集,共享关系终止 |
处理失败 | 共享方样本数据生成失败 | 详情、刷新状态 | 需等待共享方重新发起共享 |