数据集共享旨在帮助用户在保障数据安全与隐私的前提下,便捷地实现跨主体的数据协作与价值变现,适用于多方联合科研、数据服务商向客户提供样本数据、在数据市场中进行数据交易等场景,其核心是实现数据跨租户流通,被共享方访问共享数据的方式分为两类,具体差异如下:本文将引导您完成数据集共享的创建与管理操作。
访问方式 | 核心特点 | 权限说明 |
|---|---|---|
直接访问 | 权限直接授予,操作便捷 | 直接获得共享方数据的读权限,可直接查看、读取数据 |
受控访问 | 数据“可用不可读”,安全性高 | 仅能按指定方式使用数据(如模型训练、数据处理),无法拷贝数据,访问需经特定流程管控 |
LAS 平台作为中立第三方,是共享方与被共享方的核心连接载体,承担 “数据中转 + 权限管控 + 操作审计” 核心角色,架构流程如下:
已创建数据集,且拥有管理权限。
共享方可在 LAS 控制台中灵活的将数据集共享给指定用户,操作详情如下。
登录 LAS 控制台。
在顶部左上角根据实际情况选择地域,请选择您要操作的数据集所在的地域。如果地域选择错误,您可能无法在列表中找到目标数据集或无法成功发起共享。
在左侧导航栏选择数据集 > 数据集共享 > 由我共享,进入由我共享页面。
点击创建分享按钮,进入创建数据集共享页面,在创建数据集共享页面,参考下方的字段信息表格说明,依次填写名称’、选择‘数据集’等信息,完成后点击创建。
字段名 | 描述 | 示例值 |
|---|---|---|
名称 | 本次共享的名称,名称只能以中文、字母与数字开头,只能包含中文、字母、数字、下划线和中划线,长度限制为1~100个字符,暂不支持特殊字符。 | dataset_shared |
描述 | 本次共享的摘要信息、备注、说明等 | 用于分享的数据集 |
数据集 | 只能选择您有管理权限的数据集,并且只能是您租户所创建的数据集,不能是其他租户共享给您的,从下拉列表中选择您要共享的数据集。 | dataset_1 |
共享范围 | 支持定向共享,指对单个租户的点对点共享。 | 定向共享 |
共享有效期 | 默认不限日期,您可以指定到期时间,指定到天即可。 | 不限 |
接收方主账号 | 接收方的主账号UID。 | 123*** |
接收方子账号 | 接收方的子账号UID,多个的话以英文逗号间隔,这里填的子账号将会收到该共享信息并有权限处理,如果不填的话,则只有接收方的主账号才能看到该共享信息并有权限处理。 | 1234****78 |
访问类型 | 指定买方对数据的访问方式,可配置为:
| 直接访问 |
镜像 | 当访问类型为受控访问时该项必填,其将作为该数据集被买方使用时的代码运行环境,从下拉列表中选择对应的镜像。 | image-1 |
样本数据 | 默认10个,只有表格类型(格式为Lance、Iceberg、CSV、JSONL、Parquet)的数据集才支持共享时由系统自动生成样本数据,您可以用这个参数设定生成的数量,最多不超过1万个。 | 10 |
创建完成后,状态说明如下。
状态 | 触发条件 | 可执行操作 | 操作后果 |
|---|---|---|---|
系统处理中 | 需生成样本数据 | 无 | 若样本数据生成失败,则状态变更为“处理失败”,若样本数据生成成功,则状态变更为“等待对方接受” |
等待接收 | 共享方发起共享,且无需生成样本数据或样本数据已生成成功 | 详情、接收、拒绝 | 接收:状态变为 “已接收”;拒绝:状态变为 “已拒绝” |
已接收 | 被共享方点击 “接收” 并完成设置 | 详情 | 获得数据集使用权限(直接访问:读权限;受控访问:使用权限) |
已拒绝 | 被共享方点击 “拒绝” | 详情 | 无法访问该数据集,共享关系终止 |
系统处理失败 | 共享方样本数据生成失败 | 详情、刷新状态 | 需等待共享方重新发起共享 |
共享方完成数据集共享操作后,被共享方可在 LAS 控制台看到“共享给我”的数据集记录,可进行接收或拒绝操作。
登录 LAS 控制台。
在顶部左上角根据实际情况选择地域,请选择您要操作的数据集所在的地域。如果地域选择错误,您可能无法在列表中找到目标数据集或无法成功发起共享。
在左侧导航栏选择数据集 > 数据集共享 > 共享给我,在这里可以查看自己接收到的数据集共享列表。
当租户 A 给租户 B 共享一个受控数据集时,若数据集的格式 (Format) 为 Lance、CSV、JSONL、Parquet ,会要求共享方选择样本数据的条数 ( 最高 10,000 条,最低 1 条 ) 。
数据集共享创建完成后,状态显示为“系统处理中”,表明系统正在为此次共享生成样例数据。
租户 B 接受之后:
若租户 B 想使用此受控数据集的全部数据,则需要提交代码包审批。您可以通过以下步骤发起审批:
配置基本信息。
参数 | 描述 |
|---|---|
申请名称 | 此次代码包申请的名称。为了让对方了解您代码的使用场景以便审批; |
描述 | 用于辅助介绍您代码包的内容,可结合代码包的用途进行详细说明; |
配置代码包信息。
参数 | 描述:Git类代码 | 描述:TOS类代码 |
|---|---|---|
代码包类型 | 根据您代码位置选择代码类型为 Git 类型还是 TOS 类型。 | |
Git 仓库类型 | 您的 Git 仓库类型。枚举值:Github、Gitlab; | 不涉及 |
仓库地址 | 您的 Git 仓库地址; | 不涉及 |
Tag | 您的源代码在 git 中的 tag; | 不涉及 |
Access Token | 访问您代码仓库的凭证; | 不涉及 |
任务入口命令 | 若您将此代码包用于【任务管理】模块,则您需要提前指定您的入口命令。 | |
创建完毕之后,此次申请会进入系统处理中的状态,表示系统正在对您的代码进行归档,归档完成之后,对方才能看到您的申请。
您可以在数据集共享 > 由我共享 > 审批申请页面中查看所有您接收到的所有审批申请。
您也可以选择一个【由我发起】的共享,进入详情页中的【审批详情】,查看仅此次共享关联的审批。
与【共享发起者】视角相同的是,申请创建者也可以在某个受控共享的详情中查看此次共享关联的审批。除此之外,申请创建者还可以在受控数据集详情页面浏览此受控数据集关联的审批:
您可以在此页面撤回您的申请。
您可以选择一个申请,点击【详情】,进入此次申请的详情页,浏览此次申请的基本信息、代码包和审批结果。
您可以点击【查看代码包】,对其中的代码进行预览:
共享发起方可以对申请者的代码和入口命令进行审核,以防止申请者的代码有任何窃取数据的行为,包括但不限于:
共享发起方可以在【申请列表】或【申请详情】中,对某个申请进行审批:
参数 | 描述 | |
|---|---|---|
审批结论 | 审核完【代码包】和【入口命令】后,选择对此次申请进行【通过】或者【不通过】; | |
任务有效期 | 您可以设定此次申请通过后的有效期,您可以指定此次申请的过期时间,也可以选择【跟随数据集有效期】。若选择【跟随数据集有效期】,即申请通过的过期时间,跟随着此次共享的过期时间;当共享的过期时间变动时,此申请的过期时间也会同步。 | |
审批意见 | 您可以给出您的审批意见,至多 200 字。 | |