You need to enable JavaScript to run this app.
复制全文
数据集
数据集共享
复制全文
数据集共享

概述

数据集共享旨在帮助用户在保障数据安全与隐私的前提下,便捷地实现跨主体的数据协作与价值变现,适用于多方联合科研、数据服务商向客户提供样本数据、在数据市场中进行数据交易等场景,其核心是实现数据跨租户流通,被共享方访问共享数据的方式分为两类,具体差异如下:本文将引导您完成数据集共享的创建与管理操作。

访问方式

核心特点

权限说明

直接访问

权限直接授予,操作便捷

直接获得共享方数据的读权限,可直接查看、读取数据

受控访问

数据“可用不可读”,安全性高

仅能按指定方式使用数据(如模型训练、数据处理),无法拷贝数据,访问需经特定流程管控

核心能力

LAS 平台作为中立第三方,是共享方与被共享方的核心连接载体,承担 “数据中转 + 权限管控 + 操作审计” 核心角色,架构流程如下:

  1. 共享方审核机制
    • 审核目标:防止被共享方(买方)通过代码拷贝数据,审核对象为买方用于数据处理、模型训练的代码包
    • 效率优化:LAS采用“镜像与代码包分离”设计,镜像由共享方自主管理,无需审核,仅需聚焦代码包审核,大幅提升审核效率。
  2. 关联校验与权限控制
    • 关联记录:代码包审核通过后,LAS会自动记录“数据集-代码包-镜像-买方账号”的唯一关联关系。
    • 使用校验:买方后续使用数据时,LAS会校验实际操作是否匹配该关联关系,校验通过才允许挂载TOS路径(即正常使用数据)。

前提条件

已创建数据集,且拥有管理权限。

通用操作指导

创建数据集共享

共享方可在 LAS 控制台中灵活的将数据集共享给指定用户,操作详情如下。

  1. 登录 LAS 控制台

  2. 在顶部左上角根据实际情况选择地域,请选择您要操作的数据集所在的地域。如果地域选择错误,您可能无法在列表中找到目标数据集或无法成功发起共享。

  3. 在左侧导航栏选择数据集 > 数据集共享 > 由我共享,进入由我共享页面。

  4. 点击创建分享按钮,进入创建数据集共享页面,在创建数据集共享页面,参考下方的字段信息表格说明,依次填写名称’、选择‘数据集’等信息,完成后点击创建

    字段名

    描述

    示例值

    名称

    本次共享的名称,名称只能以中文、字母与数字开头,只能包含中文、字母、数字、下划线和中划线,长度限制为1~100个字符,暂不支持特殊字符。

    dataset_shared

    描述

    本次共享的摘要信息、备注、说明等

    用于分享的数据集

    数据集

    只能选择您有管理权限的数据集,并且只能是您租户所创建的数据集,不能是其他租户共享给您的,从下拉列表中选择您要共享的数据集。

    dataset_1

    共享范围

    支持定向共享,指对单个租户的点对点共享。

    定向共享

    共享有效期

    默认不限日期,您可以指定到期时间,指定到天即可。

    不限

    接收方主账号

    接收方的主账号UID。

    123***

    接收方子账号

    接收方的子账号UID,多个的话以英文逗号间隔,这里填的子账号将会收到该共享信息并有权限处理,如果不填的话,则只有接收方的主账号才能看到该共享信息并有权限处理。

    1234****78

    访问类型

    指定买方对数据的访问方式,可配置为:

    • 直接访问(默认),此种方式完成数据集共享后,被共享方可直接获得共享方数据的读权限,可直接查看、读取数据。
    • 受控访问,此种方式完成数据集共享后,被共享方仅能按指定方式使用数据(如模型训练、数据处理),无法拷贝数据,访问需经特定流程管控。

    直接访问

    镜像

    当访问类型为受控访问时该项必填,其将作为该数据集被买方使用时的代码运行环境,从下拉列表中选择对应的镜像。

    image-1

    样本数据

    默认10个,只有表格类型(格式为Lance、Iceberg、CSV、JSONL、Parquet)的数据集才支持共享时由系统自动生成样本数据,您可以用这个参数设定生成的数量,最多不超过1万个。

    10

  5. 创建完成后,状态说明如下。

    状态

    触发条件

    可执行操作

    操作后果

    系统处理中

    需生成样本数据

    若样本数据生成失败,则状态变更为“处理失败”,若样本数据生成成功,则状态变更为“等待对方接受”

    等待接收

    共享方发起共享,且无需生成样本数据或样本数据已生成成功

    详情、接收、拒绝

    接收:状态变为 “已接收”;拒绝:状态变为 “已拒绝”

    已接收

    被共享方点击 “接收” 并完成设置

    详情

    获得数据集使用权限(直接访问:读权限;受控访问:使用权限)

    已拒绝

    被共享方点击 “拒绝”

    详情

    无法访问该数据集,共享关系终止

    系统处理失败

    共享方样本数据生成失败

    详情、刷新状态

    需等待共享方重新发起共享

接收/拒绝数据集共享

共享方完成数据集共享操作后,被共享方可在 LAS 控制台看到“共享给我”的数据集记录,可进行接收或拒绝操作。

  1. 登录 LAS 控制台

  2. 在顶部左上角根据实际情况选择地域,请选择您要操作的数据集所在的地域。如果地域选择错误,您可能无法在列表中找到目标数据集或无法成功发起共享。

  3. 在左侧导航栏选择数据集 > 数据集共享 > 共享给我,在这里可以查看自己接收到的数据集共享列表。

    • 您可以接收或拒绝共享给您的数据集。
      • 拒绝数据集时,您可根据界面提示输入“确认拒绝”进行二次确认。
        Image
      • 接收数据集时,您可以配置共享过来的数据集的所属项目、管理和查看权限等。
        Image

受控共享数据集

创建与接收数据集共享

创建数据集共享

当租户 A 给租户 B 共享一个受控数据集时,若数据集的格式 (Format) 为 Lance、CSV、JSONL、Parquet ,会要求共享方选择样本数据的条数 ( 最高 10,000 条,最低 1 条 ) 。
Image

生成样本数据

数据集共享创建完成后,状态显示为“系统处理中”,表明系统正在为此次共享生成样例数据。
Image

  • 若生成失败,本次共享会进入【系统处理失败】的状态,表示系统生成样例数据失败,请检查您的原数据,或者联系火山引擎的技术支持人员。
  • 若生成成功,本次共享会进入【等待对方接收】的状态,表示等待对方进行处理。
  • 共享方也可在控制台页面重新生成抽样的样本数据。
    Image

接收数据集共享

租户 B 接受之后:

  • 若租户 A 设置了样本数据条数,则租户 B 在页面上只能读取到样本数据;
    Image
  • 若租户 A 未设置样本数据,则租户 B 在页面上无法浏览到任何数据;

代码审批

创建审批

若租户 B 想使用此受控数据集的全部数据,则需要提交代码包审批。您可以通过以下步骤发起审批:

  1. 进入数据集共享 页面,选择一个共享给我、且状态为已接收状态的共享,点击详情,在共享给我的数据集详情页面单击审批申请页签。
  2. 单击创建申请,在代码审批申请页面配置申请详情。
    Image
    1. 配置基本信息。

      参数

      描述

      申请名称

      此次代码包申请的名称。为了让对方了解您代码的使用场景以便审批;

      描述

      用于辅助介绍您代码包的内容,可结合代码包的用途进行详细说明;

    2. 配置代码包信息。

      参数

      描述:Git类代码

      描述:TOS类代码

      代码包类型

      根据您代码位置选择代码类型为 Git 类型还是 TOS 类型。

      Git 仓库类型

      您的 Git 仓库类型。枚举值:Github、Gitlab;

      不涉及

      仓库地址

      您的 Git 仓库地址;

      不涉及

      Tag

      您的源代码在 git 中的 tag;

      不涉及

      Access Token

      访问您代码仓库的凭证;

      不涉及

      任务入口命令

      若您将此代码包用于【任务管理】模块,则您需要提前指定您的入口命令。
      注意:​您的代码将会挂载在 /utils/las/dataset/sharing/code/ 路径下。

代码归档

创建完毕之后,此次申请会进入系统处理中的状态,表示系统正在对您的代码进行归档,归档完成之后,对方才能看到您的申请。

审批列表

共享发起者视角

您可以在数据集共享 > 由我共享 > 审批申请页面中查看所有您接收到的所有审批申请。
Image
您也可以选择一个【由我发起】的共享,进入详情页中的【审批详情】,查看仅此次共享关联的审批。
Image

申请创建者视角

与【共享发起者】视角相同的是,申请创建者也可以在某个受控共享的详情中查看此次共享关联的审批。除此之外,申请创建者还可以在受控数据集详情页面浏览此受控数据集关联的审批:
Image
您可以在此页面撤回您的申请。

审批详情

您可以选择一个申请,点击【详情】,进入此次申请的详情页,浏览此次申请的基本信息、代码包和审批结果。
Image
您可以点击【查看代码包】,对其中的代码进行预览:
Image
共享发起方可以对申请者的代码和入口命令进行审核,以防止申请者的代码有任何窃取数据的行为,包括但不限于:

  • 直接读取原数据,并将其保存至某地;
  • 读取完原数据后,对数据进行编码,或者进行加密,然后保存至某地;
  • 间接启动其他程序,并实现窃取;

审批处理

共享发起方可以在【申请列表】或【申请详情】中,对某个申请进行审批:
Image

参数

描述

审批结论

审核完【代码包】和【入口命令】后,选择对此次申请进行【通过】或者【不通过】;

任务有效期

您可以设定此次申请通过后的有效期,您可以指定此次申请的过期时间,也可以选择【跟随数据集有效期】。若选择【跟随数据集有效期】,即申请通过的过期时间,跟随着此次共享的过期时间;当共享的过期时间变动时,此申请的过期时间也会同步。

审批意见

您可以给出您的审批意见,至多 200 字。

最近更新时间:2026.02.26 15:35:48
这个页面对您有帮助吗?
有用
有用
无用
无用