You need to enable JavaScript to run this app.
导航

Notebooks

最近更新时间2024.01.15 14:26:34

首次发布时间2022.10.30 09:50:22

Bio-OS的交互式分析环境集成了Jupyter Notebook.
Jupyter Notebook是一个开源分析环境,您可以在其中通过交互式分析和可视化效果实时了解研究数据。您可以导入数据——包括存储在云中的已处理基因组学、表型和转录组学数据——并使用 R 或 Python 中的自定义或预建库进行分析。
Jupyter Notebooks 环境可供新手使用,并具有可移植性和可重复性。Notebooks以易于理解和分享的形式将分析方法和发现结合在一个地方。作为传统科学论文的逻辑演变,Jupyter Notebook极大地缩短了阅读分析完成方式和实际重现分析之间的路径。很难夸大这个概念的强大程度以及Notebooks对计算科学中发现的可重用性和可重复性的影响。


切换运行配置

Notebook支持切换Notebooks的运行资源,可以切换应用配置以及资源配置。应用配置主要是选择启动的默认镜像,资源配置则可以选择资源规格。

  1. 点击【运行资源配置】

  2. 选择应用配置和资源配置

  3. 点击更新环境(如果当前Notebook实例已经启动,点击更新环境将会删除实例并重新启动)



应用配置

应用配置中支持2种类型的镜像来源,分别为预设镜像以及自定义镜像
预设镜像:

当前提供三个预设的镜像:datascience、GATK以及Bioconductor。 Datascience镜像为平台提供的最基础镜像,仅包含一些数据科学的常用工具 GATK镜像中包含GATK4.2.6.1、Python3.7.12和R4.1.3。 GATK 是用于分析高通量测序数据的工具的集合,可用于变异发现。另外镜像中还包含生物信息分析中常用的Python和R包分析工具。 R/Bioconductor镜像中包含Python和R工具包之外还包含Bioconductor,Bioconductor是建立在R语言环境上的,用于生物信息数据的注释、处理、分析及可视化工具包的总集,由一系列R扩展包组成。Biconductor版本3.17,R版本为4.3.0

自定义镜像
自定义镜像中支持两种类型,一种是镜像存档,镜像存档只能获取通过Notebook保存镜像功能保存的镜像,镜像会保存在用户账号下的镜像仓库中,并且以bioos_auto为前缀,用户镜像仓库中的其他镜像无法作为Notebook启动镜像,另外一种是镜像URL,您可以复制镜像的地址来启动镜像,Notebook启动过程中会拉取镜像并以容器形式启动。

  • 镜像缓存: 当镜像过大时,首次拉取可能超时,当您有镜像缓存额度时,会自动将为镜像制作镜像缓存,后续启动时会以镜像缓存进行启动,可减少镜像拉取时间,目前账号默认镜像缓存额度为5个,如您有更多镜像缓存需求,可创建工单联系。

资源配置

资源配置中分为计算资源和存储规格,计算资源包括cpu和内存,存储规格则是Notebook所挂载的云盘存储大小,您可以按照需求选择所需要的资源启动Notebook。启动Notebook会在集群中申请对应的资源用量进行启动。以下为当前Notebook支持的规格表。
计算资源规格如下所示:

vCPU内存备注
12
14
18
24
28
216
48
416
432
816
832
864
1632
1664
16128
24192
3264仅北京区域
32128仅北京区域
32256
64128仅北京区域
64256仅北京区域

存储规格默认为Bio-OS免费提供的20G的云盘,您可以对云盘进行扩容,但扩容后不支持缩容,扩容后,您需要为超过20G的额外存储进行付费。当您首次创建环境后可以选择删除环境,删除环境会删除对应的云盘以及环境配置,删除云盘会删除Notebook云盘中所有数据,但不影响对象存储中的数据(启用对象存储需打开存储配置)


存储配置

Notebooks中默认使用ebs弹性快存储,但是您也可以使用对象存储作为存储对象,当您想要在Notebook中直接读取在工作流的输出结果,可以打开存储配置,并完成密钥配置(密钥主要是为了允许Bio-OS访问您的对象存储桶)后,即可在Notebook中直接读取当前Notebook所在Workspace对应的对象存储桶, 对象存储桶在文件目录中显示为tos_data.

  • 密钥配置
  1. 点击【集群管理】-【专属集群】-【密钥配置】

  1. 输入Access Key 和Secret Access Key后点击确定
  1. Notebook运行配置中打开【存储配置】,点击更新环境

  2. 编辑Notebook之后,在左侧文件列表中会出现 tos_data 文件夹,即为当前Workspace绑定的tos对象存储桶


创建新的Notebook

  1. 点击新建Notebook,并输入名称和选择语言。目前支持的语言有Python和R语言。

  1. 点击右侧编辑按钮可以对notebook进行编辑。
  2. 在 notebook 中运行代码单元的方法有以下三种:
    1. 选择单元格并按键盘上的Shift +Enter(您的键盘可能会显示“return”而不是“enter”)。

    2. 单击菜单栏中的运行图标。

    3. 使用Cell 下拉菜单中的适当命令。

说明

单元格是Notebook的组成部分。每个单元格都有一个“类型”(Code/Markdown/Raw NBConvert/Heading),它决定了应用程序计算将如何解释单元格中的指令。

代码单元如何运行?

当您运行代码单元时,Jupyter计算内核将读取代码,并将这些指令传递到运行Jupyter的实际操作系统(例如 Python、R),并检索结果以在笔记本中显示它们。 当命令运行时,命令的输出日志出现在代码单元的正下方。
如果单元格中的代码与内核的语言不匹配,则应用程序计算将返回错误。如果未指定输出,则通过注意单元格左侧方括号 [ ] 中的数字,您将知道代码已成功执行。

如何知道代码是否执行

首次启动笔记本时,每个代码单元左侧的方括号为空 [],表示这些单元在此会话期间尚未运行。括号 [*] 中的星号表示单元正在运行。一旦命令被执行,星号将被一个整数代替,该整数表示自内核启动以来执行的命令数。您可以多次执行同一个单元格,或在一个单元格中执行多条命令。

如果您通过转到下拉菜单单元格>所有输出并选择“清除”来清除输出,则整数括号将再次被空括号替换。但是,如果您重新启动内核,整数计数只会重置为零。

如何在Markdown单元格中编辑内容

Notebook不仅能进行python或者R语言代码运行,单元格也支持编辑Markdown格式的内容,首先请将单元格类型切换到Markdown,如下图所示。然后请双击要编辑的单元格。

说明

Markdown 是一种轻量级的纯文本格式化语言。它用简洁的语法代替排版,而不像一般我们用的文字处理软件 WordPages 有大量的排版、字体设置。以下为一些语法举例:
Markdown 中,如果一段文字被定义为标题,只要在这段文字前加 # 号即可。
如:# 一级标题
如果你需要引用一小段别处的句子,那么就要用引用的格式。只需要在文本前加入 > 这种尖括号(大于号)即可。
插入链接与插入图片的语法很像,区别在一个 !号
图片为:![](){ImgCap}{/ImgCap}
链接为:[]()

在Notebook中保存镜像

Bio-OS支持将当前Notebook后安装的包构建为新的镜像并保存到镜像仓库中。保存镜像会由平台基于用户启动Notebook时所选择的镜像加上用户在Notebook中额外安装的工具重新构建新的镜像并保存在用户的镜像仓库中。

  1. 点击Notebook右上角【保存镜像】按钮

  1. 保存镜像中输入对应信息

    1. 镜像仓库实例: 会获取您账号下的镜像仓库实例,如首次保存镜像,需要对镜像仓库实例进行授权,授权后拉取镜像会以内网形式拉取

    2. 命名空间: 对应镜像仓库实例下的命名空间,选择后保存的镜像将以 bioos_auto_为前缀存放

    3. 镜像名称: 默认以bioos_auto为前缀,

    4. 支持小写英文、数字、分隔符(分隔符可输入一个.或/、一个或多个-、一个或两个_,且分隔符不能出现在首位或末位,不能连续出现)

    5. 长度 2~53 个字符

    6. 镜像版本:

    7. 不能以“-”、“.”开头

    8. 支持字母、数字、及“-”、“_”、“.”

    9. 长度 1~128 个字符

    10. 镜像类型: 将保存的镜像设置为公有或者私有,如覆盖了原有镜像,则这个设置不会改变原有镜像类型

    11. 描述: 最多300字符


  1. 点击【下一步】,这里额外工具包中会显示不在基础镜像中的用户安装工具,您可以选择删除或者添加新的工具,请注意这里有些包可能是通过依赖安装的,删除可能导致部分包无法使用。如无法通过包管理工具进行安装,也可以将脚本写在post-install中,打包镜像过程中会执行Post-install脚本(镜像过大可能导致镜像保存失败,由于GATK和Bioconductor镜像较大,建议通过datascience镜像启动并安装包后做镜像保存)
  1. Notebook退出不会影响镜像保存,此时在Notebook列表页点击如下截图中箭头查看镜像保存记录。如镜像保存失败可查看失败日志,如镜像保存成功则可以跳转镜像仓库查看镜像