You need to enable JavaScript to run this app.
导航
典型场景1【模型部署】私有模型一键部署
最近更新时间:2025.06.12 17:01:57首次发布时间:2025.04.21 16:51:39
我的收藏
有用
有用
无用
无用

说明

场景说明:以客户将【私有模型】通过TKS密钥加密的方式上传到AICC模型广场后,并自动完成模型服务部署,并提供明文接口供模型推理服务联调测试。

整体流程说明

Image

1.准备工作

步骤1:物理资源准备

准备一台128GB以上内存物理机器,并安装好Python3环境(建议使用Anaconda环境,避免依赖冲突)。

步骤2:Jeddak Secure Model SDK下载与安装

执行以下脚本,安装Jeddak Secure Model SDK(点此下载)。

export VERSION=0.1.7.36
pip3 install bytedance.jeddak_secure_channel-${VERSION}-py3-none-any.whl

2.私有模型发布与部署

说明

不同尺寸模型,部署耗时会有差异。具体建议尺寸如下:

AICC规格

说明

基础版

支持小尺寸的模型,如1.5B,具体以实际验证为准。

高级版

支持中尺寸的模型,如32B,具体以实际验证为准。

旗舰版

支持大尺寸的模型,如DeepSeek R1-671B(满血版),具体以实际验证为准。

步骤1:参数准备

  1. 准备将模型上传的TOS桶的名称,按照如下进行:
    1. 登录火山引擎,进入对象存储,创建对象存储TOS的桶,并记住【bucket_name】。创建存储桶的时候需选择华北2(北京区域),对应的region为cn-beijing。
  1. 在火山引擎页面查看账号ID,如下图所示,并记录此ID为【app_id】。
  1. 点击火山账号,选择“API访问密钥”,新建该账号的【AK】、【SK】。

步骤2:脚本执行

wget https://lf3-static.bytednsdoc.com/obj/eden-cn/jzeh7vhobenuhog/model_automation_tool.py
python3 model_automation_tool.py \
    --app_id '' \    #火山账号ID【app_id】---必填
    --AK '' \        #火山账号访问AK【AK】---必填
    --SK '' \        #火山账号访问SK   【SK】---必填
    --bucket_name '' \  #火山引擎上创建的TOS桶名称   【bucket_name】---必填
    --region 'cn-beijing' \    #区域,固定值:cn-beijing
    --endpoint 'tos-cn-beijing.volces.com' \    #TOS服务端点,固定值:tos-cn-beijing.volces.com
    --model_path  ''\   #本地的私有模型文件路径 【按照实际情况填写】---必填
    --ring_id '' \    #密钥环ID(选填),如果设置为'',则会自动创建一个密钥环
    --ring_name '' \    #密钥环名称,ring_name不能重复,否则会报错【自定义】---必填
    --ring_desc '' \    #密钥环描述(选填)
    --key_name '' \    #密钥名称 【自定义】---必填
    --key_desc '' \    #密钥描述(选填)
    --service 'pcc' \    #服务名,固定值:pcc
    --policy_id '9eb6b259-a3fe-580c-90c5-ef20a92309c8' \    #策略ID,固定值
    --model_name '' \    #模型名称,如:PrivateModel 【自定义】---必填
    --model_version '' \    #模型版本,如V1.0 【自定义】---必填
    --model_description '' \    #模型描述(选填)
    --cu_type '' \    #CU类型,可选择Basic,Advanced,Enterprise,分别是基础版、高级版、旗舰版,不同CU类型支持的模型尺寸上限有所不同 ---必填
    --replica_count '' \    #副本数量(实例个数),取决于可用的CU数量---必填
    --inference_engine '' \    #推理引擎,可选择vllm与sglang,基础版仅支持vllm,高级版支持vllm和sglang,旗舰版仅支持sglang---必填
    -s \    #是否对http请求的日志静默,默认值为静默,未设置为不静默
    -e    #是否开启对模型加密,默认为对模型加密,未设置为不加密

3.推理服务联调

说明

在火山账号下创建一个ecs (velinux)并按照如下方式进行模型服务测试;
IP:参考2.获取服务终端节点IP
model_name:与上面脚本自定义模型名称保持一致;

  • 明文接口

    export ip={替换为你的模型服务地址}
    export model_name={替换为合适的模型名称}
    python3 completion_plain.py
    
  • 密文接口

    {
      "ra_url": "open.volcengineapi.com",
      "ra_service_name": "替换成机密容器界面的service-name",
      "ra_policy_id": "9eb6b259-a3fe-580c-90c5-ef20a92309c8",
      "ra_uid": "替换成自己火山账号的uid",
      "bytedance_top_info": "{\"ak\": \"按照实际情况填写\", \"sk\": \"按照实际情况填写\", \"service\": \"pcc\"}",
      "attest_interval": 3600
    }
    
    • 执行以下命令
    export ip={替换为你的模型服务地址}
    export model_name={替换为合适的模型名称}
    python3 completion_plain.py