在线推理支持用户调用模型广场上的模型与精调后的模型进行推理,在线推理支持:
灵活升级接入模型的版本
支持模型推理接入点的调用监控
支持通过购买模型单元,保障更高并发度、更灵活的推理需求
您可以创建模型推理接入点来开始模型推理。
模型推理接入点创建有3个入口,点击创建按钮后,在弹出的表单中,填写相应信息,信息填写完毕后,点击【新建】,即可完成推理接入点的创建。
入口 1:登录火山方舟平台,点击左侧导航栏中的【在线推理】,点击【 创建推理接入点 】。
入口 2:【模型广场】的模型卡片详情页右上角,点击【模型推理】
入口 3:【模型仓库】的列表页右侧操作栏,点击【在线推理】
接入模型表单字段详细说明:
参数名称 | 必填 | 参数说明 | |
---|---|---|---|
基本信息 | 接入点名称 | 是 | 填写接入点名称 |
接入点描述 | 否 | 描述接入模型的业务需求,如接入场景、用途(如测试、线上业务)等 | |
接入配置 | 模型选择 | 是 | 可选择【模型广场】或【模型仓库】中的模型进行接入。
|
购买方式 | 是 | 支持使用【按Token付费】、【按模型单元付费】2种模式 | |
模型限流 | - | 当前该账号下访问所选模型对应的基础模型限流 | |
接入点限流 | 否 | 配置当前推理接入点的限流 |
模型单元为用户提供独占的算力资源。创建推理接入点选择按模型单元付费后,无需再为 Token 消耗付费。模型单元付费方式为预付费按月和后付费按小时。
适合生产级别业务,对算力资源确定性要求很高。
Lora 精调后的模型在推理时获得更低延迟
使用全量训练精调后的模型推理
我们对Doubao系列模型与部分开源模型支持模型单元。支持范围请查看产品计费
说明
目前支持在创建推理接入点配置购买方式时,选择按模型单元付费进行购买模型单元,可以配置购买模型单元的数量、计费类型、时长、是否自动续费。自动续费支持按照单次自动续费时长(按月)及自动续费次数(永久生效、自定义次数)自定义配置。
说明
预付费模型单元到期自动终止,为避免续费不及时导致业务中断,建议开通自动续费。
预付费模型单元和后付费模型单元可以在同一个推理接入点上叠加使用,同时生效,方便您依据实际流量灵活调整模型单元数量。预付费模型单元和后付费模型单元叠加使用,创建推理接入点时只能选择1种计费类型,操作叠加购买多种模型单元,需要创建完成推理接入点后,在推理接入点详情页进行配置。
购买后付费模型单元的前提是账号中的余额大于100元,否则无法成功下单。
如模型单元购买失败,平台将为您在两小时内完成退款。
您可以在接入点详情页查看当前已经购买的模型单元数量、到期时间等信息,并对模型单元进行一系列操作:
对预付费模型单元进行购买、数量调整、续费、退订、设置自动续费规则
对后付费模型单元进行购买、数量调整、退订
配置说明
操作 | 说明 |
---|---|
调整数量 | 对预付费模型单元和后付费都支持调整数量。调整后立即生效。点击确认调整后,预付费模型单元会就到期时间按照调整后的数量多退少补。 |
续费与调整自动续费策略 | 您可以对预付费模型单元进行续费和续费规则的管理。 |
退订 | 后付费模型单元:点击退订后立即生效。 |
购买预付费模型单元,到期时间为次月相同日的23点59分59秒。如您购买了预付费模型单元,到期后84小时内还可以继续使用资源;如您只购买了预付费模型单元,168小时后,将无法对原有的模型单元进行续费,需要更换新的接入点使用,但对同时买了后付费模型单元且在生效期的接入点没有此限制。
购买后付费模型单元,结算费用按购买后的持有时长,秒级计费。在不需要资源时,您可以随时删除资源,删除后,即时停止计费。
如您账号欠费,无法购买预付费模型单元。但已经购买完成的模型单元还可以继续使用
如您购买了后付费模型单元,账号欠费后两小时资源进入保留期。超出保留期后,如您只购买了后付费模型单元,您的资源将被强制回收,无法使用原有接入点进行推理。
注意
账户欠费状态下,您需要在结清欠费账单后确认账户中的可用额度(含账户余额和代金券)大于等于100元人民币,否则将无法创建实例、变更实例规格或更换操作系统。