You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

Gemini 3 Pro Image Preview模型在Vertex AI与AI Studio表现差异及多图/带标注图调用异常排查问询

Gemini 3 Pro Image Preview模型在Vertex AI与AI Studio表现差异及多图/带标注图调用异常排查问询

我目前在通过Vertex AI的Google GenAI Python SDK(google-genai)调用Gemini 3 Pro Image Preview多模态模型,核心场景是传入1-2张图片+文本提示,要求返回包含文本或图片的结构化响应。但实际调用中,遇到了和Google AI Studio完全不一致的表现,还有多图/带标注图调用的异常问题,想请教大家背后的原因和解决方向:

一、核心表现差异与异常情况

1. Google AI Studio(表现正常)

单图+文本提示的请求能稳定返回结果,响应时间也在合理范围内。

2. Vertex AI(表现异常)

  • 单图请求:偶尔会返回400 INVALID_ARGUMENT(错误提示:"The request is not supported by this model"),或者429 RESOURCE_EXHAUSTED
  • 多图/带标注图请求:传入两张关联图(比如原图+叠加检测框的图)或单张带标注的图时,请求经常会挂到客户端超时(比如120s)无响应,或者响应时间极长;更奇怪的是,有时HTTP客户端日志显示请求已返回200 OK,但代码收不到可用结果——要么是空响应、无内容,要么看起来仍在阻塞状态。

二、已尝试的请求格式与参数调整

请求结构设计

  • 单图场景contents由1个图片部分(JPEG字节)+1个文本部分组成,设置了system_instruction,指定response_modalities=["TEXT", "IMAGE"](模型支持同时返回两种类型);
  • 多图场景contents由2个图片部分+1个文本部分组成(顺序:图1、图2、文本提示);
  • 图片预处理:用SDK的part-from-bytes API构建图片部分,已将图片resize到最大边768px,并通过JPEG压缩控制文件大小,确保在合理范围内。

响应模态参数尝试

我尝试了多种response_modalities配置,但都没解决问题:

  • 仅设置TEXT:返回400 INVALID_ARGUMENT(错误提示:"The request is not supported by this model");
  • 设置IMAGETEXT+IMAGE:要么返回429 RESOURCE_EXHAUSTED,要么请求直接挂起;
  • 不设置该参数:同样出现上述异常。

三、Vertex AI环境配置说明

  • 调用方式:使用服务账号身份调用(非API Key快捷方式),服务账号已配置Vertex AI User甚至Admin权限;
  • 项目状态:已启用Vertex AI API,Cloud Console显示该模型的请求错误率很高,主要是400429错误;
  • 模型状态:该模型目前处于预览阶段,官方文档提到生产级 workload 需要配置Provisioned Throughput,但我当前只是测试场景;
  • 客户端超时处理:用子进程封装generate_content调用,设置了120s硬超时,超时则强制终止进程。

四、核心疑问

  1. 为什么AI Studio和Vertex AI的表现差异这么大?两者在支持特性、配额限制、请求格式兼容性上有哪些已知的区别?
  2. 为什么添加第二张图或带标注的图会导致请求挂起/变慢或报错?Vertex对多图输入或"更复杂"的图片(比如带标注的图)有哪些未明确说明的限制(比如token计数、文件大小阈值、处理时长上限、服务端超时机制)?
  3. 在Vertex上调用该模型传入"原图+标注图"或两张关联图时,有没有推荐的请求结构、参数设置或图片处理方式,能避免400/429错误和请求挂起问题?
  4. 有没有官方文档明确说明该模型在Vertex vs Studio的行为差异、多图输入的具体限制,或者针对400/429错误的排查指引?

(注:已排除凭证有效性、项目基础配置等问题,仅聚焦模型调用的行为差异和异常原因)

火山引擎 最新活动