Gemini 3 Pro Image Preview模型在Vertex AI与AI Studio表现差异及多图/带标注图调用异常排查问询
Gemini 3 Pro Image Preview模型在Vertex AI与AI Studio表现差异及多图/带标注图调用异常排查问询
我目前在通过Vertex AI的Google GenAI Python SDK(google-genai)调用Gemini 3 Pro Image Preview多模态模型,核心场景是传入1-2张图片+文本提示,要求返回包含文本或图片的结构化响应。但实际调用中,遇到了和Google AI Studio完全不一致的表现,还有多图/带标注图调用的异常问题,想请教大家背后的原因和解决方向:
一、核心表现差异与异常情况
1. Google AI Studio(表现正常)
单图+文本提示的请求能稳定返回结果,响应时间也在合理范围内。
2. Vertex AI(表现异常)
- 单图请求:偶尔会返回
400 INVALID_ARGUMENT(错误提示:"The request is not supported by this model"),或者429 RESOURCE_EXHAUSTED; - 多图/带标注图请求:传入两张关联图(比如原图+叠加检测框的图)或单张带标注的图时,请求经常会挂到客户端超时(比如120s)无响应,或者响应时间极长;更奇怪的是,有时HTTP客户端日志显示请求已返回
200 OK,但代码收不到可用结果——要么是空响应、无内容,要么看起来仍在阻塞状态。
二、已尝试的请求格式与参数调整
请求结构设计
- 单图场景:
contents由1个图片部分(JPEG字节)+1个文本部分组成,设置了system_instruction,指定response_modalities=["TEXT", "IMAGE"](模型支持同时返回两种类型); - 多图场景:
contents由2个图片部分+1个文本部分组成(顺序:图1、图2、文本提示); - 图片预处理:用SDK的
part-from-bytesAPI构建图片部分,已将图片resize到最大边768px,并通过JPEG压缩控制文件大小,确保在合理范围内。
响应模态参数尝试
我尝试了多种response_modalities配置,但都没解决问题:
- 仅设置
TEXT:返回400 INVALID_ARGUMENT(错误提示:"The request is not supported by this model"); - 设置
IMAGE或TEXT+IMAGE:要么返回429 RESOURCE_EXHAUSTED,要么请求直接挂起; - 不设置该参数:同样出现上述异常。
三、Vertex AI环境配置说明
- 调用方式:使用服务账号身份调用(非API Key快捷方式),服务账号已配置Vertex AI User甚至Admin权限;
- 项目状态:已启用Vertex AI API,Cloud Console显示该模型的请求错误率很高,主要是
400和429错误; - 模型状态:该模型目前处于预览阶段,官方文档提到生产级 workload 需要配置Provisioned Throughput,但我当前只是测试场景;
- 客户端超时处理:用子进程封装
generate_content调用,设置了120s硬超时,超时则强制终止进程。
四、核心疑问
- 为什么AI Studio和Vertex AI的表现差异这么大?两者在支持特性、配额限制、请求格式兼容性上有哪些已知的区别?
- 为什么添加第二张图或带标注的图会导致请求挂起/变慢或报错?Vertex对多图输入或"更复杂"的图片(比如带标注的图)有哪些未明确说明的限制(比如token计数、文件大小阈值、处理时长上限、服务端超时机制)?
- 在Vertex上调用该模型传入"原图+标注图"或两张关联图时,有没有推荐的请求结构、参数设置或图片处理方式,能避免
400/429错误和请求挂起问题? - 有没有官方文档明确说明该模型在Vertex vs Studio的行为差异、多图输入的具体限制,或者针对
400/429错误的排查指引?
(注:已排除凭证有效性、项目基础配置等问题,仅聚焦模型调用的行为差异和异常原因)




