Gemini 3 Pro Image Preview模型在Vertex AI与AI Studio表现差异及多图/带标注图调用异常排查问询

阿华AIGC实验室

2026-3-31

我目前在通过Vertex AI的Google GenAI Python SDK（google-genai）调用Gemini 3 Pro Image Preview多模态模型，核心场景是传入1-2张图片+文本提示，要求返回包含文本或图片的结构化响应。但实际调用中，遇到了和Google AI Studio完全不一致的表现，还有多图/带标注图调用的异常问题，想请教大家背后的原因和解决方向：

一、核心表现差异与异常情况

1. Google AI Studio（表现正常）

单图+文本提示的请求能稳定返回结果，响应时间也在合理范围内。

2. Vertex AI（表现异常）

单图请求：偶尔会返回400 INVALID_ARGUMENT（错误提示："The request is not supported by this model"），或者429 RESOURCE_EXHAUSTED；
多图/带标注图请求：传入两张关联图（比如原图+叠加检测框的图）或单张带标注的图时，请求经常会挂到客户端超时（比如120s）无响应，或者响应时间极长；更奇怪的是，有时HTTP客户端日志显示请求已返回200 OK，但代码收不到可用结果——要么是空响应、无内容，要么看起来仍在阻塞状态。

二、已尝试的请求格式与参数调整

请求结构设计

单图场景：contents由1个图片部分（JPEG字节）+1个文本部分组成，设置了system_instruction，指定response_modalities=["TEXT", "IMAGE"]（模型支持同时返回两种类型）；
多图场景：contents由2个图片部分+1个文本部分组成（顺序：图1、图2、文本提示）；
图片预处理：用SDK的part-from-bytes API构建图片部分，已将图片resize到最大边768px，并通过JPEG压缩控制文件大小，确保在合理范围内。

响应模态参数尝试

我尝试了多种response_modalities配置，但都没解决问题：

仅设置TEXT：返回400 INVALID_ARGUMENT（错误提示："The request is not supported by this model"）；
设置IMAGE或TEXT+IMAGE：要么返回429 RESOURCE_EXHAUSTED，要么请求直接挂起；
不设置该参数：同样出现上述异常。

三、Vertex AI环境配置说明

调用方式：使用服务账号身份调用（非API Key快捷方式），服务账号已配置Vertex AI User甚至Admin权限；
项目状态：已启用Vertex AI API，Cloud Console显示该模型的请求错误率很高，主要是400和429错误；
模型状态：该模型目前处于预览阶段，官方文档提到生产级 workload 需要配置Provisioned Throughput，但我当前只是测试场景；
客户端超时处理：用子进程封装generate_content调用，设置了120s硬超时，超时则强制终止进程。

四、核心疑问

为什么AI Studio和Vertex AI的表现差异这么大？两者在支持特性、配额限制、请求格式兼容性上有哪些已知的区别？
为什么添加第二张图或带标注的图会导致请求挂起/变慢或报错？Vertex对多图输入或"更复杂"的图片（比如带标注的图）有哪些未明确说明的限制（比如token计数、文件大小阈值、处理时长上限、服务端超时机制）？
在Vertex上调用该模型传入"原图+标注图"或两张关联图时，有没有推荐的请求结构、参数设置或图片处理方式，能避免400/429错误和请求挂起问题？
有没有官方文档明确说明该模型在Vertex vs Studio的行为差异、多图输入的具体限制，或者针对400/429错误的排查指引？

（注：已排除凭证有效性、项目基础配置等问题，仅聚焦模型调用的行为差异和异常原因）