Google:Gemini 3.1 Flash-Lite 发布,主打低成本高吞吐,输入百万 tokens 仅 0.25 美元
基于 Google 官方博客原文整理:Gemini 3.1 Flash-Lite 是 Gemini 3 系列中目前最快、最便宜的模型版本,面向高频、成本敏感的大规模推理场景。

Google:Gemini 3.1 Flash-Lite 发布,主打低成本高吞吐,输入百万 tokens 仅 0.25 美元
基于 Google 官方博客原文整理:Gemini 3.1 Flash-Lite 是 Gemini 3 系列中目前最快、最便宜的模型版本,面向高频、成本敏感的大规模推理场景。

图源:Google 官方博客。
导读速览
Google 于 2026 年 3 月 3 日 发布 Gemini 3.1 Flash-Lite,并把它定义为 Gemini 3 系列里目前 最快、也最 成本友好 的新模型。
这款模型已经以 preview 形式向开发者开放,可通过 Gemini API in Google AI Studio 使用,企业端则可通过 Vertex AI 接入。
官方这次的核心叙事非常明确:不是继续单纯卷大模型规模,而是把高吞吐、低延迟和更低单次调用成本,做成一个更适合批量生产场景的默认选项。
Gemini 3.1 Flash-Lite 的定位不是“更强旗舰”,而是把“高频调用的单位经济性”拉到更激进的水平。
如果你的工作负载更在意吞吐和成本,而不是追求最高上限,这一代 Flash-Lite 才是 Google 真正想推的主力款。
价格和速度是这次最核心的卖点
Google 给出的定价是 0.25 美元 / 100 万 input tokens,以及 1.50 美元 / 100 万 output tokens。按照官方口径,这是目前 Gemini 3 系列里最便宜的一档。
和 Gemini 2.5 Flash 相比,Google 引用了 Artificial Analysis 的基准结果:首个回答 token 时间快 2.5 倍,输出速度提升约 45%,同时质量维持相近甚至更好。
这意味着它瞄准的不是少量高价值查询,而是需要连续、快速、稳定响应的大规模在线任务,例如实时内容处理、交互式产品和后台批处理流水线。
这次升级的核心不是“再强一点”,而是把延迟和价格一起压低,让高频调用的总成本明显下降。
对真正跑量的团队来说,2.5 倍更快的首 token 和更低单价,通常比抽象的模型能力提升更直接。
不只便宜,基准也在往上抬
Google 表示,Gemini 3.1 Flash-Lite 在 Arena.ai Leaderboard 上的 Elo 分数达到 1432,并在同档模型里维持了较强的综合表现。
官方特别列出了两组指标:GPQA Diamond 86.9%、MMMU Pro 76.8%。按 Google 的说法,它甚至超过了上一代部分更大体量的 Gemini 模型,例如 Gemini 2.5 Flash。
也就是说,这不是一个纯粹“便宜但凑合”的降配版本;Google 想表达的是,它在更低成本下,依然能覆盖推理、多模态理解和复杂指令跟随等主流任务。
Google 正在把 Flash-Lite 从“便宜替代品”重新包装成“低价但足够强的生产级默认模型”。
如果这些基准能在真实业务里站住脚,Flash-Lite 会直接冲击一大批中档调用场景的模型选择。
目标场景:高频业务,而不是少量昂贵推理
Google 还强调,Gemini 3.1 Flash-Lite 在 AI Studio 和 Vertex AI 中默认支持 thinking levels,开发者可以按任务需要控制模型“思考”多少,以平衡成本、速度和回答深度。
官方点名的典型场景包括 高吞吐翻译、内容审核、生成用户界面和仪表盘、创建仿真,以及更复杂的 指令遵循 工作流。
Google 还提到,Latitude、Cartwheel、Whering 等早期客户已经在用它处理大规模复杂问题;早期反馈强调的,是它在复杂输入下依然保持接近更大模型的精度和执行一致性。
Google 这次不是在卖“最聪明的模型”,而是在卖“最适合大规模上线的模型”。
这类产品最有可能先在后台系统、审核链路和内容生产流水线里快速扩散,而不是先从高端研究场景起量。
Jim