返回中国投资人

Google:Gemini 3.1 Flash-Lite 发布,主打低成本高吞吐,输入百万 tokens 仅 0.25 美元

基于 Google 官方博客原文整理:Gemini 3.1 Flash-Lite 是 Gemini 3 系列中目前最快、最便宜的模型版本,面向高频、成本敏感的大规模推理场景。

Jim2026年3月3日
Google:Gemini 3.1 Flash-Lite 发布,主打低成本高吞吐,输入百万 tokens 仅 0.25 美元

Google:Gemini 3.1 Flash-Lite 发布,主打低成本高吞吐,输入百万 tokens 仅 0.25 美元

基于 Google 官方博客原文整理:Gemini 3.1 Flash-Lite 是 Gemini 3 系列中目前最快、最便宜的模型版本,面向高频、成本敏感的大规模推理场景。

Google Gemini 3.1 Flash-Lite 官方头图

图源:Google 官方博客。

导读速览

Google 于 2026 年 3 月 3 日 发布 Gemini 3.1 Flash-Lite,并把它定义为 Gemini 3 系列里目前 最快、也最 成本友好 的新模型。

这款模型已经以 preview 形式向开发者开放,可通过 Gemini API in Google AI Studio 使用,企业端则可通过 Vertex AI 接入。

官方这次的核心叙事非常明确:不是继续单纯卷大模型规模,而是把高吞吐、低延迟和更低单次调用成本,做成一个更适合批量生产场景的默认选项。

Gemini 3.1 Flash-Lite 的定位不是“更强旗舰”,而是把“高频调用的单位经济性”拉到更激进的水平。

如果你的工作负载更在意吞吐和成本,而不是追求最高上限,这一代 Flash-Lite 才是 Google 真正想推的主力款。

价格和速度是这次最核心的卖点

Google 给出的定价是 0.25 美元 / 100 万 input tokens,以及 1.50 美元 / 100 万 output tokens。按照官方口径,这是目前 Gemini 3 系列里最便宜的一档。

Gemini 2.5 Flash 相比,Google 引用了 Artificial Analysis 的基准结果:首个回答 token 时间快 2.5 倍,输出速度提升约 45%,同时质量维持相近甚至更好。

这意味着它瞄准的不是少量高价值查询,而是需要连续、快速、稳定响应的大规模在线任务,例如实时内容处理、交互式产品和后台批处理流水线。

这次升级的核心不是“再强一点”,而是把延迟和价格一起压低,让高频调用的总成本明显下降。

对真正跑量的团队来说,2.5 倍更快的首 token 和更低单价,通常比抽象的模型能力提升更直接。

不只便宜,基准也在往上抬

Google 表示,Gemini 3.1 Flash-Lite 在 Arena.ai Leaderboard 上的 Elo 分数达到 1432,并在同档模型里维持了较强的综合表现。

官方特别列出了两组指标:GPQA Diamond 86.9%MMMU Pro 76.8%。按 Google 的说法,它甚至超过了上一代部分更大体量的 Gemini 模型,例如 Gemini 2.5 Flash

也就是说,这不是一个纯粹“便宜但凑合”的降配版本;Google 想表达的是,它在更低成本下,依然能覆盖推理、多模态理解和复杂指令跟随等主流任务。

Google 正在把 Flash-Lite 从“便宜替代品”重新包装成“低价但足够强的生产级默认模型”。

如果这些基准能在真实业务里站住脚,Flash-Lite 会直接冲击一大批中档调用场景的模型选择。

目标场景:高频业务,而不是少量昂贵推理

Google 还强调,Gemini 3.1 Flash-Lite 在 AI StudioVertex AI 中默认支持 thinking levels,开发者可以按任务需要控制模型“思考”多少,以平衡成本、速度和回答深度。

官方点名的典型场景包括 高吞吐翻译内容审核生成用户界面和仪表盘创建仿真,以及更复杂的 指令遵循 工作流。

Google 还提到,LatitudeCartwheelWhering 等早期客户已经在用它处理大规模复杂问题;早期反馈强调的,是它在复杂输入下依然保持接近更大模型的精度和执行一致性。

Google 这次不是在卖“最聪明的模型”,而是在卖“最适合大规模上线的模型”。

这类产品最有可能先在后台系统、审核链路和内容生产流水线里快速扩散,而不是先从高端研究场景起量。

NoRumor
NoRumor 致力于提供真实、准确、有深度的新闻报道与分析。我们相信,在信息泛滥的时代,高质量的内容是最稀缺的资源。每一篇报道都经过严格的事实核查,力求为读者呈现事件的全貌与深层逻辑。
真实 · 准确 · 深度

Jim