Microsoft 推出三款新的基础模型,正面迎战 AI 对手
组建仅六个月的 MAI 发布了可将语音转成文字、同时还能生成音频和图像的模型。
Microsoft 推出三款新的基础模型,正面迎战 AI 对手
Daily Signal
来源:TechCrunch 原文链接:https://techcrunch.com/2026/04/02/microsoft-takes-on-ai-rivals-with-three-new-foundational-models 作者:Rebecca Szkutak 发布时间:2026-04-02T16:48:16
核心摘要
组建仅六个月的 MAI 发布了可将语音转成文字、同时还能生成音频和图像的模型。
事件经过
微软旗下研究部门 Microsoft AI 周四发布了三款新的基础模型,覆盖文本、语音和图像相关能力。对微软而言,这次发布再次表明它正在继续搭建自有的多模态模型体系,而不是只依赖与 OpenAI 的合作关系。
TechCrunch 指出,这一动作意味着微软正在更明确地把自己摆到与其他 AI 实验室直接竞争的位置上。虽然微软仍与 OpenAI 深度绑定,但公司也在同步推进内部模型栈和开发者平台。
核心细节
按照微软的介绍,MAI-Transcribe-1 可以把 25 种语言的语音转成文字,速度大约是微软 Azure 现有相关服务的 2.5 倍。MAI-Voice-1 用于音频生成,能够在 1 秒内生成 60 秒的音频,并支持用户创建自定义语音。MAI-Image-2 则是一款生成模型,已率先在 MAI Playground 上线。
这些模型目前已经在 Microsoft Foundry 发布,其中转写和语音模型也已经进入 MAI Playground。对微软来说,这意味着它不只是在做实验室演示,而是在把这些模型真正放入自己的开发者分发体系。
更多背景
这批模型由微软的 MAI Superintelligence 团队开发。该团队由 Microsoft AI CEO Mustafa Suleyman 领导,于 2025 年 11 月对外宣布成立。Suleyman 在博文中表示,微软希望围绕“以人为中心”的 AI 路线继续推出更多模型,并把这些能力逐步嵌入 Foundry 以及微软自己的产品和体验中。
来源
syq