返回AI产业

Mistral 为语音生成发布新的开源模式

<p> 模式让企业为销售和客户参与建立语音代理,使Mistral与“11Labs”、“Deepgram”和“OpenAI”等产品直接竞争。</p>

syq2026年4月5日

Mistral 为语音生成发布新的开源模式

Daily Signal

来源:TechCrunch 原文链接:https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation 作者:Ivan Mehta 发布时间:2026-03-26T11:30:00

核心摘要

<p> 模式让企业为销售和客户参与建立语音代理,使Mistral与“11Labs”、“Deepgram”和“OpenAI”等产品直接竞争。</p>

事件经过

法国AI公司Mistral于星期四发布了一个新的开源文本对语音模型,可供语音AI助手使用或在企业中使用客户支持等案例。该模式让企业建立销售和客户接触的语音代理商,将米斯特拉尔与"11Labs","Deepgram"和"OpenAI"等游戏直接竞争。

新模式称为Voxtral TTS,支持9种语言,包括英语,法语,德语,西班牙语,荷兰语,葡萄牙语,意大利语,印地语,阿拉伯语。

核心细节

“我们的客户一直在要求一个演讲模式。于是我们建造了一个小型的语音模型,可以适应智能手表,智能手机,笔记本电脑或其他边缘设备。它的成本是市场上任何其它东西的一小部分,但它提供了最先进的性能,"Mistral AI科学业务的副总裁Pierre Stock在电话采访中告诉TechCrunch。

米斯特拉尔说,新模型可以用不到5秒的样本来调整定制语音,并能够捕捉微妙的口音,暗示,内涵等特征,以及语音流出的不规则之处。该模型基于Ministry 3B,可以轻松地在语言之间切换而不会失去语音的特征,这对诸如杜撰或实时翻译等案例有用。股票公司说,公司希望这个模型能听起来像人而不是机器人。

更多背景

据公司介绍,该模型是为实时性能而建造的。它有一个时间到第一自动(TTFA)——衡量模型收到输入后何时开始"说话"——为90ms,用于10秒500个字符的样本。该模型还具有6x的实时因子(RTF),这意味着它可以在约1。6秒内制作出10秒的剪辑。

来源

NoRumor
NoRumor 致力于提供真实、准确、有深度的新闻报道与分析。我们相信,在信息泛滥的时代,高质量的内容是最稀缺的资源。每一篇报道都经过严格的事实核查,力求为读者呈现事件的全貌与深层逻辑。
真实 · 准确 · 深度

syq