Mistral 为语音生成发布新的开源模式
<p> 模式让企业为销售和客户参与建立语音代理,使Mistral与“11Labs”、“Deepgram”和“OpenAI”等产品直接竞争。</p>
Mistral 为语音生成发布新的开源模式
Daily Signal
来源:TechCrunch 原文链接:https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation 作者:Ivan Mehta 发布时间:2026-03-26T11:30:00
核心摘要
<p> 模式让企业为销售和客户参与建立语音代理,使Mistral与“11Labs”、“Deepgram”和“OpenAI”等产品直接竞争。</p>事件经过
法国AI公司Mistral于星期四发布了一个新的开源文本对语音模型,可供语音AI助手使用或在企业中使用客户支持等案例。该模式让企业建立销售和客户接触的语音代理商,将米斯特拉尔与"11Labs","Deepgram"和"OpenAI"等游戏直接竞争。
新模式称为Voxtral TTS,支持9种语言,包括英语,法语,德语,西班牙语,荷兰语,葡萄牙语,意大利语,印地语,阿拉伯语。
核心细节
“我们的客户一直在要求一个演讲模式。于是我们建造了一个小型的语音模型,可以适应智能手表,智能手机,笔记本电脑或其他边缘设备。它的成本是市场上任何其它东西的一小部分,但它提供了最先进的性能,"Mistral AI科学业务的副总裁Pierre Stock在电话采访中告诉TechCrunch。
米斯特拉尔说,新模型可以用不到5秒的样本来调整定制语音,并能够捕捉微妙的口音,暗示,内涵等特征,以及语音流出的不规则之处。该模型基于Ministry 3B,可以轻松地在语言之间切换而不会失去语音的特征,这对诸如杜撰或实时翻译等案例有用。股票公司说,公司希望这个模型能听起来像人而不是机器人。
更多背景
据公司介绍,该模型是为实时性能而建造的。它有一个时间到第一自动(TTFA)——衡量模型收到输入后何时开始"说话"——为90ms,用于10秒500个字符的样本。该模型还具有6x的实时因子(RTF),这意味着它可以在约1。6秒内制作出10秒的剪辑。
来源
syq