返回国际动态

Cohere 发布开源转录语音模型,面向自托管部署

Cohere 发布了首个开源语音模型,主打自动语音识别和转录场景。该模型参数量为 20 亿,支持 14 种语言,面向希望自托管部署的开发者。

syq2026年4月6日

Cohere 推出一个专门用于转录的开源语音模型

Daily Signal

来源:TechCrunch 原文链接:https://techcrunch.com/2026/03/26/cohere-launches-an-open-source-voice-model-specifically-for-transcription 作者:Ivan Mehta

核心摘要

Cohere 发布了首个开源语音模型,主打自动语音识别和转录场景。该模型参数量为 20 亿,支持 14 种语言,面向希望自托管部署的开发者。

事件经过

这家企业 AI 公司发布的模型名为 North,定位为开源自动语音识别模型,可用于会议记录、客服分析和通用转录等任务。

由于模型规模相对较小,North 被设计成可以在消费级 GPU 上运行,适合那些希望自行部署语音模型的团队。当前支持的 14 种语言包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、中文、日语、韩语、越南语和阿拉伯语等。

核心细节

Cohere 表示,North 在 Hugging Face Open ASR 榜单上的平均词错误率为 5.42,优于 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B 等模型。

公司还称,在人工评测员对转录准确率、一致性和可用性进行打分时,North 相对其他模型的平均胜率达到 61%。不过在葡萄牙语、德语和西班牙语的翻译任务上,它仍落后于部分竞争对手。

更多背景

Cohere 称,North 可以在 1 分钟内处理约 525 分钟音频,对一个 20 亿参数级别的自托管模型来说,这一吞吐表现相当激进。

来源

NoRumor
NoRumor 致力于提供真实、准确、有深度的新闻报道与分析。我们相信,在信息泛滥的时代,高质量的内容是最稀缺的资源。每一篇报道都经过严格的事实核查,力求为读者呈现事件的全貌与深层逻辑。
真实 · 准确 · 深度

syq