Cohere 发布开源转录语音模型,面向自托管部署
Cohere 发布了首个开源语音模型,主打自动语音识别和转录场景。该模型参数量为 20 亿,支持 14 种语言,面向希望自托管部署的开发者。
Cohere 推出一个专门用于转录的开源语音模型
Daily Signal
来源:TechCrunch 原文链接:https://techcrunch.com/2026/03/26/cohere-launches-an-open-source-voice-model-specifically-for-transcription 作者:Ivan Mehta
核心摘要
Cohere 发布了首个开源语音模型,主打自动语音识别和转录场景。该模型参数量为 20 亿,支持 14 种语言,面向希望自托管部署的开发者。
事件经过
这家企业 AI 公司发布的模型名为 North,定位为开源自动语音识别模型,可用于会议记录、客服分析和通用转录等任务。
由于模型规模相对较小,North 被设计成可以在消费级 GPU 上运行,适合那些希望自行部署语音模型的团队。当前支持的 14 种语言包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、中文、日语、韩语、越南语和阿拉伯语等。
核心细节
Cohere 表示,North 在 Hugging Face Open ASR 榜单上的平均词错误率为 5.42,优于 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B 等模型。
公司还称,在人工评测员对转录准确率、一致性和可用性进行打分时,North 相对其他模型的平均胜率达到 61%。不过在葡萄牙语、德语和西班牙语的翻译任务上,它仍落后于部分竞争对手。
更多背景
Cohere 称,North 可以在 1 分钟内处理约 525 分钟音频,对一个 20 亿参数级别的自托管模型来说,这一吞吐表现相当激进。
来源
syq