Koala OSS Club


Voxtral Transcribe 2 | 语音识别新模型


Mistral 发布了 Voxtral Transcribe 2 系列,包含批量处理的 Mini 和实时转写的 Realtime 两个版本。Realtime 模型做到了 200 毫秒以内的延迟,且基于 Apache 2.0 开源。从公布的基准测试结果看,在意大利语、西班牙语等语种上错误率已经压到3%以下,中文表现相对弱一些。定价上则比 ElevenLabs 的 Scribe v2 便宜五倍。 点评:开源权重+亚秒级延迟的组合确实有竞争力,对需要本地部署的隐私敏感场景是好消息。但注意本次开源只针对 Realtime,Mini 版仍只有 API 服务。