Voxtral Transcribe 2 | 语音识别新模型

Mistral 发布了 Voxtral Transcribe 2 系列，包含批量处理的 Mini 和实时转写的 Realtime 两个版本。Realtime 模型做到了 200 毫秒以内的延迟，且基于 Apache 2.0 开源。从公布的基准测试结果看，在意大利语、西班牙语等语种上错误率已经压到3%以下，中文表现相对弱一些。定价上则比 ElevenLabs 的 Scribe v2 便宜五倍。点评：开源权重+亚秒级延迟的组合确实有竞争力，对需要本地部署的隐私敏感场景是好消息。但注意本次开源只针对 Realtime，Mini 版仍只有 API 服务。