Kokoro 是一个先进的的文本转语音模型,仅有 8200 万参数,却在 TTS Spaces Arena 中排名第一。它使用不到 100 小时的音频数据进行训练,性能却超越了参数更多、数据量更大的模型。Kokoro 的 v0.19 版本已在 Apache 2.0 许可下发布,支持美式英语和英式英语,并提供了多个语音包。
点评:Kokoro 的高效表现表明,传统 TTS 模型的 scaling law 可能比预期更陡峭。它的轻量级设计和开源许可使其成为开发者和研究者的理想选择。在资源有限的情况下,它的优势也将更为明显。