Kokoro | 高效文本转语音模型

Kokoro 是一个先进的的文本转语音模型，仅有 8200 万参数，却在 TTS Spaces Arena 中排名第一。它使用不到 100 小时的音频数据进行训练，性能却超越了参数更多、数据量更大的模型。Kokoro 的 v0.19 版本已在 Apache 2.0 许可下发布，支持美式英语和英式英语，并提供了多个语音包。点评：Kokoro 的高效表现表明，传统 TTS 模型的 scaling law 可能比预期更陡峭。它的轻量级设计和开源许可使其成为开发者和研究者的理想选择。在资源有限的情况下，它的优势也将更为明显。