Koala OSS Club


TokenDagger | 高性能 tokenizer 实现


TokenDagger 是 OpenAI 的 TikToken 的一个高性能替代,专为大规模文本处理而设计。按它的文档介绍,在部分基准测试中,吞吐量是 TikToken 的两倍,在代码 Token 化的场景中速度快四倍。 如果在你的文本处理流水线中,有大规模的 token 化需求,且 TikToken 等已有实现已经成为瓶颈,那可以考虑用 TokenDagger 进行替换。