LoRAX | 多 LoRA LLM 推理引擎

LoRAX 是由 Predibase 开发的 LLM 推理引擎，其特色是可以在单个 GPU 上跑起成千上万个微调过的 LoRA 适配器，大幅降低服务成本，同时不牺牲吞吐量和延迟。它支持动态加载 LoRA 适配器，可以从 HuggingFace、Predibase 或者本地文件系统加载。LoRAX 还支持跨适配器连续批处理，也就是可以将不同适配器的请求打包到同一个批次中，优化推理性能。点评：初创公司近期因提供了与 OpenAI 去年分享的强化微调相类似的功能而受到关注，该公司认为模型微调是 AI 产品化的必经之路，而 LoRAX 就是为大量微调场景而设计的推理引擎。