LoRAX 是由 Predibase 开发的 LLM 推理引擎,其特色是可以在单个 GPU 上跑起成千上万个微调过的 LoRA 适配器,大幅降低服务成本,同时不牺牲吞吐量和延迟。它支持动态加载 LoRA 适配器,可以从 HuggingFace、Predibase 或者本地文件系统加载。LoRAX 还支持跨适配器连续批处理,也就是可以将不同适配器的请求打包到同一个批次中,优化推理性能。
点评:初创公司近期因提供了与 OpenAI 去年分享的强化微调相类似的功能而受到关注,该公司认为模型微调是 AI 产品化的必经之路,而 LoRAX 就是为大量微调场景而设计的推理引擎。