Mozilla 的创新与实验部门在 AI 时代也开源了 llamafile 项目,该项目可以将大语言模型封装为单个二进制文件进行分发与运行。该项目的目标是将大语言模型的所有运行依赖整合到单个文件中,并基于 llama.cpp,使模型可以在更多的硬件设备上运行,降低开发者和终端用户使用大模型的门槛。以 Mistral 7B 模型为例,llamafile 可以将其封装为一个 5.15 GB 的文件,运行在多种操作系统上,同时支持 GPU 和 CPU 运行。Koala 认为:在终端设备上运行大模型是非常明确的趋势,随着模型的迭代,llamafile 将变得更有价值。llamafile 近期也在性能上做出了创新,与直接使用 llama.cpp 运行相比,还能有 1.5 倍以上的性能提升。