llamafile | Mozilla 开源的单个文件运行大模型

Mozilla 的创新与实验部门在 AI 时代也开源了 llamafile 项目，该项目可以将大语言模型封装为单个二进制文件进行分发与运行。该项目的目标是将大语言模型的所有运行依赖整合到单个文件中，并基于 llama.cpp，使模型可以在更多的硬件设备上运行，降低开发者和终端用户使用大模型的门槛。以 Mistral 7B 模型为例，llamafile 可以将其封装为一个 5.15 GB 的文件，运行在多种操作系统上，同时支持 GPU 和 CPU 运行。Koala 认为：在终端设备上运行大模型是非常明确的趋势，随着模型的迭代，llamafile 将变得更有价值。llamafile 近期也在性能上做出了创新，与直接使用 llama.cpp 运行相比，还能有 1.5 倍以上的性能提升。