Llama 3.2 | 轻量级量化模型

Meta 发布了量化后的 Llama 3.2 1B 和 3B 模型，这些新模型专为设备端和边缘部署设计，体积更小，速度更快，且能在移动设备上高效运行。这些模型的内存占用减少了 41%，推理速度提升了 2-4 倍，适合 8K 上下文的短文本应用。开发者可以轻松在移动 CPU 上部署，借助 QLoRA 训练和 SpinQuant 后处理技术，模型在低精度环境中依然保持良好性能。Koala 认为：这些量化后的 Llama 模型为资源受限的设备带来了新的可能，不仅速度提升，数据隐私也得以保证。在支持移动端低功耗运行的基础上，开发者可以通过 Llama 实现快速、私密的数据处理。