Koala OSS Club


OpenPipe ART | 用强化学习训练 Agent


想让你的 LLM Agent 变得更聪明吗?OpenPipe 推出了 ART,这是一个开源的强化学习训练库,专门用来提升 LLM 在 Agent 工作流中的表现。ART 使用 GRPO 算法,让模型从自己的经验中学习。更棒的是,你可以在现有的代码库中直接运行 Agent,而把复杂的强化学习训练交给 ART 后端。 点评:ART 支持市面上大多数的 LLM 模型,像是 Qwen, Gemma 等等。现在已经有使用 3B 和 7B Qwen 模型成功微调,使它们可以进行 2048、Tic Tac Toe 这样的小游戏的 Notebook 示例,可以快速上手体验,直观感少强化学习的强大之处。