OpenPipe ART | 用强化学习训练 Agent

想让你的 LLM Agent 变得更聪明吗？OpenPipe 推出了 ART，这是一个开源的强化学习训练库，专门用来提升 LLM 在 Agent 工作流中的表现。ART 使用 GRPO 算法，让模型从自己的经验中学习。更棒的是，你可以在现有的代码库中直接运行 Agent，而把复杂的强化学习训练交给 ART 后端。点评：ART 支持市面上大多数的 LLM 模型，像是 Qwen, Gemma 等等。现在已经有使用 3B 和 7B Qwen 模型成功微调，使它们可以进行 2048、Tic Tac Toe 这样的小游戏的 Notebook 示例，可以快速上手体验，直观感少强化学习的强大之处。