Easy Dataset 是一个专门用于制作 LLM 微调数据集的工具,可以上传 PDF、Markdown 等文档,自动完成文本分块、问题生成和答案构建。它支持可视化编辑和多种导出格式,兼容 OpenAI 格式的 API,还配套了与 LLaMA Factory 结合使用的教程。点评:对于需要快速构建领域数据集的团队来说确实降低了门槛,但合成数据的质量仍然依赖于底层模型的能力,多样性上也存在挑战,批量生成后的人工审核依然不可省略。另外需要注意的是,项目采用 AGPL 协议,需评估是否适用于自己的商业项目。