Dream 7B | 开源扩散大语言模型

香港大学与华为诺亚方舟实验室联合推出了 Dream 7B，这是一个强大的开源扩散大语言模型。Dream 7B 在通用、数学和编程能力上超越了现有的扩散语言模型，并且在规划能力和推理灵活性上表现出色。与传统的自回归模型不同，Dream 7B 采用了离散扩散模型，能够在生成文本时实现双向上下文建模和灵活的可控生成。通过这种方式，Dream 7B 在解决多约束问题或实现特定目标时表现得更加有效。该模型的训练数据涵盖了文本、数学和代码，总计 5800 亿个 token，使用 96 台 NVIDIA H800 GPU 进行了 256 小时的预训练。点评：近期 Deepmind 也发布了基于扩散的大语言模型研究项目，让大家对于这一架构有了更多的兴趣。