香港大学与华为诺亚方舟实验室联合推出了 Dream 7B,这是一个强大的开源扩散大语言模型。Dream 7B 在通用、数学和编程能力上超越了现有的扩散语言模型,并且在规划能力和推理灵活性上表现出色。与传统的自回归模型不同,Dream 7B 采用了离散扩散模型,能够在生成文本时实现双向上下文建模和灵活的可控生成。通过这种方式,Dream 7B 在解决多约束问题或实现特定目标时表现得更加有效。该模型的训练数据涵盖了文本、数学和代码,总计 5800 亿个 token,使用 96 台 NVIDIA H800 GPU 进行了 256 小时的预训练。
点评:近期 Deepmind 也发布了基于扩散的大语言模型研究项目,让大家对于这一架构有了更多的兴趣。