除了发布该模型,他们还发布了一篇研究论文,详细说明了他们是如何实现这一切的。 在这篇 论文[1]中,他们描述了在使用纯强化学习训练模型时的一个“ aha moment”( 顿悟时刻)。在这一阶段,DeepSeek-R1-Zero( DeepSeek-R1 的首次测试版本)学会了通过重新评估 ...