【新智元导读】最近某个华人团队发现:类似DeepSeek-R1-Zero的「顿悟时刻」,可能并不存在。类似复现实验中之所以出现响应变长现象,或许只是因为强化学习,而不是所谓的「顿悟」。 最近,「啊哈时刻」(Aha ...
【新智元导读】在人工智能的舞台上,最近发生了一件颇具争议的事:一支华人研究团队在探索DeepSeek-R1-Zero的训练机制时,得出了一个令人惊讶的结论——所谓的“顿悟时刻”似乎并没有想象中那么神秘。这个团队的研究显示,无论是训练中出现的响应时间延长还是AI模型的自我反思能力,或许都与强化学习(RL)的应用密切相关,而非真正的自我觉醒。
特工宇宙对陶博的专访文章,点击图片跳转。以下为陶博新文章正文:作为相关背景从业者(北美 PhD,前 Meta AI,目前 AI 创业),DeepSeek ...
图片来源:UnsplashZ Highlights在LoRA中,每一个专家都会被训练;而ESFT会优先微调适合做某个任务的专家,其他专家不会被过拟合,因此相比LoRA会有更强的泛化能力——让专业的人做专业的事。林纳斯说过,Talk is cheap, ...
分别是:小天才的规模化 + 华为式的军团平推 + 原创(哲学式)思想。 作为相关背景从业者(北美PhD,前 Meta AI,目前AI创业),DeepSeek ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果