Math AHA - 搜索 News

2 天

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

【新智元导读】最近某个华人团队发现：类似DeepSeek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为强化学习，而不是所谓的「顿悟」。最近，「啊哈时刻」（Aha ...

2 天

【新智元导读】在人工智能的舞台上，最近发生了一件颇具争议的事：一支华人研究团队在探索DeepSeek-R1-Zero的训练机制时，得出了一个令人惊讶的结论——所谓的“顿悟时刻”似乎并没有想象中那么神秘。这个团队的研究显示，无论是训练中出现的响应时间延长还是AI模型的自我反思能力，或许都与强化学习（RL）的应用密切相关，而非真正的自我觉醒。

腾讯网4 天

DeepSeek 创新三重门

特工宇宙对陶博的专访文章，点击图片跳转。以下为陶博新文章正文：作为相关背景从业者（北美 PhD，前 Meta AI，目前 AI 创业），DeepSeek ...

腾讯网2 天

前DeepSeek科学家万字大揭秘，RL与MoE如何点燃大模型革命

图片来源：UnsplashZ Highlights在LoRA中，每一个专家都会被训练；而ESFT会优先微调适合做某个任务的专家，其他专家不会被过拟合，因此相比LoRA会有更强的泛化能力——让专业的人做专业的事。林纳斯说过，Talk is cheap, ...

5 天

DeepSeek的创新三重门

分别是：小天才的规模化 + 华为式的军团平推 + 原创（哲学式）思想。作为相关背景从业者（北美PhD，前 Meta AI，目前AI创业），DeepSeek ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果