Anthropic挖走DeepMind强化学习大牛、AlphaGo中枢作家

发布日期：2024-11-04 16:20 点击次数：109

从 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor，再到最近的 Gemini 和 AlphaProof，Julian Schrittwieser 的责任后果似乎比他的名字更广为东说念主知。

今天的 AI 社区，再次被一则大佬转会音问诱骗了眼神。

在谷歌责任十年后，大名鼎鼎的谷歌 DeepMind Alpha 系列中枢作家 Julian Schrittwieser，秘书加入 Anthropic。

我很情愿地秘书，将从本周起加入 Anthropic！Claude 是我发现我方一直在使用的第一个 LLM。最近，我被《Artifacts》和《Computer Use》以及 Claude 握住擢升的手段深深震撼了。

我终点运道地参与了谷歌 DeepMind 往常 10 年的奇妙旅程，在那边我参与了许多令东说念主昂然的名堂，这是我作念梦齐念念不到的：从 AlphaGo 到 AlphaZero 和 MuZero 的据说；还有许多的应用参议，如 AlphaCode 和 AlphaTensor，以及最近的 Gemini 和 AlphaProof。我信服，那边的团队也将持续创造惊东说念主的成就，我迫不足待地念念一谈判竟！

Julian Schrittwieser 的跳槽，不错说是近期范畴内最为惊东说念主的一则音问，因为 Julian Schrittwieser 在 DeepMind 里面的地位生命关天。更令东说念主酷爱的是，Anthropic 是怎样吸收到这么一位顶尖东说念主才：

岂论历程怎样，这一定是 Anthropic 最「超值」的一次招聘：

在 DeepMind 出生以来的数年中，「Alpha 系列后果」一直是该团队最明慧的前沿后果。而 Julian Schrittwieser 是这些伟大成就中不成漠视的孝顺者。

2016 年，DeepMind 开导的 AlphaGo 以 4：1 打败寰宇顶级围棋棋手李世石（Lee Se-dol），成为颠簸环球的东说念主工智能里程碑事件。Julian Schrittwieser 参与撰写了第一篇对于 AlphaGo 的里程碑式论文。

《AlphaGo 4:1 驯顺李世石，咱们需要更好的一语气东说念主工智能》

2017 年，在 AlphaGo 与柯洁的比赛之后，DeepMind 秘书退役 AlphaGo，自学成才的 AlphaGo Zero 以 100:0 打败了早期的竞技版 AlphaGo，Julian Schrittwieser 是 AlphaGo Zero 论文的第二作家，也负责了从主搜索算法、覆按框架到对新硬件的守旧等责任。

《无需东说念主类常识，DeepMind 新一代围棋神态 AlphaGo Zero 再次登上 Nature》《DeepMind AlphaGo Zero 引爆业内，创造者现身 Reddit 问答》

而 AlphaGo Zero 随后被拓展为一个名为 AlphaZero 的神态。2017 年底，DeepMind 追究发表了 AlphaZero，这是一种不错从零驱动通过 Self-Play 强化学习在多种任务上达到特出东说念主类水平的算法。该算法经过不到 24 小时的覆按后，即可在海外象棋和日本将棋上打败此前业内顶尖的策画机神态（这些神态早已特出东说念主类寰宇冠军水平），也节略打败了覆按 3 天时刻的 AlphaGo Zero。

《不仅仅围棋！AlphaGo Zero 之后 DeepMind 推出泛化强化学习算法 AlphaZero》

2020 年，DeepMind 发表了 MuZero。在不具备任何底层动态常识的情况下，该算法通过连合基于树的搜索和学得模子，不仅在海外象棋、日本将棋和围棋的精准谋略任务中匹敌 AlphaZero，还在 30 多款雅达利游戏中展示出了特出东说念主类的进展。Julian Schrittwieser 是 MuZero 论文《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》的中枢作家之一。

《通用 AlphaGo 出生？DeepMind 的 MuZero 在多种棋类游戏中特出东说念主类》

2022 年 2 月，DeepMind 发布了基于 Transformer 模子的 AlphaCode，不错编写与东说念主类相比好意思的策画机神态。包括 Julian Schrittwieser 在内的多位作家后续又在《Science》上发表了论文。

《卷起来了！DeepMind 发布比好意思普通神态员的 AlphaCode，同日 OpenAI 神经数学解释器拿下奥数题》《DeepMind 携 AlphaCode 登 Science 封面，写代码能力不输神态员》

2022 年 10 月，DeepMind 建议了 AlphaTensor，第一个可用于为矩阵乘法等基本任务发现新颖、高效且可解释正确的算法的东说念主工智能系统，并揭示了 50 年来在数学范畴一个悬而未决的问题，即找到两个矩阵相乘最快规范。AlphaTensor 树立在 AlphaZero 的基础上，展示了 AlphaZero 从用于游戏到初次用于科罚未科罚的数学问题的一次震动。

《强化学习发现矩阵乘法算法，DeepMind 再登 Nature 封面推出 AlphaTensor》

2023 年 6 月，谷歌 DeepMind 发布了 AlphaDev，这种全新的强化学习系统发现了一种比以往更快的哈希算法。Julian Schrittwieser 亦然 AlphaDev 项主张中枢参与者之一。

《AI 重写排序算法，速率快 70%：DeepMind AlphaDev 翻新策画基础，每天调用万亿次的库更新了》

2024 年 7 月，谷歌 DeepMind 团队研发的 AlphaProof 和 AlphaGeometry 2 在 IMO 竞赛上共同终昭着里程碑式的梗阻。AlphaProof 是一种用于体式化数学推理的强化学习系统，而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改革版块。追究比赛中，AlphaProof+AlphaGeometry 2 组合成的 AI 系统在几分钟内就科罚了东说念主类参赛选手需要几个小时才能科罚的问题。

《谷歌 AI 拿下 IMO 奥数银牌，数学推理模子 AlphaProof 面世，强化学习 is so back》

8 年前，基于强化学习的 AlphaGo 申明大噪；8 年后，强化学习在 AlphaProof 中再次大放异彩。2016 年 AlphaGo 论文的中枢成员 Julian Schrittwieser、Aja Huang、Yannick Schroecker，如今亦然 AlphaProof 的中枢孝顺者。有东说念主在一又友圈惊叹说：RL is so back！

业内浩繁觉得，OpenAI o1 诓骗的时刻流弊也在于强化学习的搜索与学习机制，这记号着 RL 下 Post-Training Scaling Law 的时期追究到来。正如《The Bitter Lesson》所说，唯有搜索和学习这两种学习范式能够跟着策画能力的增长无穷彭胀。强化学习当作这两种学习范式的载体，怎样能够在终了可彭胀的 RL 学习（Scalable RL Learning）和强化学习彭胀划定（RL Scaling Law），将成为进一步梗阻大模子性能上限的流弊路线。

这或者等于 Calude 团队吸收 Julian Schrittwieser 的起点。o1 研发团队在采访中也谈到过，OpenAI 很早就受到 AlphaGo 的启发，坚决到了深度强化学习的纷乱后劲，并在有关标的参预了无数参议力量。

当作 RL 范畴的深耕者，Julian Schrittwieser 又会率领 Claude 团队作念出怎样的后果呢？让咱们翘首跂踵。

参考相连：https://www.furidamu.org/blog/2024/10/28/joining-anthropic/

上一篇：筑权网商标AI起名：开启品牌定名新期间

下一篇：礼聘好的母线槽厂家时，您不错辩论以下几个方面

让建站和SEO变得简单

Anthropic挖走DeepMind强化学习大牛、AlphaGo中枢作家