D
DeepRead文字版YouTube
+ 生成报告
← 返回首页
AI 前沿

不靠堆算力——Keras之父正在用符号程序重建机器智能的地基

François Chollet: ARC-AGI-3, Beyond Deep Learning & A New Approach To ML

来源Y Combinator(Lightcone播客) × François Chollet(Keras创始人、ARC Prize创始人、Ndea Lab创始人)视频时长约57分钟报告字数4,415字阅读时间9min原始链接https://www.youtube.com/watch?v=k2ZLQC8P7dc

本报告由 AI 深度分析生成,基于视频完整字幕。

📺 原视频 约57分钟📖 本报告 4,415字⏱ 预计阅读 9min

导读

Y Combinator的Lightcone播客一贯以思辨见长。这一期请来的是整个AI圈里最与众不同的一个声音——François Chollet,他是深度学习框架Keras的创造者,是ARC Prize(目前AI领域最重要的推理基准竞赛)的发起人,也是新成立的Ndea实验室的创始人。

Chollet的独特在于:当全世界都在疯狂堆砌算力和参数时,他一个人站在对立面,说"这条路走到底是对的,但不够优雅,不够接近最优。"更重要的是,他不只是批评者——他正在亲手去建造那条他认为更对的路。

这期访谈的价值在于,它把当前AI最核心的几个争议性问题都摊开来讲清楚了:LLM的天花板在哪里?Coding Agent为什么突然变得这么有用(但这不等于模型变聪明了)?AGI到底是什么?ARC-AGI V3在测什么?以及,AGI或许只需要一万行代码。

一句话核心论点: 深度学习可能能带我们到AGI,但不是最优路径;真正的AGI是"用最少数据、学任何新任务都跟人类一样快",而不是"能自动化经济任务"。


一、Ndea:一个赌注只有10-15%的实验室在做什么

François Chollet 2024年离开Google,创立了Ndea实验室。他一开口就说:"我们成功的概率大概10%到15%,但这已经够值得去做了。"

Ndea的核心方向:程序合成(Program Synthesis) ,但这不是大家通常理解的"代码生成"。Chollet说得很直接:

"We are working at a much much lower level than that. We are trying to build a new branch of machine learning — an alternative to deep learning itself."(我们在比那更底层的地方工作。我们试图构建一个新的机器学习分支——深度学习本身的替代品。)

具体来说,深度学习的本质是:有一堆参数组成的曲线,用梯度下降(gradient descent)来拟合数据。Ndea要做的是:把参数曲线换成"尽可能简短的符号程序",并发明一种对应的搜索算法——他称之为"符号下降"(symbolic descent),是梯度下降在符号空间里的类比。

这背后有一个信息论原理:最短描述长度原则(Minimum Description Length) ——对数据解释得最好、同时又最精简的模型,才是最可能泛化的模型。深度学习的参数曲线在某种意义上"太胖了",需要太多数据来训练,泛化能力也不最优。符号程序如果足够精简,就会自然拥有更强的泛化性。

用Chollet的类比说:科学本身就是一种符号压缩过程。天文学家看了几千个行星位置观测值,最终压缩成一个方程。这就是Ndea想要在算法层面重现的东西——"我们在构建科学方法的算法化形态。"

为什么这很重要?效率。一个符号程序模型:

  • 需要的训练数据远少于神经网络
  • 推理时运行极快(模型非常小)
  • 组合性更好,泛化更强

代价是:这条路非常难。搜索符号程序空间的复杂度是指数级的,需要找到聪明的方法(Chollet的方案是用深度学习来引导符号搜索,类似AlphaZero用神经网络来引导棋盘搜索)。


二、LLM的天花板在哪里:一个关于"可验证性"的核心分类

这是这次访谈里最值得记住的框架。Chollet把所有任务分成两类:

可形式验证的任务(Formally Verifiable Domains) :答案对不对可以被机器判断,不需要人工评分。代码(跑测试、能编译)和数学(证明成立与否)都属于这类。

不可形式验证的任务:写文章、法律分析、情感回应……对不对需要人来判断,无法自动化验证。

关键洞察: 凡是可形式验证的领域,当前LLM+RL循环的技术已经能完全自动化、达到人类水平甚至超越人类。凡是不可形式验证的领域,进步会非常缓慢。

原话:

"Any problem where the solutions you propose can be formally verified — you can actually trust the reward signal — any domain like this can be fully automated with current technology."(任何提出的解决方案都能被形式验证、可以信任奖励信号的问题——任何这样的领域都可以用当前技术完全自动化。)

这解释了一切:

  • 为什么Coding Agent突然这么强:代码是可验证的,用RL循环爆量生成+验证训练数据,没有人工标注瓶颈
  • 为什么写作类AI进步缓慢:文章质量需要人打分,标注成本高,数据稀疏
  • 数学为什么是下一个爆发点:证明是可验证的,同样可以跑RL循环

三、Coding Agent为什么突然好用了——但这不是"变聪明了"

这是Chollet在这次对话里纠正的一个重要误解。

现实: 过去几个月coding agents的能力大爆炸——Claude Code、Cursor、Devin等工具已经可以独立完成复杂编程任务。

常见误解: "模型变得更聪明了。"

Chollet的解释:

"The models don't have higher fluid intelligence per se. They don't have like a higher IQ, so to speak. It's just that they're way better trained."(模型本质上并没有更高的流体智能。不是IQ更高了。只是它们被训练得更好了。)

更具体地说,发生了两件事:

  1. 从自动补全到RL训练:过去的代码模型是在预测下一个token,现在的模型是在代码执行环境里做试错——提交代码、跑测试、看结果、改代码——RL信号来自真实的代码执行,不是人工标注。

  2. 学会了执行模型(Execution Model) :模型学会了"在脑子里跑代码"——追踪变量值随执行流程的变化。这就像人类程序员看代码时的思维过程。

这个框架还有一个推论:​"智能"和"知识"可以互补。要胜任一个任务,要么靠聪明(fluid intelligence),要么靠训练充分(更多知识)。现在的模型是靠后者实现了前者的效果。Chollet自嘲:"我45岁了,也没变更聪明,但我还是能学新东西——这就是现在模型的情况。"


四、AGI的真正定义——为什么行业的主流定义是错的

目前AI行业普遍使用的AGI定义是:能自动化大多数经济上有价值的任务。Chollet认为这是个偷换概念。

"That definition is about automation, it's not about intelligence, not about general intelligence."(那个定义是关于自动化的,不是智能,更不是通用智能。)

Chollet的定义:AGI = 在任何全新任务上,以与人类相当的数据效率学习并变得胜任

关键在于"数据效率"。人类的数据效率极高——给你一个全新游戏,你不用玩一百万局,就能理解规则、制定策略、掌握游戏。当前最强的AI系统(OpenAI o3等)在特定任务上能超越人类,但它们需要的训练数据是人类的10万倍。

这也引出了一个他认为很可能发生的奇特场景:​"能自动化大多数经济任务"(行业定义的AGI)将在"真正的AGI"(Chollet定义)之前实现。换句话说,AI会先让人失业,再真正"懂得学习"。

他的时间线预测:真正的AGI(Chollet定义)大约在2030年到2030年代初


五、ARC基准的演化史——一个持续校准AI能力的仪表盘

ARC(Abstraction and Reasoning Corpus)基准是Chollet从2017年开始构思、2019年发布的,最初是"推理的ImageNet"。它的设计哲学:只依赖人类共同的先天知识(基础物理、对象、因果),排除文化符号(箭头、交通灯颜色等),测试AI在全新任务上的推理能力。

ARC V1(2019) :基础LLM得分接近0%,直到OpenAI o1/o3的推理模型出现(2024年底),才出现断层式跃升。V1是推理模型崛起的最早信号灯。

ARC V2:更复杂的推理链。被YC W26批次的Confluence Labs在几个月内用RL循环攻克——97%分数。这说明V2测的是"RL+可验证奖励"的能力,不是流体智能本身。

ARC V3(刚发布) :这是一个根本性的设计转变。

V1/V2 = 被动任务:数据已经给你,你需要找规律。 V3 = 主动任务:AI被扔进一个它从未见过的迷你视频游戏,没有说明书,不知道目标是什么,不知道控制键是什么,必须自己探索一切,并且要在人类级别的效率内搞定。

这测量的是Chollet称为"代理智能(Agentic Intelligence) ​"的东西:

  • 探索效率
  • 自主设定目标
  • 实时建模环境
  • 规划并执行

250多款游戏,全部由游戏开发者团队设计,使用专门构建的游戏引擎。游戏刻意避免借用任何已有游戏的元素,只用最基础的先验知识(物理、对象概念)。

重要机制:效率分。如果你靠暴力穷举找到了解法,但花的步数远超人类,你同样会得低分。这防止了"堆算力换分数"的取巧方式。

还有V4和V5在规划中——V4测持续学习,V5关于"发明"。ARC系列不会停止,它是跟着AI能力一起演化的移动目标。


六、如果AGI只需要一万行代码

这是访谈里最震撼的一个预测。Chollet说:

"I do believe that when we create AGI retrospectively it will turn out that it's a codebase that's less than 10,000 lines of code — and if you had known about it back in the 1980s you could have done AGI back then using the compute resources available back then."

(我相信,当我们回头看AGI被创造出来的那一刻,会发现那是一个不到一万行代码的代码库——而且如果你在1980年代就知道这个方案,用当时的计算机资源就能做AGI。)

这个预测背后的逻辑是:AGI的核心不是数据量,不是参数量,而是一个正确的算法结构——一个足够优雅的智能引擎。这个引擎本身很小,但它可以利用外部知识库(相当于LLM的参数)来获取领域知识。

类比:牛顿力学的核心也就几个方程,但能解释无数现象。深度学习是"暴力拟合所有观测数据"的方法,牛顿力学是"找到最短的符号压缩表达"的方法。Ndea在追求后者。


七、构建一个"复利研究栈"——Ndea的方法论

Chollet分享了Ndea早期建立研究体系的经验,这对任何从事前沿研究的人都有参考价值:

核心原则:建立一个复利叠加的研究栈(Compounding Research Stack)

不好的研究方式:不断尝试全新方向,每次从零开始,没有任何之前的发现可以复用。 好的研究方式:每一层工作建立在前一层之上,早期的探索结果直接服务于后续工作。

实际操作:Ndea用了大约半年时间找到了可靠的基础(深度学习引导的符号搜索),然后才开始在上面叠加层次。Chollet强调:

  • 不要过早锁定基础层,但要在某个时间点真正稳定下来
  • 真正的复利系统是:每次能力提升同时提高了未来提升能力的速率

这也是他给所有想探索非LLM路径的研究者的核心建议:从一开始就设计好"不需要人类持续介入就能进步"的机制。这是深度学习真正成功的秘密——加数据加算力就能提升,不需要工程师手动改规则。


八、行动启示

对创业者/研究者:

  • 寻找可验证奖励信号是AI应用的关键:任何你能把领域结构化为"可验证答案"的场景,都是当前AI技术可以深入改造的。Chollet说代码是第一个,数学是下一个——问你的行业有没有"像代码测试一样的东西"。
  • 逆向投资视角:去翻1970-80年代被遗忘的AI研究。遗传算法、程序合成等方向大量投资都没有收到,但当时的基础想法很多仍然有效。Chollet认为遗传算法如果现在有人认真规模化,可能会产生极好的结果。
  • 开源产品:把文档做成教程。Keras成功的关键之一是文档不只教工具,而是教整个领域。用户来到你的文档不是专家,你要让他们离开时感觉学到了真东西。雇用你的超级粉丝用户加入团队。

对个人(AI时代的生存策略):

Chollet的最后忠告,简洁有力:

"You're not going to stop AI progress. I think it's too late for that. And so the next question is: how do you make use of it? How do you leverage it? How do you ride the wave? That's the question to ask."(你无法阻止AI进步。我认为已经太晚了。所以下一个问题是:你如何利用它?如何借力?如何乘浪而行?这才是该问的问题。)

深度专业知识(尤其是编程)将成为放大器而不是被替代的东西——你懂得越多,就越能用AI工具为自己创造杠杆。


附录:金句收录

"We are probably looking at AGI 2030, around the time that we're going to be releasing maybe ARC 6 or ARC 7." 我们大概在2030年前后能看到AGI,差不多是ARC 6或ARC 7发布的时候。——François Chollet

"The models don't have higher fluid intelligence per se. They don't have like a higher IQ. It's just that they're way better trained." 模型本质上没有更高的流体智能,不是IQ更高了,只是训练得更好了。——François Chollet

"When we create AGI retrospectively it will turn out that it's a codebase that's less than 10,000 lines of code." 当我们回头看,AGI的代码库将会不超过一万行。——François Chollet

"Science is not about curve fitting. Science is about finding the most compressive symbolic model of your pile of observations." 科学不是曲线拟合。科学是从一堆观测数据中找到最简洁的符号模型。——François Chollet

"Any domain where you have verifiable rewards — you can run this loop and brute force mine the entire problem space." 任何有可验证奖励信号的领域,你都可以跑这个循环,暴力穷举整个问题空间。——François Chollet

"The way to build AGI is to remove humans from the improvement loop as much as possible." 构建AGI的方法是尽可能把人从改进循环中移除。——François Chollet

"You're not going to stop AI progress. The next question is: how do you ride the wave?" 你无法阻止AI进步。下一个问题是:你怎么乘浪而行?——François Chollet


术语表

术语解释
程序合成(Program Synthesis)从输入/输出样例自动推导出程序的技术,Ndea的核心方向
符号下降(Symbolic Descent)Ndea发明的新优化方法,是梯度下降在符号空间的类比
最短描述长度原则(MDL)信息论原理:最短的模型往往是最能泛化的模型
流体智能(Fluid Intelligence)面对全新问题时快速学习和推理的能力,不依赖已有知识
ARC(Abstraction and Reasoning Corpus)Chollet设计的AI推理基准,测量学习新模式的效率
代理智能(Agentic Intelligence)ARC V3测量的能力:主动探索、自设目标、实时建模、规划执行
可验证奖励信号(Verifiable Reward Signal)不需要人工判断、可自动判断对错的反馈机制
RL后训练循环(RL Post-training Loop)生成任务→尝试解法→验证→用成功链路微调→重复,coding agents成功的核心机制

时间线索引

时间内容
[00:00]开场:Chollet预测2030年实现AGI
[00:31]介绍Ndea实验室和核心方向
[01:30]解释程序合成:用符号模型替代参数曲线
[05:20]为什么值得探索LLM之外的路径
[07:22]Coding agents为什么突然好用:可验证奖励信号
[08:50]LLM在不可验证领域(写作、法律)的瓶颈
[10:48]AGI的真正定义 vs 行业定义
[14:00]ARC基准的起源故事
[18:20]ARC V1→V2→V3的演化逻辑
[22:49]RL循环机制详解:如何让V2被Confluence Labs攻克
[27:03]ARC V3:代理智能的测量
[31:14]ARC游戏工作室:雇游戏开发者、自研游戏引擎
[35:31]AGI只需一万行代码?关于规模的反直觉预测
[44:01]构建Ndea:复利研究栈的重要性
[46:46]ARC未来规划:V4持续学习、V5发明
[47:21]给想探索新AI范式的研究者的建议
[53:37]Keras经验:开源项目成功的秘诀
[56:39]最后忠告:如何在AI时代乘浪而行

评论

Ctrl+Enter 发送

还没有评论,来第一个留言吧 ✨