7M 参数 + 1000 样本击败 o3:YC 拆解为什么 Recursion 是下一代 AI scaling law
Recursion Is The Next Scaling Law In AI
本报告由 AI 深度分析生成,基于视频完整字幕。
导读
5 月 1 日 DeepRead 发布了 TheAIGRID 关于 Grok 5 的报告,5 月 2 日发布了 Matthew Berman 关于 DeepSeek V4 的报告——两者都在讲"小模型 / 高效率怎么挑战大模型 / 重投入"的同一主题,但都停留在产业经济学层面。
这一篇 Y Combinator《Decoded》节目的对话,是这个主题在底层架构层的论证。如果你看完前两篇仍然觉得"DeepSeek 便宜也只是一时的便宜,OpenAI 加把劲就追回来了",** 这一篇会让你重新校准这个判断**——因为 2025 年出现的两篇研究论文(HRM 和 TRM)已经证明:
一个 7 百万参数(注意单位是百万不是亿)、只用 1000 个训练样本、完全没有预训练的模型,可以在 ARC Prize 这种"专门测试推理能力"的基准上击败 OpenAI o3。
这不是"DeepSeek 用 1/10 价格做到 95% 智能"那种工程优化——这是架构层面的根本性突破。它意味着 Sam Altman 那句"我们将达到 AGI 的关键是堆更多算力"可能从根上是错的方向。
视频两位说话者都来自 Y Combinator——一个全球最知名的科技创业孵化器。能在 YC 出品的节目里看到这种深度技术对话很罕见——通常 YC 的视频是讲创业、融资、产品。这一期之所以值得 YC 出,是因为他们看到了一个对所有 AI 创业者都至关重要的信号:底层范式可能在转向。
如果你是投资人、创业者,或者只是关心"AI 这一波到底会怎么演变"的普通读者,这 37 分钟的硬核技术对话浓缩了过去 18 个月最重要的研究突破。本报告把它从工程语言翻译成你能消化的判断。
核心观点速览
-
LLM 在解决"压不下去"的问题上有根本天花板:sorting、Sudoku、mazes、rolling sum 这些问题数学上不可能用一次 forward pass 解决。视频开头的硬核论证:如果你的 transformer 有 30 层,但你要排序 31 个元素,** 不管模型多聪明、参数多大都不行**——你跑不出比较次数。
-
Chain of Thought(思维链)是个 hack 不是答案:表面看起来 LLM 让 ChatGPT 一步步"想"就能解 Sudoku,但这只是用 token 输出空间临时充当"工作记忆"——本质上是用人类标注的解题轨迹"教"模型每一步怎么走。没有人类轨迹的问题(比如未解的数学千禧年难题),LLM 完全无法自学。
-
HRM 和 TRM 两篇 2025 论文证明了递归回归的力量:HRM(27M 参数 / 27M 不是 27B / Sapient 团队 8 月发表)和 TRM(7M 参数 / Alexia Jolicoeur-Martineau / Samsung SAIL)** 只用 1000 个训练样本、零预训练**,就在 ARC Prize 上击败了 OpenAI o3。TRM 在 ARC-1 上达到 87%——比 HRM 的 70% 还高,模型却小了 4 倍。
-
关键技术 trick:Truncated Back-Prop Through Time = 1:传统 RNN 训练有"梯度消失"问题——必须把整条递归链反向传播,导致模型不能太深。HRM/TRM 的反直觉做法是只反向传播最后一步(t=1),其余全部 stop gradient。这看似数学上不严谨,但实证有效——视频里的两位 ML 专家都承认"我们其实不知道为什么它能 work,但它确实 work"。
-
下一代 scaling law = "更大 + 更深递归"组合拳:嘉宾的判断是 LLM 派系(OpenAI / Anthropic / Google)和 RNN 派系(HRM / TRM 这条线)会最终融合——大型模型负责把 token 映射到漂亮的 latent space,小型递归模型负责在 latent space 里做高效推理。"Bigger is sufficient but not necessary"——大不是必须的,递归才可能是必须的。
主体
一、问题的起点:为什么 LLM 不能解 Sudoku
视频开场嘉宾用了一个非常精确的例子让你立刻明白 LLM 的根本天花板:
"如果你拿无限多的'未排序列表 → 已排序列表'数据对喂给 transformer,它能学会排序吗?"
直觉答案是"应该可以"。真实答案是:数学上不可能。
理论支持:比较排序的下界是 n log n 步。如果你的列表有 31 个元素,至少要做 log₂(31!) ≈ 113 次比较。但你的 transformer 只有比如 30 层——每一层最多做一组比较。所以即使训练得完美,模型也跑不出足够的比较步数。层数是天花板,无关参数量大小。
同样的"压不下去"(incompressible)问题还有:
- Sudoku(数独):每填一个格子都需要扫描全局已知信息
- 迷宫(mazes):每一步路径选择都依赖前面所有步骤
- rolling sum(滚动求和):每个位置的答案都依赖前面所有位置
这些问题有一个共性:没法用一次"看一眼整体 → 直接给答案"的 forward pass 解决。它们必须迭代——一步一步推理、一次一次更新工作记忆。
LLM 怎么"假装"能解这些问题?两个 hack:
Hack 1:Chain of Thought(思维链)
让模型一步一步把"想法"输出成 token,下一步再把这些 token 当成新输入。这等于用 token 输出空间做"外置工作记忆"。
- 缺点:必须有人类的解题轨迹做训练数据。没解过的问题(千禧年难题、新型数学定理)没人类轨迹 → 完全卡死。
Hack 2:Tool Use(工具调用)
直接让 LLM 调一个 sort() 函数。
- 缺点:你预设了"已经存在 sort 函数"。LLM 自己不会发明 sort——只会调用人类发明的现成工具。
"In the event it's outside the set of human knowledge, then like you're kind of so." (一旦这个问题超出了人类知识的范围,你就完了。) ——嘉宾对 Chain of Thought 和 Tool Use 两个 hack 的根本判断
这一段看似只是讲 sorting 算法,实际是揭示了当前主流 AI 路径(LLM + RAG + tools)的认知天花板:它本质上只能"重组人类已有的知识",无法从零自主探索全新的解决方案。
如果你看了昨天 Matthew Berman 关于 DeepSeek 的报告,会注意到他强调的是"够用就行"的商业逻辑。今天这一篇更狠——它说"够用"对很多任务而言永远不够,因为某些问题在 LLM 架构下数学上就无解。
二、HRM:27M 参数模型怎么击败 o3
要理解 HRM 这件事多反直觉,先看对比:
| 模型 | 参数量 | 训练数据 | 预训练 | ARC Prize 1 成绩 |
|---|---|---|---|---|
| OpenAI o3(2024 末) | ~万亿级 | 全网 | 完整 | ~70% |
| HRM(Sapient,2025) | 27M(百万) | ~1000 个 ARC 任务 | 零 | 击败 o3 |
| TRM(Samsung SAIL,2025) | 7M | 同上 | 零 | 87% |
这个数字差 5-6 个数量级。把它换算成日常生活的类比:相当于一辆配 50cc 摩托车引擎的小车,跑赢了一辆 V12 超跑。这在过去 5 年的深度学习历史里是不可想象的。
HRM 的核心思想:3 层递归循环
HRM 来自一个生物启发——大脑不同区域以不同频率运转。高频区做快速、低层次的计算;** 低频区**做缓慢、高层次的整合。HRM 把这个翻译成两个网络:
Level 1: 低层网络 L-Net(高频,做底层 perception)
Level 2: 高层网络 H-Net(低频,做整合 reasoning)
Level 3: Outer Refinement Loop(外部精炼,反复迭代)
伪代码(用嘉宾的术语):
for n in range(N_outer): # 第三层:外层精炼
for h in range(T_high): # 第二层:高层迭代
for l in range(T_low): # 第一层:低层迭代
ZL = L_Net(ZL, ZH, X) # 低层用当前 ZH 和输入 X 更新
ZH = H_Net(ZH, ZL) # 高层用最新 ZL 更新
output = decode(ZH) # 用 ZH 解码答案
注意一个关键点:所有 N×T_high×T_low 次循环都用同一组权重。这就是"recursion(递归)"——同一个函数反复调用自己,直到答案收敛。
这种结构和 Transformer 的差异:
- Transformer = "深度" → 每一层不同的权重,N 层就是 N 组参数
- HRM = "循环深度" → 同一组权重反复用,深度可以无限长但参数量不变
ARC Prize 是什么测试?
ARC(Abstraction and Reasoning Corpus)是 François Chollet 设计的"抗记忆"AI 测试——每个任务都是几个例子组成的视觉模式题,AI 看几个示例后必须推断出规律并应用到新题上。** 它专门设计成不能靠"背训练数据"通过**。
OpenAI o3 在 ARC 1 上达到 ~70% 是个里程碑(之前 GPT-4 都是 0%)。但 HRM 27M 参数模型用 1/10000 计算成本就达到了同样水平,TRM 7M 参数甚至超过了 87%——这才是视频真正的震撼点。
三、Truncated Back-Prop Through Time:HRM 的反直觉训练 trick
这一节有一定技术深度但值得普通读者理解——因为它揭示了为什么 HRM 在 2025 年才突破,10 年前做不出来。
问题:训练 RNN 的根本难题
想象你要训练 HRM,第三层 outer loop 跑 16 次、第二层跑 4 次、第一层跑 4 次——总共 256 次递归调用。传统训练方法叫 BPTT(Back-Prop Through Time,时间反向传播):
算 loss → 把梯度从最后一步反向传播到第一步 → 更新权重
问题:256 步反向传播 = 256 次矩阵乘法 = 梯度要么消失(→0)要么爆炸(→∞) 。这是 RNN 时代(2014-2016)的核心痛点,也是为什么 Transformer 在 2017 年出现后能横扫所有 NLP 任务——Transformer 用 attention 替代了 RNN,根本绕开了 BPTT 难题。
HRM 的反直觉解法:只反向传播最后一步(t=1)
HRM 团队(Sapient)发明了一个看似不合理的训练方法:
正向:跑完整 256 步递归,得到答案
反向:只更新最后 1 步的梯度,前面 255 步全部 stop_gradient(不更新)
直觉上这怎么可能 work?梯度信号只覆盖了 1/256 的计算步骤。但实证发现它就是 work。
视频里两位嘉宾的承认:
"It actually does make sense and I'll explain why... it follows DEQ directly in the event that the ZL and the delta in ZL and the delta in ZH go to zero. Which it actually just doesn't do, and so we'll get to TRM but Alexia basically shows that it's just not the case... we actually don't know why it's really working."
(这其实有点道理⋯它直接跟随 DEQ 理论——前提是 ZL 和 ZH 的变化趋于零。但实际上它们并不趋于零——所以我们其实不知道为什么它真的能 work。)
这是当前深度学习研究的常态——很多最有效的技术都是"实证有效但理论解释不完善"。这恰恰说明 AI 研究还有大量未被理解的空间。
为什么这个 trick 重要?因为它释放了递归深度的天花板——现在你可以让模型做几千次甚至几万次递归而不会爆掉,计算深度和参数量解耦了。
四、TRM:再简化、再缩小、性能反而提升
HRM 出来不到几个月,Samsung SAIL 的研究员 Alexia Jolicoeur-Martineau 发了 TRM(Tiny Recursive Model)论文。她的做法是把 HRM 删掉 75%,只保留核心精华——结果性能反而提升。
TRM 的简化:
| 维度 | HRM | TRM |
|---|---|---|
| 参数量 | 27M | 7M |
| L-Net + H-Net | 两个独立网络 | 合并成一个 net(共享权重) |
| 层数 | 4 层 transformer | 1 层 transformer |
| 反向传播深度 | 只 1 步 | 回到完整 1 个 latent recursion 步骤 |
| ARC Prize 1 成绩 | ~70% | 87% |
| ARC Prize 2 成绩 | 一般 | 更好 |
关键 insight 1:低层和高层用同一个网络
直觉上你会觉得"高频细节"和"低频整合"是两种不同任务,需要两个网络。实证发现一个网络就够了——只要 hidden state(隐藏状态)有"低层 ZL"和"高层 ZH"两套就行。网络共享,状态分离。
关键 insight 2:Outer Refinement Loop 才是真正起作用的部分
HRM 论文有 3 层递归。Constantine(NDEA 工程师)后续做了详细 ablation 实验,发现真正决定性能的只有第三层 outer refinement loop——内层的 T_high / T_low 设成 2 完全够用,再多没用。
"Outer refinement loops is the main beneficiary, is the main reason why these things work so well." (Outer refinement loop 是核心受益方,是这些方法工作得这么好的根本原因。)
这个发现让 TRM 进一步简化——模型小了 4 倍,性能升了 17 个百分点。
关键 insight 3:测试时算力 vs 训练时算力
另一个反直觉发现:训练时 outer loop 跑 16 次很重要,但测试时跑 1 次就够拿到几乎全部性能——多跑只是浪费算力。
这意味着 TRM 模型的"思考成本"实际上极低——用户用它解一个 Sudoku 几乎不需要算力,所有的"思考能力"都已经被压缩进了 7M 参数里。
五、Chain of Thought 是 Hack 不是答案:为什么这个判断很重要
视频中段嘉宾对 Chain of Thought(思维链,CoT)有一个非常尖锐的判断,值得单独拎出来讨论。
CoT 的工作原理:让 LLM 输出"我先想 A,然后想 B,所以答案是 C"——这等于把推理过程显式化为 token 序列。
为什么它是 hack 不是答案?
"In both cases, both hacks to solve this in CoT and tool use, you're bounded by the bounds of human knowledge. In the event it's outside the set of human knowledge, then like you're kind of so."
(CoT 和 tool use 这两个 hack 都受人类知识边界的束缚。一旦问题超出人类知识范围,你就完了。)
具体例证(嘉宾自己做过的实验):
- 假设我们只教 LLM "冒泡排序"(O(n²))的训练数据
- LLM 通过 CoT 能学会冒泡排序
- 但 LLM 永远不会自己发明出归并排序(O(n log n))—— 因为它没见过归并排序的轨迹
"Chain of thought is not going to inherently discover sorting from first principles. It's it's finding it from historical knowledge of everything it's trained on."
(Chain of Thought 不会从第一性原理"发现"排序算法。它只是在它训练过的所有历史知识里查找而已。)
这是一个深刻的认知边界:LLM 的"推理"本质是高效检索 + 模式重组,不是创造。当人类还没解决某个问题时(千禧年难题、未发明的算法、未发现的物理定律),LLM 永远跟在后面。
而递归模型不一样:
- HRM/TRM 没看过 Sudoku 解法的"教学步骤"
- 它只看过"Sudoku 题面 + 完成的网格"
- 通过递归优化,它自己摸索出了解 Sudoku 的内在算法
- 这是真正的发现,不是"重组人类已有的解题步骤"
"That's why it's cool because it actually is able to discover things without being teacher forced via chain of thought."
(这就是它酷的地方——它真的能自己发现答案,而不是被 chain of thought 喂着学会。)
如果这个判断成立,那意味着 AI 的"自主科研能力"——发现新数学定理、自主合成新药、设计新材料——可能不会从 LLM 这条路上突破,而要从 HRM/TRM 这条路上突破。
六、未来:LLM × Recursion = 下一代 Scaling Law
视频最后一节是嘉宾的展望,也是这一篇报告标题的来源。他的核心判断:
"Bigger is sufficient but not necessary. Adding more recursion is also sufficient but not necessary. Where I'm really excited is what happens if you do both."
("更大"是充分但不必要的。"加更多递归"也是充分但不必要的。真正让我兴奋的是——如果两者结合会怎样。)
他设想的未来架构:
[超大型 LLM] ← 把 token / pixel 映射到漂亮的 latent space
↓
[小型递归模型] ← 在 latent space 里做高效深层推理
↓
[输出答案]
为什么这个组合特别强?
- LLM 的强项:把混乱的输入(自然语言、图片)转成结构清晰的 latent representation。这个能力来自巨量数据 + 巨量参数,没法被 7M 模型替代。
- HRM/TRM 的强项:在结构清晰的 latent space 里做深层递归推理。这个能力来自架构设计,不依赖参数规模。
两者的瓶颈互补:LLM 在 reasoning 维度上撞墙,HRM 在 perception 维度上偏弱。组合起来,两边的天花板都被打破。
"What you can imagine is we found mapping from token space or from vision from pixels some really cool latent space where things are just nicely semantically separated... but now in that space use this like tiny reasoning models, use some type of recursion inside that, and train those that small model on that reasoning space. I think that's really going to work."
(想象一下:我们已经找到了把 token / 像素映射到漂亮 latent space 的方法⋯但现在在那个 space 里用小型递归模型做推理——我觉得这个组合一定会成功。)
对产业的含义:
如果这个方向成立,AI 行业可能出现三个连锁变化:
-
算力垄断不等于 AI 垄断:OpenAI / Anthropic 烧的万亿美元只能让 LLM 更大、latent space 更好——但真正的 reasoning 突破可能来自 7M 参数的小研究团队。这削弱了"AI 必然走向几家寡头"的预期。
-
架构创新窗口重新打开:过去 5 年大家都在跟 transformer 内卷(更深、更宽、更多 attention 变体)。HRM/TRM 证明不基于 transformer 的架构也能在前沿任务上拿到 SOTA。这可能让学术研究的 ROI 重新提高——一篇论文 + 7M 模型就能改写历史,不需要 10 万张 H100。
-
算法层效率成为新护城河:Matthew Berman 5/2 报告说 DeepSeek 的真正优势是"算法效率被 export controls 逼出来的"。今天这篇视频的论证更深一层:架构层效率才是真正的下一代差异化。中国团队(Sapient 是中美混合,TRM 来自三星)可能在这条赛道上不输 OpenAI。
七、独立判断:Recursion 派的盲区与开放问题
任何研究路径都有局限。我把视频里没充分展开但值得读者警惕的点单独列出:
盲区 1:HRM/TRM 是 task-specific(任务专用)模型,不是 general-purpose
视频末尾主持人主动提出了这一点:
"The model trained to do Sudoku cannot do ARC Prize inherently. It has to be trained on the ARC Prize set to do so." (训练来解 Sudoku 的模型不能解 ARC——必须在 ARC 数据集上训练才能解。)
这是个非常大的限制。LLM 的核心价值之一是 generality(通用性) ——一个模型能写代码、写诗、做数学、聊天。HRM/TRM 现在做不到这一点——每个具体任务都要单独训练一个模型。
如果未来"LLM × Recursion"的融合方向不成功,HRM/TRM 这条路可能只能做"专业 AI 模块"——比如某个 Sudoku 加速器、某个 maze solver——而不可能成为大众消费品。
盲区 2:理论解释不完善
嘉宾自己承认 truncated BPTT (t=1) 为什么 work "我们其实不知道"。这意味着:
- 没法预测什么任务上 work、什么任务上不 work
- 没法做精细的超参数 tuning(只能 grid search)
- 没法预测 scaling 行为(参数量翻倍会带来什么提升?)
这个不确定性可能让产业界谨慎采用——没人愿意把核心业务建立在"我们不知道为什么 work 但它 work"的技术上。
盲区 3:ARC Prize 也不是终极测试
ARC 是一个视觉推理基准——有限的几种网格、有限的几种变换规则。它的成功不一定迁移到自然语言、复杂物理模拟、跨领域类比。
视频里提到的 Sudoku、mazes、rolling sum 也都是结构化、规则明确的任务。HRM/TRM 在开放性问题("写一段感人的散文"、"设计一个新的产品定位")上的表现完全没被验证。
盲区 4:训练数据稀缺会变成瓶颈
LLM 时代的"军备"是数据。HRM/TRM 表面上"只需要 1000 个样本"——但那是因为 ARC 这种任务每个样本信息量极大。换到一个新任务(比如"训练 AI 解多元微积分题"),你需要构造的高质量训练样本可能依然是百万级的。"小模型 + 小数据"不是免费午餐。
盲区 5:商业化路径不清晰
如果你是 YC 创业者看这期视频,可能会想"我能用 HRM/TRM 做什么产品?"——目前真不好回答。它不是 LLM 的替代品(不能聊天),也不是 reasoning engine 的下一代(缺 generality)。它更像一个"组件式技术",等着被融入到更大的系统里。
真正的机会可能在 2-3 年后——当 LLM × Recursion 的融合架构出现并工业化时。现在押注 HRM/TRM 创业还太早。
金句收录
"It's actually impossible for the model to map from unsorted list to sorted lists if I have... a transformer that's 30 layers and a list that's 31 characters long. I run out of steps to do comparisons." (如果我有一个 30 层的 transformer,但要排序 31 个元素,这个映射数学上就不可能——你跑不出足够的比较次数。) ——揭示 LLM 根本天花板的一句
"Chain of thought is not going to inherently discover sorting from first principles. It's finding it from historical knowledge of everything it's trained on." (Chain of Thought 不会从第一性原理"发现"排序算法。它只是在训练过的历史知识里查找。) ——对 LLM 推理本质的尖锐定性
"In the event it's outside the set of human knowledge, then like you're kind of so." (一旦问题超出人类知识范围,你就完了。) ——对 CoT + Tool Use 两个 hack 的根本判断
"This was a only a 27 million parameter model that was only trained on uh ARC prize. There is no pre-training at all. This is starts from like literally tabula rasa weights, and it can outperform o3 at the time." (HRM 只有 2700 万参数、只在 ARC Prize 上训练、零预训练,从字面意义的白板开始——它击败了当时的 o3。) ——本视频最震撼的数据点
"Bigger is sufficient but not necessary. And it is sufficient and not necessary to add more recursion. Where I'm really excited is what happens if you do both." ("更大"是充分但不必要的。"加更多递归"也是充分但不必要的。真正让我兴奋的是——两者结合会怎样。) ——下一代 scaling law 的核心论点
"That's why it's cool because it actually is able to discover things without being teacher forced via chain of thought." (这就是它酷的地方——它真的能自己发现答案,而不是被 chain of thought 喂着学会。) ——HRM/TRM 与 LLM 推理本质区别的总结
"We actually don't know why it's really working." (我们其实不知道它为什么能 work。) ——对 truncated BPTT (t=1) 训练 trick 的诚实承认
"The right answer is to like take the amazingness here and take the amazingness here, which probably is already in Gemini already... when you take the benefit of both these TRM and these giant models and you actually slam them together, I think that it's just going to take off." (正确答案是把两边的优势组合起来——这可能已经在 Gemini 里部分实现了。一旦把 TRM 和巨型模型真正融合,我认为它将彻底起飞。) ——对 LLM × Recursion 融合方向的乐观判断
时间线索引
[00:00]开场:介绍 recursion 的两篇关键论文(HRM + TRM)[00:42]嘉宾介绍 RNN 的历史(peak 是 2016 年 Alex Graves Neurips keynote)[01:21]为什么 LSTM/RNN 时代被终结:vanishing/exploding gradient[02:55]对比 LLM Transformer:feed-forward 一次性处理所有 time step[03:23]LLM 的代价:失去 latent reasoning + 无法在时间维度压缩[04:00]LLM 的根本局限:解不了 incompressible problem[04:43]用 sorting 例子证明:30 层 transformer 不能排序 31 元素[05:53]Tape / external memory 的类比(Turing Machine)[07:47]HRM 介绍:3 层递归(L-Net / H-Net / Outer Refinement)[09:50]HRM 关键数据:27M 参数 + 1000 ARC 样本 + 击败 o3[12:13]Truncated BPTT (t=1) 的反直觉:只反向传播最后 1 步[14:18]嘉宾承认:我们不知道为什么这个 trick 能 work[16:14]HRM 的 outer refinement loop 是真正起作用的部分[19:46]Chain of Thought 是 hack:受人类知识边界束缚[21:11]TRM 介绍:在 HRM 基础上简化 75%,性能反而提升[24:25]介绍 EM-style optimization:迭代更新 ZL 和 ZH[28:00]代码层面对比 HRM 和 TRM 的训练循环[33:00]为什么模型变小 4 倍但性能反而提升[34:00]Melanie Mitchell 的论点:bigger is sufficient but not necessary[35:35]展望:LLM × Recursion 融合的下一代架构[36:30]主持人指出 HRM/TRM 是 task-specific 不是 general purpose[37:30]收尾:在 LLM 找到的好 latent space 里做小型递归推理
本报告基于 Y Combinator《Decoded》节目 37 分钟技术对话。需要交叉对照阅读:5/1 已发的 TheAIGRID Grok 5 路线图(算力路径)+ 5/2 已发的 Matthew Berman DeepSeek V4(产业经济学路径)。这一篇是中美 AI 竞争图景里的第三个维度——架构创新可能颠覆"堆参数"的主流路径。
评论
还没有评论,来第一个留言吧 ✨