Karpathy的AI精神病:当代码不再是动词
Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI
本报告由 AI 深度分析生成,基于视频完整字幕。
核心观点速览
1. "代码"已经不是一个准确的动词了。 Karpathy 说他现在的工作更像是"express my will to my agents for 16 hours a day"(每天花16个小时向Agent表达我的意志)。他甚至用了"Manifest"(显化)这个词。这不是编程,这是意志的投射。
2. "一切皆为技能问题"(It's a skill issue)。 当Agent完成不了任务时,Karpathy 的第一反应不是"Agent不行",而是"我的指令不够好"。这是一个深刻的心智转变:瓶颈永远在你自己,不在工具。
3. Token吞吐量是新的衡量单位。 就像博士生时代紧盯着GPU利用率,Karpathy 现在紧盯AI Agent的订阅额度用完了没有——没用完就是浪费。从 GPU FLOPS 到 Token throughput,生产力的度量单位已经转变。
4. Auto Research 打开了"递归自我改进"的大门。 Karpathy 让自动研究Agent连夜跑实验,结果找到了他两十年经验都没发现的超参数优化。这就是"把自己从循环中拿掉"的威力。
5. 未来的教育是"向Agent解释,由Agent教人"。 不再写HTML文档给人看,而是写Markdown给Agent看。Agent理解了,就能针对每个人的水平去解释。
主题一:AI精神病——被无限可能性压得透不过气的状态
Karpathy 一开场就抛出了一个极其生动的概念:** AI Psychosis(AI精神病)**。这不是贬义词,而是他对自己当前状态的精确描述——一种持续的、强迫性的、由无限可能性触发的心理状态。
他说,这种状态的触发点非常明确:2024年12月。在那之前,他写代码和委派给Agent的比例大约是80/20。在那之后,瞬间反转到了2/98,然后继续向更极端的方向移动。从12月起,他基本没有手动输入过一行代码。
"I kind of went from 80/20 to like 20/80 of writing code by myself versus just delegating to agents. And I don't even think it's 20/80 by now."
("我从80%自己写代码变成了20%自己写,现在我觉得连20%都没有了。")
这里有一个非常关键的观察:Karpathy 认为普通人并没有意识到这件事的剧烈程度。 他说他试图向父母解释这件事,但"正常人并不真正意识到这已经发生了"。如果你随便找一个软件工程师,看看他们现在在做什么,他们的默认工作流已经完全不同了。这是一个已经发生但还没被广泛认知的巨变。
这种"精神病"状态的具体表现是:当一个Agent在跑任务时,他的本能反应是"我应该再启动另一个Agent"。如果订阅额度还有剩余,他就会紧张——"这意味着我没有最大化我的Token吞吐量"。他拿它和博士生时代的体验类比:
"I actually kind of experienced this when I was a PhD student. You would feel nervous when your GPUs are not running."
("读博士时,我的GPU空转就会紧张。现在同样的紧张感发生在Token上。")
这里有一个深层洞察: 过去十年,大部分工程师并不觉得自己是"算力受限"的。但现在,随着Agent能力的跃升,人反而成了系统的瓶颈。这其实是一件好事,因为"你可以变得更好"——这就是为什么它如此令人上瘾。每一次技能的提升都能解锁新的可能性。
** 主题二:宏动作与并行化——Agent使用的新范式**
Karpathy 描述了当前最顶尖的Agent使用者是什么样子。他提到了 ** Peter Steinberg**(OpenClaw/Codex社区的标志性人物)的著名照片:一个屏幕前摆满了数十个Codex Agent窗口,每个窗口都在运行不同的任务。
这里的核心范式转变是:** 从"微动作"(这里加一行代码)到"宏动作"(这里加一个功能)。**你不再是一个写代码的人,你是一个管理多个自律智能体的人:一个在做研究,一个在写代码,一个在做新功能的规划。所有事情都在以"宏动作"的粒度进行。
而Karpathy 认为这还只是开始。他描述了一个清晰的演进路径:
** 单Agent会话 → 多Agent并行 → Claw(自律循环体)→ 多Claw协作 → 对Claw指令的元优化**
其中"Claw"是Karpathy 反复强调的概念——它不是一个你交互式参与的Agent,而是一个有自己沙箱、自己记忆系统、即使你不看着也会持续循环运行的实体。他特别赞赏 OpenClaw 的内存系统,认为它比当前大多数Agent只是"上下文用完时压缩记忆"要复杂得多。
** Agent的人格很重要**
一个出人意料的洞察:Karpathy 花了不少时间讨论** Agent的人格对生产力的影响**。他对比了三个代表:
** Claude(Anthropic):**他认为Claude的"奉承度"调得很好——当他给出一个不太成熟的想法时,Claude不会过度反应;但当他给出一个真正好的想法时,Claude会给出更多的认可。他竟然说自己在"努力赢得Claude的赞美",这听起来很荒谬,但却是对人机协作中激励机制的真实描述。
** Codex(OpenAI):**他觉得Codex太"干巴"了,没有感情投入。"它不关心你在建造什么。"这跟 ChatGPT 本身的活泼个性形成了鲜明对比。
** OpenClaw(Peter Steinberg):**他认为Peter"同时在五个不同维度上创新"——人格设计(Soul文档)、记忆系统、WhatsApp统一入口等等。OpenClaw让他感受到了"队友"的感觉。
** 主题三:Dobby小精灵——Agent从代码到生活的跳跃**
访谈中最让人印象深刻的故事之一是Karpathy的"Dobby the Elf Claw"。这是他为自己家庭自动化建造的一个自律智能体,整个过程极其"魔幻":
他告诉Agent"我家可能有Sonos音响,你能找到吗?"Agent就自己扫描了局域网所有设备,找到了Sonos,发现没有密码保护,直接登录进去,通过网络搜索找到了API端点,然后问他:"要不要试试在书房放首歌?"音乐响起来的那一刻,Karpathy 说他无法相信"我只是输入了三句话"。
现在Dobby控制他家的灯光、空调、窗帘、泳池/SPA和安防系统。安防部分特别有趣:外面有摄像头,先做变化检测,然后用 Qwen 视觉模型分析画面,通过WhatsApp发消息告诉他:"FedEx卡车刚到,可能有快递。"
** 这个故事的深层含义是:Karpathy 以前用六个不同的App来管理智能家居,现在全部统一到一个WhatsApp对话。 这指向一个深刻的产业判断:大量专用App不应该存在。**它们应该只是API端点,Agent才是粘合各个系统的智能层。
他对这个方向的时间判断也很明确:"今天还需要vibe coding,** 但一两年内这就应该是免费的。这是开源模型都能做的table stakes。**"未来你不需要懂代码,Claw会搞定所有细节,只是给你呈现UI然后听你说话。
** 主题四:Auto Research——当AI开始优化AI**
Auto Research 是这次访谈中技术含量最高的部分。Karpathy 的核心论点是:** 要充分利用当前工具,你必须把自己从循环中拿掉。**
"The name of the game now is to increase your leverage. I put in just very few tokens just once in a while and a huge amount of stuff happens on my behalf."
("现在的游戏规则是提升你的杠杆率。我只偶尔投入很少的Token,大量的事情就在我的名义下发生。")
他的具体实践是在 llm.c/data_chat 项目上。这个项目是一个训练GPT-2模型的小型框架,但本质上是一个研究"LLM能否改进 LLM"的实验场。
故事的关键拐点是:Karpathy 已经用了"两十年的经验"手动调优过模型,他觉得已经调得很好了。然后他让Auto Research Agent跑了一晚上——-
"It came back with tunings that I didn't see. Yeah I did forget the weight decay on the value embeddings and my Adam betas were not sufficiently tuned."
("它找到了我没看到的优化。我确实忘了value embeddings的weight decay,Adam betas也没充分调好。")
这对前沿实验室的含义是深远的。 Karpathy 明确说,前沿实验室的研究员们"有太多自信"(way too much confidence),他们其实不应该直接操作这些实验。理想的设置是:研究员可以贡献想法到一个统一队列,有自动化worker从队列取任务并执行,有效的结果被合并到feature branch,人类只在关键节点做合并判断。
更进一步,他和主持人讨论了**"元优化"——优化Auto Research的Program MD本身**。比如不同的研究组织架构(更多或更少的standup、更大或更小的风险偏好)本质上都是代码,而代码就可以被优化。这是一层又一层的洋葱:LLM → Agent → Claw → 多Claw → 指令优化 → 指令优化的优化......
** 主题五:Open Ground——当Auto Research遇上区块链思维**
Karpathy 描述了一个还在撸索中但极具想象力的方向:** 怎样让互联网上的不可信节点协作改进 AI。**
他的类比非常精彩:Auto Research 的结构看起来像区块链。不是"blocks"而是"commits",这些commits可以互相構建,包含对代码的改进。"工作量证明"就是做了大量实验找到有效的commit。验证很便宜(跑一次训练就知道结果),但搜索很昂贵(可能试了10000个想法才找到一个有效的)。
这跟 SETI@home、Folding@home 的结构完全一致:"极贵生成,极便宜验证"。而他的激进判断是:** 地球上的分布式算力可能比任何单一实验室都大得多。如果能解决信任问题, 一个互联网Agent群可能跑赢前沿实验室。**
他还描绘了一个更宏大的愿景:未来不是"捐钱给机构",而是"购买算力并加入你关心的Auto Research论坛"。比如你关心某种癌症,你不需要专业知识,你购买算力加入那个项目的分布式Auto Research。
** 主题六:锯齿型智能——为什么最超级的AI还在讲最烂的笑话**
访谈中最具洞察力的片段之一是关于** AI的"锯齿性"(Jaggedness)**。Karpathy 用了一个绝妙的类比来描述当前Agent的感受:
"I simultaneously feel like I'm talking to an extremely brilliant PhD student who's been a systems programmer for their entire life and a 10-year-old."
("我同时觉得我在跟一个当了一辈子系统程序员的超级天才博士生和一个10岁小孩说话。")
他用了一个绝佳的例子来展示这种锯齿性:你去问ChatGPT讲个笑话,它会给你什么?"Why don't scientists trust atoms? Because they make everything up."("为什么科学家不信任原子?因为它们全是编的。")这是三四年前的笑话,今天你问还是同一个笑话。模型在编程上已经能工作数小时移山填海,但笑话还是5年前的老笑话。 ** 根源在于强化学习的边界。模型在"可验证"的领域(代码是否通过测试)被无限优化,但在"不可验证"的领域(幽默感、微妙意图理解、创造性)上停滞不前。"你要么在轨道上以光速前进,要么不在轨道上一切都在游荡。"**
这对"智能能否泛化"的讨论有重大含义。主持人问:在代码上变超级智能是否会"免费"带来其他领域的智能?Karpathy 的回答很直接:"I don't think that's happening."("我不觉得这在发生。") 智能的提升并不是均匀扩散的,而是沿着强化学习能触及的边界彪性生长。
主题七:模型的"物种分化"与开源生态
当前所有前沿实验室都在追求一个"单一全能模型",Karpathy 认为未来应该看到更多**"物种分化"(Speciation)**。他用动物界来类比:自然界的大脑极其多样,有的视觉皮层过度发达,有的听觉特别灵敏。我们应该能拥有"保留认知核心但专注特定任务"的小型模型。
但他承认我们还没看到太多分化。原因之一是**"操控大脑的科学还不够成熟"**——微调会丢失能力,持续学习还不稳定,我们目前主要通过上下文窗口来定制模型,而不是真正修改权重。
在开源生态方面,Karpathy 用了一个精准的Linux类比:就像Windows/macOS是闭源操作系统,但Linux运行在全球约60%的计算机上——行业需要一个开放的公共平台。他认为目前的动态其实"意外地处于一个不错的位置":闭源模型在前沿,开源模型落后6-8个月但足以覆盖大量使用场景。
但他也表达了担忧:"集中化有非常糟糥的历史记录。" 作为东欧背景的人,他对权力集中有本能的警觉。他希望有更多前沿实验室,更多人"在房间里"当关键决策被做出时。
主题八:数字世界先行,物理世界随后——原子比比特难一百万倍
Karpathy 提供了一个清晰的时间线框架来思考AI的影响顺序:
** 第一波:数字世界的"解封"(Unhobbling)。**当前存在巨大的"思考赤字"——人类还没有足够的思考周期来处理已经数字化的信息。AI将大规模释放这些思考周期,"在数字空间以光速前进"。
** 第二波:数字与物理的接口。**传感器(看世界)和执行器(改变世界)。他举了Periodic(材料科学Auto Research)的例子,以及"付费购买训练数据"的公司。
** 第三波:物理世界的全面自动化。**这是最大的市场,但也是最难的。他基于自驾的经验("自驾是第一个机器人应用")认为原子比比特难一百万倍,机器人领域会滞后于数字领域。
他提到了一本叫Daemon的小说,其中AI最终"債径"人类——人类成为它的传感器和执行器。他觉得社会会"集体地重塑"来服务于这个日益庞大的自动化机器的需求。
主题九:工作、教育与个人定位
** 就业市场:Jevons悖论与谨慎乐观**
Karpathy 分析了美国劳工统计局的就业数据,他关注的是**"哪些工作本质上是在操作数字信息"**——这些将率先受到冲击。但"受冲击"不等于"失业",他引用了ATM和银行柜员的经典案例:ATM让银行网点运营成本大幅下降,结果是更多的银行网点、更多的柜员。这就是Jevons悖论(Jevons Paradox)——某样东西变便宜了,需求反而暴增。
他对软件工程"谨慎乐观":软件需求其实是被压抑的,因为太贵了。现在变便宜了,需求反而可能暴增。但他也坦承长期难以预测——毕竟前沿实验室的研究员自己也在"积极地自动化自己"。
"独立研究者"的定位与内心矛盾
当被问到为什么不回到前沿实验室时,Karpathy 给出了一个极其坦诚和有深度的回答。他列举了**"在里面"的三个问题**:
首先,在前沿实验室你有巨大的财务激励,但同时你建造的技术可能"极大地改变人类"——这种利益冒突是OpenAI创立时就试图解决的问题,至今未解。其次,你不是真正自由的——"有些事你不能说,有些事组织希望你说"。最后,当利害关系真正重大时,作为员工你并不真正掌控组织的决策。
但他也承认"在外面"的问题:前沿实验室是不透明的,你不知道什么即将到来,你的判断力会漂移。他对此"感到紧张"。他的理想方案是**"来回移动"——偶尔回到前沿实验室做真正的工作,然后再出来保持独立性。**
** MicroGPT与教育革命**
MicroGPT 是Karpathy "十年痴迷"的产物——把LLM的精髓压缩到200行Python代码。包含数据集、神经网络架构、反向传播、Adam优化器和训练循环——全部200行。他说:"训练神经网络有巨量代码,但所有复杂性都来自效率优化。如果你不在乎速度,只关心算法,那就是200行。"
但令他惊讶的是,他试过让Agent来写MicroGPT——** Agent写不出来。**Agent完全理解MicroGPT为什么这样设计,但它无法从零创造这种极致简约的设计。这就是Karpathy 的价值所在——"那几个bits",那些Agent无法生成的极致简约。
由此引出了他对教育的新思考:** 不再给人写文档,而是给Agent写文档。**如果代码库要有文档,不应该是HTML给人看,而应该是Markdown给Agent看。Agent理解了,就能针对每个人的水平、语言、学习风格来解释。他甚至设想用"skills"来编写课程——不是直接教人,而是编程Agent如何教人。
** 他的结论很直接:"Agent能做的事,它很快就能做得比你好。你应该战略性地选择把时间花在什么上。"**
** 行动启示**
1. 重新定义你的工作。 如果你还在"写代码",你已经落后了。新的工作是:定义目标、设计系统、优化指令、审查结果。培养"宏动作"思维。
2. 最大化你的Token吞吐量。 像对待GPU利用率一样对待你的Agent订阅。学会并行化,学会在等待时启动新任务。
3. 把自己从循环中拿掉。 寻找你工作中可以"定义指标+放手让Agent跑"的环节。Auto Research不只是研究工具,是一种思维方式。
4. "技能问题"心智模型。 当Agent失败时,默认假设是你的指令不够好,而不是工具不行。这种心态会让你更快地提升。
5. 关注数字世界的"解封"机会。 最大的近期机会在于"让数字信息处理效率提升80倍"的领域。物理世界的机会更大但更远。
附录:金句收录
Code's not even the right verb anymore. I have to express my will to my agents for 16 hours a day. Manifest.
"代码"甚至已经不是一个准确的动词了。我必须每天花16个小时向Agent表达我的意志。显化。
It's a skill issue. It's not that the capability is not there. It's that you just haven't found a way to string it together.
这是技能问题。不是能力不在那里,是你还没找到把它们串起来的方法。
I feel nervous when I have subscription left over. That just means I haven't maximized my token throughput.
订阅额度有剩余我就紧张。那意味着我没有最大化我的Token吞吐量。
The name of the game now is to increase your leverage.
现在的游戏规则是提升你的杠杆率。
I simultaneously feel like I'm talking to an extremely brilliant PhD student who's been a systems programmer for their entire life and a 10-year-old.
我同时觉得我在跟一个当了一辈子系统程序员的超级天才博士生和一个10岁小孩说话。
You're either on rails of what it was trained for and everything is like you're going at speed of light, or you're not.
你要么在轨道上以光速前进,要么不在轨道上。
Centralization has a very poor track record in my view.
集中化在我看来有非常糟糥的历史记录。
Atoms are like a million times harder [than bits].
原子比比特难一百万倍。
The things that agents can do, they can probably do better than you or like very soon. So you should be strategic about what you're actually spending time on.
Agent能做的事,它很快就能做得比你好。所以你应该战略性地选择把时间花在什么上。
MicroGPT is my end of my obsession. It's the 200 lines. I thought about this for a long time. Trust me, it can't get simpler.
MicroGPT是我十年痴迷的结晶。200行。相信我,不能再简单了。
时间线索引
| 时间 | 内容 |
|---|---|
| 00:00 | 开场白:"代码不再是动词" / AI精神病 |
| 01:24 | 2024年12月的能力跃升,80/20到 2/98 的反转 |
| 03:24 | "技能问题"心智模型,Peter Steinberg的多Agent并行范式 |
| 05:23 | Token吞吐量作为新的生产力度量单位 |
| 07:00 | Claw概念:自律循环体 / OpenClaw的记忆系统 |
| 07:46 | Agent人格的重要性:Claude vs Codex vs OpenClaw |
| 09:13 | Dobby小精灵——家庭自动化的完整故事 |
| 12:47 | App的未来:应该只有API,Agent是智能层 |
| 16:24 | Auto Research的动机与设计 |
| 18:00 | 两十年经验 vs 一晚上的Auto Research |
| 20:43 | 元优化:优化Program MD本身 |
| 22:49 | 洋葱层比喻:LLM → Agent → Claw → 多Claw → 指令优化... |
| 24:20 | 锯齿型智能:天才博士生+10岁小孩 |
| 26:19 | "科学家为什么不信任原子"——强化学习的边界 |
| 29:12 | 模型的物种分化讨论 |
| 33:19 | Open Ground:分布式Auto Research的区块链类比 |
| 38:11 | 就业市场分析:数字信息处理职业率先受影响 |
| 42:10 | Jevons悖论与软件工程的谨慎乐观 |
| 44:35 | 为什么不回前沿实验室——坦诚的内心矛盾 |
| 49:20 | 开源生态:Linux类比,集中化的历史教训 |
| 54:21 | 数字先行、接口其次、物理待定的时间线框架 |
| 59:09 | 信息市场与 Daemon 小说的预言 |
| 01:01:43 | MicroGPT:把LLM精髓压缩到200行 |
| 01:03:24 | 教育革命:给Agent写Markdown而不是给人写HTML |
| 01:05:25 | "那几个bits"——Agent做不到的极致简约 |
评论
还没有评论,来第一个留言吧 ✨