Vibe Coding 已死,Agentic Engineering 万岁:Karpathy 在 Sequoia AI Ascent 2026 亲手升级了自己的概念
本报告由 AI 深度分析生成,基于视频完整字幕。
一、"我从没像现在这样觉得自己落后"
Karpathy 开场第一句话就是:我从来没有像现在这样觉得自己作为程序员落后了。
这话从他嘴里说出来意义不同。他是 OpenAI 联合创始人、Tesla Autopilot 主导者、Eureka Labs 创始人。
转折点是 2025 年 12 月。 他当时在休假,有更多时间尝试最新模型。起初跟之前一样——模型写代码,有时需要修改。然后他发现:
- 代码块直接能用,不需要修改
- 他要了更多,还是能用
- 他想不起来上一次手动纠正是什么时候
- 然后他意识到自己在 Vibe Coding
他强调:很多人对 AI 的印象还停留在 2025 年的"ChatGPT 搜索替代品"阶段。但 2025 年 12 月之后,事情发生了根本性变化,特别是 agentic coherent workflow 真正开始 work 了。
二、Software 3.0 不是"更快的编程"——是新的计算范式
| 阶段 | 编程方式 | 人类角色 |
|---|---|---|
| Software 1.0 | 手写代码 | 写规则 |
| Software 2.0 | 训练神经网络 | 整理数据集 |
| Software 3.0 | Prompting | 编写上下文 |
关键洞察:Software 3.0 不是加速现有软件开发,而是让整类应用"不该存在"。
Menu Gen 的故事(最有力的例子)
Karpathy 做了一个 App 叫 Menu Gen:拍餐厅菜单照片 → OCR 识别菜名 → 调用图像生成器 → 渲染每道菜的图片 → 重新展示菜单。
他 Vibe Coding 了整个 App,跑在 Vercel 上,感觉很好。
然后他看到了 Software 3.0 版本:
把照片发给 Gemini,说"用 Nanobanana 把菜的图片叠加到菜单上。"
一句话。直接输入图片,输出图片。不需要 OCR,不需要图像生成 API,不需要前端渲染,不需要 App——根本不需要 App。
他亲手做的 Menu Gen 在新范式里"不该存在"。
这不是 10% 效率提升。这是整个应用层被消灭。
三、Agent 作为安装器——OpenClaw 的例子
传统软件安装:写 bash 脚本 → 针对不同平台膨胀成巨大 shell 脚本 → 还是 Software 1.0 思维。
OpenClaw 的安装方式:一段文本,复制粘贴给你的 Agent。
为什么这更强大:
- Agent 有自己的智能,能理解你的环境
- 遇到问题会自己调试
- 不需要精确拼写每个安装步骤
- 适配所有平台,因为适配逻辑由 Agent 的通用智能处理
新的编程范式问题变成了:给 Agent 的那段文本应该怎么写?
四、可验证性(Verifiability)与"锯齿形智能"
Karpathy 花了很多时间思考:为什么 AI 模型这么"锯齿形"(jagged)——在某些领域逆天强大,在另一些领域令人窒息地蠢?
他的框架:
模型在「可验证 + 实验室关注」的交集领域飙升,在交集之外停滞。
原因:
- 前沿实验室训练这些模型用的是巨型 RL 环境
- RL 需要验证奖励(verification rewards)
- 有验证奖励的领域(数学、代码)进步飞速
- 没有验证奖励的领域保持"粗糙"
洗车悖论(最精彩的反直觉例子)
"我要去洗车,洗车场离我 50 米。我应该开车还是走路?"
当今最强模型(包括 Opus 4.7)会告诉你:走路吧,才 50 米。
同一个模型能重构 10 万行代码库、找零日漏洞,却不理解"你得把车开过去才能洗车"。
国际象棋的启示
GPT-3.5 到 GPT-4 国际象棋能力暴涨。很多人以为是通用能力提升。实际上是 OpenAI 有人决定往预训练集里加了大量国际象棋数据。
启示:我们在某种程度上受制于实验室碰巧放进了什么数据。模型是没有说明书的工具——你得自己探索哪些"电路"被 RL 强化过、哪些没有。
五、Vibe Coding vs Agentic Engineering:地板 vs 天花板
| Vibe Coding | Agentic Engineering | |
|---|---|---|
| 目标 | 抬高所有人的能力地板 | 在保持质量的前提下提速 |
| 用户 | 所有人 | 专业工程师 |
| 质量标准 | "能跑就行" | 不能引入漏洞,保持专业标准 |
| 速度提升 | N/A(从 0 到 1) | 远超 10x |
| 性质 | 民主化 | 工程纪律 |
Karpathy 明确说:10x 工程师的时代已经过去了。Agentic Engineering 的倍数远大于 10x。
六、招聘必须重构
旧模式:给候选人一个 puzzle,看他在白板上解题。
Karpathy 建议的新模式:
"让候选人用 Agent 工具构建一个 Twitter 克隆。部署上线。 然后我派 10 个 Codex 5.4x(xHigh 模式)去尝试攻破你的网站。 它们不应该能攻破。"
这才是 Agentic Engineering 能力的真正测试:
- 能否协调 Agent 完成大项目
- 部署是否真正可用
- 安全性是否经得起 AI 对手攻击
七、人类仍然守住什么——Stripe × Google 邮箱 Bug
Karpathy 分享了一个真实 Bug:
Menu Gen 用 Google 账号注册,用 Stripe 购买积分。Agent 写代码时,试图用邮箱地址来关联两个账户的积分——而不是用持久化的 user ID。
问题:用户完全可以 Google 用一个邮箱、Stripe 用另一个邮箱。Agent 不理解这种"设计级"的错误。
人类仍然守住的是:
- Spec 设计(规格说明)
- 品味(taste)
- 工程判断
- 美学
人类不再需要记住的是:
- PyTorch 的 keep_dims vs keep_dim
- dim vs axis
- reshape vs permute vs transpose
"我已经不记得这些 API 细节了。因为不需要了。但你仍然需要知道底层有一个 tensor view 和 storage 的区别——这样你不会让 Agent 去不必要地复制内存。"
八、Agent 原生世界:一切都需要重写
Karpathy 的最大痛点:
"为什么文档还在告诉我该怎么做?我不想做任何事。告诉我应该复制粘贴什么给我的 Agent。"
他的理想测试:
"我给一个 LLM 一个 prompt:'构建 Menu Gen 并部署。'然后我什么都不碰,它就在互联网上运行了。当这成为可能时,基础设施就是 Agent 原生的了。"
目前最大的摩擦不是写代码——是部署和配置(Vercel、DNS、各种服务的设置页面)。这些都需要被重写为 Agent 友好的接口。
最终愿景:每个人和每个组织都有 Agent 代理。"我的 Agent 跟你的 Agent 谈"来安排会议细节。
九、教育的终极问题
一条让 Karpathy "每隔一天就想起来"的推文:
"You can outsource your thinking, but you can't outsource your understanding." (你可以外包思考,但不能外包理解。)
他仍然觉得自己是系统的瓶颈——需要知道"我们在建什么"、"为什么值得做"、"怎么指挥 Agent"。
理解(understanding)不可外包。 这是因为:
- LLM 不擅长理解(不在 RL 电路里)
- 你不能做一个好的"导演"如果你自己不理解底层发生了什么
- 方向感和判断力来自理解,而非来自处理
他的个人方法:用 LLM 把阅读的文章重新编译成 wiki,用不同的投影方式重新理解同一批信息。这是用 AI 增强理解,而非替代理解。
十、反直觉的要点(值得带走的判断)
-
"最强的 Agentic Engineer 远超 10x" —— 如果你还在讨论 AI 是否让程序员快 2 倍,你在用错坐标系
-
"整类应用不该存在" —— 不要问"AI 能加速这个 App 多少",问"这个 App 在 Software 3.0 里还需要存在吗"
-
"模型的锯齿形不是 bug,是训练方式的直接后果" —— 如果你在某个领域用 AI 效果差,先问"这个领域有没有被 RL 覆盖"
-
"Vibe Coding 对专业软件是危险的" —— 它抬高了地板但也引入了漏洞。Agentic Engineering 的纪律是:你仍然对软件负全责
-
"部署比编码难 10 倍" —— 2026 年的瓶颈不是写代码,是让代码在真实世界跑起来。谁能让部署变成一句 prompt 谁就赢了
-
"招聘必须重构" —— 如果你还在用 puzzle/白板面试招 AI 时代的工程师,你在筛选错误的能力
隐藏前提与提防
-
Karpathy 是 AI 建设者,不是用户代言人 —— 他的"从没这么落后"可能因为他用的是前沿(GPT-5.5、Opus 4.7),普通用户可能还在用去年的模型体验
-
Software 3.0 "整类应用消失"的论断需要限定条件 —— Menu Gen 是 demo 级应用,真正的 SaaS 有状态管理、权限系统、支付合规等,不是一句 prompt 能消灭的
-
"10x 以上"没有数据支撑 —— 他多次说"从我的视角看远超 10x",但这是定性观察,不是 benchmark
-
Sequoia 的台上说的话有选择偏差 —— AI Ascent 是 Sequoia 的 AI 年会,台上嘉宾天然倾向于放大 AI 能力(这是为 portfolio 公司鼓劲的场合)
-
"理解不可外包"是当前状态,不是永恒真理 —— Karpathy 自己也说"我希望回来时发现理解也被自动化了",他承认这是暂时的瓶颈
对你的行动启示
如果你在用 AI 编程工具:
- 检查你的项目有多少代码"不该存在" —— 不是重构,是整个模块可以被一句 prompt 替代
- 从"写代码"转向"写 spec" —— Agent 需要的不是你告诉它 API 怎么调用,是告诉它"为什么这样设计"
- 探索模型的 RL 电路 —— 在某些领域效果神奇,在另一些领域拉胯,区别在于实验室有没有针对训练。别在没被训练的领域死磕
如果你在招聘工程师:
- 用大项目 + 对抗测试替代 puzzle —— "建一个完整产品并防住 AI 攻击"才是新标准
如果你在做基础设施/开发者工具:
- "Agent 原生"是巨大的机会 —— 文档、部署、配置、DNS 都需要被重写为 Agent 可操作的接口。谁先做到谁拿走这个市场
评论
还没有评论,来第一个留言吧 ✨