Vibe Coding 已死，Agentic Engineering 万岁：Karpathy 在 Sequoia AI Ascent 2026 亲手升级了自己的概念

来源Sequoia Capital × Andrej Karpathy视频时长约 30 分钟报告字数2,858字阅读时间6min原始链接https://www.youtube.com/watch?v=96jN2OCOfLs

本报告由 AI 深度分析生成，基于视频完整字幕。

📺 原视频约 30 分钟📖 本报告 2,858字⏱ 预计阅读 6min

一、"我从没像现在这样觉得自己落后"

Karpathy 开场第一句话就是：我从来没有像现在这样觉得自己作为程序员落后了。

这话从他嘴里说出来意义不同。他是 OpenAI 联合创始人、Tesla Autopilot 主导者、Eureka Labs 创始人。

转折点是 2025 年 12 月。 他当时在休假，有更多时间尝试最新模型。起初跟之前一样——模型写代码，有时需要修改。然后他发现：

代码块直接能用，不需要修改
他要了更多，还是能用
他想不起来上一次手动纠正是什么时候
然后他意识到自己在 Vibe Coding

他强调：很多人对 AI 的印象还停留在 2025 年的"ChatGPT 搜索替代品"阶段。但 2025 年 12 月之后，事情发生了根本性变化，特别是 agentic coherent workflow 真正开始 work 了。

二、Software 3.0 不是"更快的编程"——是新的计算范式

阶段	编程方式	人类角色
Software 1.0	手写代码	写规则
Software 2.0	训练神经网络	整理数据集
Software 3.0	Prompting	编写上下文

关键洞察：Software 3.0 不是加速现有软件开发，而是让整类应用"不该存在"。

Karpathy 做了一个 App 叫 Menu Gen：拍餐厅菜单照片 → OCR 识别菜名 → 调用图像生成器 → 渲染每道菜的图片 → 重新展示菜单。

他 Vibe Coding 了整个 App，跑在 Vercel 上，感觉很好。

然后他看到了 Software 3.0 版本：

把照片发给 Gemini，说"用 Nanobanana 把菜的图片叠加到菜单上。"

一句话。直接输入图片，输出图片。不需要 OCR，不需要图像生成 API，不需要前端渲染，不需要 App——根本不需要 App。

这不是 10% 效率提升。这是整个应用层被消灭。

三、Agent 作为安装器——OpenClaw 的例子

传统软件安装：写 bash 脚本 → 针对不同平台膨胀成巨大 shell 脚本 → 还是 Software 1.0 思维。

OpenClaw 的安装方式：一段文本，复制粘贴给你的 Agent。

为什么这更强大：

Agent 有自己的智能，能理解你的环境
遇到问题会自己调试
不需要精确拼写每个安装步骤
适配所有平台，因为适配逻辑由 Agent 的通用智能处理

新的编程范式问题变成了：给 Agent 的那段文本应该怎么写？

四、可验证性（Verifiability）与"锯齿形智能"

Karpathy 花了很多时间思考：为什么 AI 模型这么"锯齿形"（jagged）——在某些领域逆天强大，在另一些领域令人窒息地蠢？

他的框架：

模型在「可验证 + 实验室关注」的交集领域飙升，在交集之外停滞。

原因：

前沿实验室训练这些模型用的是巨型 RL 环境
RL 需要验证奖励（verification rewards）
有验证奖励的领域（数学、代码）进步飞速
没有验证奖励的领域保持"粗糙"

洗车悖论（最精彩的反直觉例子）

"我要去洗车，洗车场离我 50 米。我应该开车还是走路？"

当今最强模型（包括 Opus 4.7）会告诉你：走路吧，才 50 米。

同一个模型能重构 10 万行代码库、找零日漏洞，却不理解"你得把车开过去才能洗车"。

国际象棋的启示

GPT-3.5 到 GPT-4 国际象棋能力暴涨。很多人以为是通用能力提升。实际上是 OpenAI 有人决定往预训练集里加了大量国际象棋数据。

启示：我们在某种程度上受制于实验室碰巧放进了什么数据。模型是没有说明书的工具——你得自己探索哪些"电路"被 RL 强化过、哪些没有。

五、Vibe Coding vs Agentic Engineering：地板 vs 天花板

	Vibe Coding	Agentic Engineering
目标	抬高所有人的能力地板	在保持质量的前提下提速
用户	所有人	专业工程师
质量标准	"能跑就行"	不能引入漏洞，保持专业标准
速度提升	N/A（从 0 到 1）	远超 10x
性质	民主化	工程纪律

Karpathy 明确说：10x 工程师的时代已经过去了。Agentic Engineering 的倍数远大于 10x。

六、招聘必须重构

旧模式：给候选人一个 puzzle，看他在白板上解题。

Karpathy 建议的新模式：

"让候选人用 Agent 工具构建一个 Twitter 克隆。部署上线。然后我派 10 个 Codex 5.4x（xHigh 模式）去尝试攻破你的网站。它们不应该能攻破。"

这才是 Agentic Engineering 能力的真正测试：

能否协调 Agent 完成大项目
部署是否真正可用
安全性是否经得起 AI 对手攻击

七、人类仍然守住什么——Stripe × Google 邮箱 Bug

Karpathy 分享了一个真实 Bug：

Menu Gen 用 Google 账号注册，用 Stripe 购买积分。Agent 写代码时，试图用邮箱地址来关联两个账户的积分——而不是用持久化的 user ID。

问题：用户完全可以 Google 用一个邮箱、Stripe 用另一个邮箱。Agent 不理解这种"设计级"的错误。

人类仍然守住的是：

Spec 设计（规格说明）
品味（taste）
工程判断
美学

人类不再需要记住的是：

PyTorch 的 keep_dims vs keep_dim
dim vs axis
reshape vs permute vs transpose

"我已经不记得这些 API 细节了。因为不需要了。但你仍然需要知道底层有一个 tensor view 和 storage 的区别——这样你不会让 Agent 去不必要地复制内存。"

八、Agent 原生世界：一切都需要重写

Karpathy 的最大痛点：

"为什么文档还在告诉我该怎么做？我不想做任何事。告诉我应该复制粘贴什么给我的 Agent。"

他的理想测试：

"我给一个 LLM 一个 prompt：'构建 Menu Gen 并部署。'然后我什么都不碰，它就在互联网上运行了。当这成为可能时，基础设施就是 Agent 原生的了。"

目前最大的摩擦不是写代码——是部署和配置（Vercel、DNS、各种服务的设置页面）。这些都需要被重写为 Agent 友好的接口。

最终愿景：每个人和每个组织都有 Agent 代理。"我的 Agent 跟你的 Agent 谈"来安排会议细节。

九、教育的终极问题

一条让 Karpathy "每隔一天就想起来"的推文：

"You can outsource your thinking, but you can't outsource your understanding." （你可以外包思考，但不能外包理解。）

他仍然觉得自己是系统的瓶颈——需要知道"我们在建什么"、"为什么值得做"、"怎么指挥 Agent"。

理解（understanding）不可外包。 这是因为：

LLM 不擅长理解（不在 RL 电路里）
你不能做一个好的"导演"如果你自己不理解底层发生了什么
方向感和判断力来自理解，而非来自处理

他的个人方法：用 LLM 把阅读的文章重新编译成 wiki，用不同的投影方式重新理解同一批信息。这是用 AI 增强理解，而非替代理解。

十、反直觉的要点（值得带走的判断）

"最强的 Agentic Engineer 远超 10x" —— 如果你还在讨论 AI 是否让程序员快 2 倍，你在用错坐标系
"整类应用不该存在" —— 不要问"AI 能加速这个 App 多少"，问"这个 App 在 Software 3.0 里还需要存在吗"
"模型的锯齿形不是 bug，是训练方式的直接后果" —— 如果你在某个领域用 AI 效果差，先问"这个领域有没有被 RL 覆盖"
"Vibe Coding 对专业软件是危险的" —— 它抬高了地板但也引入了漏洞。Agentic Engineering 的纪律是：你仍然对软件负全责
"部署比编码难 10 倍" —— 2026 年的瓶颈不是写代码，是让代码在真实世界跑起来。谁能让部署变成一句 prompt 谁就赢了
"招聘必须重构" —— 如果你还在用 puzzle/白板面试招 AI 时代的工程师，你在筛选错误的能力

隐藏前提与提防

Karpathy 是 AI 建设者，不是用户代言人 —— 他的"从没这么落后"可能因为他用的是前沿（GPT-5.5、Opus 4.7），普通用户可能还在用去年的模型体验
Software 3.0 "整类应用消失"的论断需要限定条件 —— Menu Gen 是 demo 级应用，真正的 SaaS 有状态管理、权限系统、支付合规等，不是一句 prompt 能消灭的
"10x 以上"没有数据支撑 —— 他多次说"从我的视角看远超 10x"，但这是定性观察，不是 benchmark
Sequoia 的台上说的话有选择偏差 —— AI Ascent 是 Sequoia 的 AI 年会，台上嘉宾天然倾向于放大 AI 能力（这是为 portfolio 公司鼓劲的场合）
"理解不可外包"是当前状态，不是永恒真理 —— Karpathy 自己也说"我希望回来时发现理解也被自动化了"，他承认这是暂时的瓶颈

对你的行动启示

如果你在用 AI 编程工具：

检查你的项目有多少代码"不该存在" —— 不是重构，是整个模块可以被一句 prompt 替代
从"写代码"转向"写 spec" —— Agent 需要的不是你告诉它 API 怎么调用，是告诉它"为什么这样设计"
探索模型的 RL 电路 —— 在某些领域效果神奇，在另一些领域拉胯，区别在于实验室有没有针对训练。别在没被训练的领域死磕

如果你在招聘工程师：

用大项目 + 对抗测试替代 puzzle —— "建一个完整产品并防住 AI 攻击"才是新标准

如果你在做基础设施/开发者工具：

"Agent 原生"是巨大的机会 —— 文档、部署、配置、DNS 都需要被重写为 Agent 可操作的接口。谁先做到谁拿走这个市场

Ctrl+Enter 发送

还没有评论，来第一个留言吧 ✨

你可能也喜欢

AI 前沿

从仓库到工厂：黄仁勋的计算终局判断

：Lex Fridman × ：Jensen Huang（NVIDIA CEO，在任 34 年，全球最长任职科技公司 CEO）

9min · 4,376字

AI 前沿

7M 参数 + 1000 样本击败 o3：YC 拆解为什么 Recursion 是下一代 AI scaling law

Y Combinator · Decoded × Francois（YC visiting partner，资深 ML 研究员）

13min · 6,403字

AI 前沿

当50年风险管理大师听到"等死几千万人再说"——Paul Tudor Jones 的 AI 恐惧

：Paul Tudor Jones（Tudor Investment 创始人，50年市场经验）

8min · 3,831字

AI 前沿

诺奖得主的 AGI 缺口清单：Demis Hassabis 认为我们还差什么

：Demis Hassabis（Google DeepMind CEO，2024 诺贝尔化学奖得主，AlphaFold / AlphaGo 创造者）

8min · 3,547字

← 浏览更多报告

AI 前沿

Vibe Coding 已死，Agentic Engineering 万岁：Karpathy 在 Sequoia AI Ascent 2026 亲手升级了自己的概念

来源Sequoia Capital × Andrej Karpathy视频时长约 30 分钟报告字数2,858字阅读时间6min原始链接https://www.youtube.com/watch?v=96jN2OCOfLs

本报告由 AI 深度分析生成，基于视频完整字幕。

📺 原视频约 30 分钟📖 本报告 2,858字⏱ 预计阅读 6min

一、"我从没像现在这样觉得自己落后"

Karpathy 开场第一句话就是：我从来没有像现在这样觉得自己作为程序员落后了。

这话从他嘴里说出来意义不同。他是 OpenAI 联合创始人、Tesla Autopilot 主导者、Eureka Labs 创始人。

转折点是 2025 年 12 月。 他当时在休假，有更多时间尝试最新模型。起初跟之前一样——模型写代码，有时需要修改。然后他发现：

代码块直接能用，不需要修改
他要了更多，还是能用
他想不起来上一次手动纠正是什么时候
然后他意识到自己在 Vibe Coding

二、Software 3.0 不是"更快的编程"——是新的计算范式

阶段	编程方式	人类角色
Software 1.0	手写代码	写规则
Software 2.0	训练神经网络	整理数据集
Software 3.0	Prompting	编写上下文

关键洞察：Software 3.0 不是加速现有软件开发，而是让整类应用"不该存在"。

Karpathy 做了一个 App 叫 Menu Gen：拍餐厅菜单照片 → OCR 识别菜名 → 调用图像生成器 → 渲染每道菜的图片 → 重新展示菜单。

他 Vibe Coding 了整个 App，跑在 Vercel 上，感觉很好。

然后他看到了 Software 3.0 版本：

把照片发给 Gemini，说"用 Nanobanana 把菜的图片叠加到菜单上。"

一句话。直接输入图片，输出图片。不需要 OCR，不需要图像生成 API，不需要前端渲染，不需要 App——根本不需要 App。

这不是 10% 效率提升。这是整个应用层被消灭。

三、Agent 作为安装器——OpenClaw 的例子

传统软件安装：写 bash 脚本 → 针对不同平台膨胀成巨大 shell 脚本 → 还是 Software 1.0 思维。

OpenClaw 的安装方式：一段文本，复制粘贴给你的 Agent。

为什么这更强大：

Agent 有自己的智能，能理解你的环境
遇到问题会自己调试
不需要精确拼写每个安装步骤
适配所有平台，因为适配逻辑由 Agent 的通用智能处理

新的编程范式问题变成了：给 Agent 的那段文本应该怎么写？

四、可验证性（Verifiability）与"锯齿形智能"

Karpathy 花了很多时间思考：为什么 AI 模型这么"锯齿形"（jagged）——在某些领域逆天强大，在另一些领域令人窒息地蠢？

他的框架：

模型在「可验证 + 实验室关注」的交集领域飙升，在交集之外停滞。

原因：

前沿实验室训练这些模型用的是巨型 RL 环境
RL 需要验证奖励（verification rewards）
有验证奖励的领域（数学、代码）进步飞速
没有验证奖励的领域保持"粗糙"

洗车悖论（最精彩的反直觉例子）

"我要去洗车，洗车场离我 50 米。我应该开车还是走路？"

当今最强模型（包括 Opus 4.7）会告诉你：走路吧，才 50 米。

同一个模型能重构 10 万行代码库、找零日漏洞，却不理解"你得把车开过去才能洗车"。

国际象棋的启示

GPT-3.5 到 GPT-4 国际象棋能力暴涨。很多人以为是通用能力提升。实际上是 OpenAI 有人决定往预训练集里加了大量国际象棋数据。

启示：我们在某种程度上受制于实验室碰巧放进了什么数据。模型是没有说明书的工具——你得自己探索哪些"电路"被 RL 强化过、哪些没有。

五、Vibe Coding vs Agentic Engineering：地板 vs 天花板

	Vibe Coding	Agentic Engineering
目标	抬高所有人的能力地板	在保持质量的前提下提速
用户	所有人	专业工程师
质量标准	"能跑就行"	不能引入漏洞，保持专业标准
速度提升	N/A（从 0 到 1）	远超 10x
性质	民主化	工程纪律

Karpathy 明确说：10x 工程师的时代已经过去了。Agentic Engineering 的倍数远大于 10x。

六、招聘必须重构

旧模式：给候选人一个 puzzle，看他在白板上解题。

Karpathy 建议的新模式：

"让候选人用 Agent 工具构建一个 Twitter 克隆。部署上线。然后我派 10 个 Codex 5.4x（xHigh 模式）去尝试攻破你的网站。它们不应该能攻破。"

这才是 Agentic Engineering 能力的真正测试：

能否协调 Agent 完成大项目
部署是否真正可用
安全性是否经得起 AI 对手攻击

七、人类仍然守住什么——Stripe × Google 邮箱 Bug

Karpathy 分享了一个真实 Bug：

Menu Gen 用 Google 账号注册，用 Stripe 购买积分。Agent 写代码时，试图用邮箱地址来关联两个账户的积分——而不是用持久化的 user ID。

问题：用户完全可以 Google 用一个邮箱、Stripe 用另一个邮箱。Agent 不理解这种"设计级"的错误。

人类仍然守住的是：

Spec 设计（规格说明）
品味（taste）
工程判断
美学

人类不再需要记住的是：

PyTorch 的 keep_dims vs keep_dim
dim vs axis
reshape vs permute vs transpose

"我已经不记得这些 API 细节了。因为不需要了。但你仍然需要知道底层有一个 tensor view 和 storage 的区别——这样你不会让 Agent 去不必要地复制内存。"

八、Agent 原生世界：一切都需要重写

Karpathy 的最大痛点：

"为什么文档还在告诉我该怎么做？我不想做任何事。告诉我应该复制粘贴什么给我的 Agent。"

他的理想测试：

"我给一个 LLM 一个 prompt：'构建 Menu Gen 并部署。'然后我什么都不碰，它就在互联网上运行了。当这成为可能时，基础设施就是 Agent 原生的了。"

目前最大的摩擦不是写代码——是部署和配置（Vercel、DNS、各种服务的设置页面）。这些都需要被重写为 Agent 友好的接口。

最终愿景：每个人和每个组织都有 Agent 代理。"我的 Agent 跟你的 Agent 谈"来安排会议细节。

九、教育的终极问题

一条让 Karpathy "每隔一天就想起来"的推文：

"You can outsource your thinking, but you can't outsource your understanding." （你可以外包思考，但不能外包理解。）

他仍然觉得自己是系统的瓶颈——需要知道"我们在建什么"、"为什么值得做"、"怎么指挥 Agent"。

理解（understanding）不可外包。 这是因为：

LLM 不擅长理解（不在 RL 电路里）
你不能做一个好的"导演"如果你自己不理解底层发生了什么
方向感和判断力来自理解，而非来自处理

他的个人方法：用 LLM 把阅读的文章重新编译成 wiki，用不同的投影方式重新理解同一批信息。这是用 AI 增强理解，而非替代理解。

十、反直觉的要点（值得带走的判断）

"最强的 Agentic Engineer 远超 10x" —— 如果你还在讨论 AI 是否让程序员快 2 倍，你在用错坐标系
"整类应用不该存在" —— 不要问"AI 能加速这个 App 多少"，问"这个 App 在 Software 3.0 里还需要存在吗"
"模型的锯齿形不是 bug，是训练方式的直接后果" —— 如果你在某个领域用 AI 效果差，先问"这个领域有没有被 RL 覆盖"
"Vibe Coding 对专业软件是危险的" —— 它抬高了地板但也引入了漏洞。Agentic Engineering 的纪律是：你仍然对软件负全责
"部署比编码难 10 倍" —— 2026 年的瓶颈不是写代码，是让代码在真实世界跑起来。谁能让部署变成一句 prompt 谁就赢了
"招聘必须重构" —— 如果你还在用 puzzle/白板面试招 AI 时代的工程师，你在筛选错误的能力

隐藏前提与提防

Karpathy 是 AI 建设者，不是用户代言人 —— 他的"从没这么落后"可能因为他用的是前沿（GPT-5.5、Opus 4.7），普通用户可能还在用去年的模型体验
Software 3.0 "整类应用消失"的论断需要限定条件 —— Menu Gen 是 demo 级应用，真正的 SaaS 有状态管理、权限系统、支付合规等，不是一句 prompt 能消灭的
"10x 以上"没有数据支撑 —— 他多次说"从我的视角看远超 10x"，但这是定性观察，不是 benchmark
Sequoia 的台上说的话有选择偏差 —— AI Ascent 是 Sequoia 的 AI 年会，台上嘉宾天然倾向于放大 AI 能力（这是为 portfolio 公司鼓劲的场合）
"理解不可外包"是当前状态，不是永恒真理 —— Karpathy 自己也说"我希望回来时发现理解也被自动化了"，他承认这是暂时的瓶颈