机器人智能革命:PI创始人的洞见
World's Top Researcher on AI, LLMs, and Robot Intelligence
本报告由 AI 深度分析生成,基于视频完整字幕。
导读
Invest Like the Best 是顶级商业访谈播客,主持人 Patrick O'Shaughnessy 以"找到世界上最聪明的资本配置者"著称。这一期的嘉宾是 Sergey Levine——全球机器人学习领域最具影响力的研究者之一,也是 Physical Intelligence(简称 pi,融资估值已超 20 亿美元)的联合创始人。
Physical Intelligence 正在做一件雄心万丈的事:为物理世界的所有机器人打造"通用大脑"——一个能控制任意机械身体、完成任意任务的基础模型。这与 ChatGPT 的语言基础模型如出一辙,只是对象从"文字"变成了"物理动作"。
如果说 LLM 让每台电脑都有了"会说话的大脑",那么 Sergey 的目标就是:让每个机器人都有"会行动的大脑"。这篇报告将梳理他在访谈中披露的核心洞见——关于技术路线、研究哲学、行业挑战,以及机器人时代的到来究竟意味着什么。
阅读提示:原视频约 61 分钟,这是一次高密度的深度对话,值得完整聆听。
一、稻草人问题:机器人缺的不是身体,是大脑
Patrick 用一个精妙的比喻开场:机器人行业面临"稻草人问题"(scarecrow problem)——越来越多形态各异、功能强大的机械身体被制造出来,但它们都缺少一样东西:智能,也就是大脑。
Sergey 接过这个比喻,解释了 Physical Intelligence 的核心赌注:
"我们的目标是开发机器人基础模型,它能控制基本上任何具身系统(embodied system)来完成任何任务。就像语言模型正在迅速进化成能完成任何语言任务的系统,我们想构建一类能完成任何物理执行设备可执行任务的新模型。"
更有意思的是他们的反常识判断:追求完全的通用性,长期来看可能反而比专攻某个垂直领域更容易。这个观点有历史依据——语言模型的发展印证了这一点。
LLM 的历史教训
在 LLM 出现之前,NLP 领域充斥着无数专业模型:做机器翻译的、做情感分析的、做文本摘要的……每个团队都在深挖自己的垂直赛道。但后来 GPT 横空出世,一个模型就打趴了所有专业模型。
为什么?因为通用基础模型可以利用更广泛的数据来源。语言模型从整个互联网汲取知识,建立了对世界的深层理解,这种理解反过来让它在每个具体任务上的表现都超过了专门针对该任务训练的模型。
Sergey 将同样的逻辑引入机器人领域:与其训练一个只会洗碗的机器人、一个只会叠衣服的机器人,不如训练一个真正理解物理交互规律的模型——就像人类学会了骑自行车之后,学任何新的运动技能都会快很多,因为我们对物理世界的运作有直觉性的理解。
二、数据困境:机器人的互联网在哪里?
语言模型有互联网,有万亿规模的文本数据。机器人呢?没有。
这是机器人 AI 与 LLM 最根本的差距:没有天然存在的海量机器人操作数据。你不能从网上爬取机器人的动作轨迹。
Sergey 并不回避这个挑战,但他给出了一个令人意外的解法思路:
"我实际上认为我们不需要知道需要多少数据。我们需要做的是把系统做到足够有用,让它们能走进世界并自己收集更多数据。"
他引用了 Tesla 的例子——特斯拉不用担心数据不够,因为每辆行驶中的车都在收集数据,问题反而是"数据太多"。机器人也可以走同样的路:先做出一个足够有用的机器人版本,部署到真实环境中,让它一边工作一边积累数据,形成飞轮效应。
但他也坦诚,这条路并非一蹴而就。在机器人达到"足够有用"的阈值之前,Physical Intelligence 正在通过多种路径积累数据:
- 遥操作(人类操控机器人演示动作)
- 跨多种机器人平台共享数据
- 跨多种任务联合训练
关键洞见:数据通用性比数量更重要。一个模型如果能从多种机器人、多种任务中同时学习,它会建立起比只在单一场景反复训练更深层的物理理解。
三、令人惊喜的发现:泛化比想象中更自然
Sergey 在访谈中分享了 Physical Intelligence 成立以来最令他意外的发现,这些发现让他比原先更加乐观:
灵巧度的自然涌现
他原本预期,要让机器人掌握精细操作(比如用手指灵巧地处理小物件),需要针对性的特殊训练。但实际上:
"我们能让这些系统展现出非常灵巧的行为,而我们并没有针对这一点做任何特别的事情。随着数据积累,它就自然浮现出来了。"
这与 LLM 的"涌现"(emergence)现象非常相似——当模型规模和数据量超过某个阈值,能力会突然"冒"出来,而不是线性增长。
跨机体的惊人泛化
更令 Sergey 惊讶的是:在不同机器人上的迁移能力。他们的模型不仅能在训练时用的机械臂上工作,还能适配多关节手(multi-fingered hands)、不同自由度的机器人——甚至不需要告诉模型它在控制什么类型的机器人。
"我会以为我们需要一些花哨的技术来让系统适配不同的机体,但实际上它的泛化能力相当好,我们基本上什么都没做。"
这个发现有深远意义:它暗示物理交互的底层规律可能比我们想象的更普遍——无论是操作杯子、箱子,还是用不同形态的手,背后的物理逻辑是共通的。
四、最难突破的三道关卡
当然,机器人 AI 距离真正有用还有很长的路。Sergey 坦率地指出了三个最难的技术挑战:
1. 长尾场景处理
在受控环境(如餐厅后厨、酒店客房)中,Sergey 相当有把握系统能工作——这些环境虽然有一定混乱程度,但还算可预测。
真正难的是开放家庭环境:家里会发生的事情几乎是无限的——孩子跑过来、东西掉了、猫把杯子碰倒……机器人需要能对任何突发情况做出有意义的反应,而不是崩溃或造成伤害。
"当你处于几乎任何事情都可能发生的环境中,又在控制一个会影响周围世界的物理设备,你必须在几乎每种情况下都至少做出某种合理的行为。不是说要每次都成功,而是要每次都做出让人能接受的事情。"
2. 莫拉维克悖论(Moravec's Paradox)的陷阱
Sergey 多次提到"莫拉维克悖论"——人类觉得很难的事(下棋、解数学题),对 AI 来说相对容易;而人类觉得很容易的事(走路、拿起一个东西、搀扶老人),对 AI 来说极其困难。
最难的例子:老人护理和婴幼儿照护。帮助人从床上起来、搀扶行走……这些对人类是本能,但对机器人而言需要实时的物理感知、力度控制、意图理解,而且容错率极低。
"这些事情会比人们想象的难得多。而且它们是莫拉维克悖论的巅峰——正因为我们对这些事情太擅长、太直觉化,才容易低估它有多复杂。"
3. 社会接受度的非对称性
技术上可行,不等于社会愿意接受。Sergey 用早期特斯拉自动驾驶做类比:即使技术有缺陷但在可接受范围内,公众也可能愿意接受——但这个阈值因场景而异。
偶尔打碎一个碟子,或许可以接受;在有小孩的家里出现危险动作,绝对不行。这要求机器人公司在部署策略上有极强的分寸感。
五、强化学习 vs 模仿学习:两条路的赌注
访谈中有一段关于训练范式的对话,揭示了行业目前面临的核心不确定性:
机器人学会做事,主要有两种方式:
- 模仿学习(Imitation Learning):人类遥操作机器人演示,机器人模仿
- 强化学习(Reinforcement Learning):机器人自主尝试,靠奖励信号自我改进
两种方法都很重要,但哪个会成为主导,目前没人知道。Sergey 坦言:
"未来的机器人主要依赖演示数据,还是依赖自主数据,这个比例是 90:10 还是 10:90?我们希望在未来几年里能搞清楚,但这个答案会极大地影响正确的应对策略。"
他还分享了一个有趣的技术细节:人类遥操作时,动作之间有很多停顿(因为需要思考和处理信息),但机器人执行时不需要这些停顿。找到这些停顿并删除它们,可以让机器人比人类师傅做得更快更高效——这是 AI 可以在某些方面超越人类的一个具体例子。
强化学习则代表了另一种超越:让机器找到人类从未想到的解法。比如 AlphaGo 的"第 37 手"——人类围棋选手从未走过那一步,但 AI 通过自我博弈发现了它。
六、LLM 的大脑 + 机器人的身体:两条线的交汇
Sergey 将 AI 发展的两大成就做了有趣的对比:
| 代表 | 擅长的方向 | |
|---|---|---|
| 生成式 AI | LLM / GPT | 复现人类能做的事(写作、绘画、代码) |
| 深度强化学习 | AlphaGo | 超越人类认知的事(第37手) |
这两条线分别发展了十多年,各有各的辉煌,也各有各的局限。Physical Intelligence 的野心是把两者合并——用 LLM 带来的常识性世界理解,结合强化学习的自我提升能力,应用于物理机器人。
他特别指出,多模态 LLM 被适配到机器人控制,是近年来最重要的技术突破之一:这让机器人第一次有了"常识"——在面对奇怪情况时,不会完全懵圈,而是会做出某种"合理的"反应。
七、物理智能不只是运动,而是人类认知的基础
这段话是整个访谈中最具哲学深度的部分。
Sergey 提出了一个令人深思的观点:人类的物理智能不只用于做物理上的事,它渗透进了我们思考和语言的方式:
"人们会说'这家公司有很大的势头(momentum)'。你立刻就明白了这意味着什么。但如果你仔细想想,那是个非常复杂的陈述——它借用了物理学中的动量概念,对日常商业情况做了类比。"
他引用了费曼关于亚原子粒子"自旋"(spin)的访谈:粒子并不真的在旋转,但"自旋"这个词帮助物理学家建立了直觉,进而做出了真实有效的推论。
物理类比不只是帮助解释,它实际上生成了新的正确洞见。
这对 LLM 意味着什么?目前还不确定 LLM 是否真正理解这类物理类比。但这暗示:一个在物理世界中真正行动过、有具身经验的 AI,可能在理解和推理上拥有语言模型无法企及的深层能力。
八、机器人基础模型对企业的意义
Patrick 问了一个实际的问题:对于有劳动力密集型业务的传统企业,现在应该如何准备机器人 AI 的到来?
Sergey 的回答很诚实:这个问题现在很难回答,因为技术变化太快。一个关键的不确定变量是:未来的机器人主要靠人类演示训练,还是主要靠自主强化学习?这会决定企业该如何投资数据收集基础设施。
他给出了一个类比框架——AI 编程工具的经验:
- 不是"有了 Copilot 就不需要程序员了"
- 而是"程序员的生产力大幅提升,需求量可能反而上升了"
- 机器人 AI 可能类似:是人类劳动力的倍增器,而非替代者
他的具体建议是:搞清楚你业务中劳动力的经济学结构——哪些工作最昂贵、哪些最难招人、哪些最具重复性——这些是机器人 AI 最先带来价值的地方。
九、硬件成本的急速下降
这段数据令人震惊:
"大约十年前,我刚开始做机器人时,用的是一个叫 PR2 的机器人,成本大约 40 万美元。后来我在 UC Berkeley 建立实验室时,用的机器人成本在 3 万美元左右。现在,这台机器人(演示用的机械臂)每条臂的成本可能是那个的十分之一(约 3000 美元)。而且我们认为还能更便宜。"
这种成本压缩不只是量的变化,更是质的转折点:
- 研究门槛降低:过去只有大型实验室才能做机器人研究,现在普通研究团队也负担得起
- 创业门槛降低:更多初创公司可以进入这个领域实验
- 关键推论:未来可能出现 Physical Intelligence 想打造的局面——就像"个人电脑"一样,任何人都可以在车库里组装一个机器人,加载一个机器人基础模型,开始让它干活儿
Sergey 将这个前景比作个人电脑的出现:一旦有了足够通用的基础软件层,硬件形态的创新就会爆炸性涌现——手机里的电脑、汽车里的电脑、冰箱里的电脑……
十、顶级 AI 研究者的稀缺性
Patrick 提出了一个有意思的观察:全球 LLM 领域的核心进展,实际上只由极少数研究者驱动(他提到了 Ilya Sutskever 作为例子)。机器人 AI 领域是否也有类似的"关键少数人"格局?
Sergey 认同这个观察,并分享了他对"顶级研究者"特质的理解:
- 不只是智力超群,更重要的是极度专注——能在一个问题上持续深耕,而不是每隔几个月就跑去新方向
- 要有强大的品味——能直觉性地判断什么问题值得做、什么方向是死胡同
- 极度灵活:既能做纯理论研究,也能动手组装硬件,也能跑实验——"无论什么时候需要什么,他们就做什么"
他还提到了两种不同类型的研究者:
- 一种是深度专家:极度专注于某个具体问题,像激光一样
- 一种是广度驱动者:有很强的直觉和好奇心,愿意在不同领域之间跳跃
两种类型在 Physical Intelligence 都很受重视,因为机器人 AI 本质上是跨学科的问题。
金句收录
1. 稻草人问题
"Robotics has what I would call a scarecrow problem — all these amazing physical devices are becoming ever more possible, but what they all really need is an intelligence, a brain." (机器人面临我所说的"稻草人问题"——越来越多令人惊叹的物理设备正在成为可能,但它们真正需要的是智能,一个大脑。)
2. 通用性悖论
"Part of the thesis is that doing it at the full level of generality might actually in the long run be easier than trying to special case very specific narrow application domains." (我们的论点之一是:以完全通用的方式来做这件事,从长远来看实际上可能比针对非常具体的垂直领域做专项突破更容易。)
3. 机器人的 Tesla 飞轮
"Tesla doesn't worry about how much data their cars can collect — if anything, it's the other way around, that's a little too much data." (特斯拉不担心他们的车能收集多少数据——如果说有什么问题的话,那是数据太多了。)
4. 灵巧的涌现
"What was surprising is that we could get these systems to perform very dextrous behaviors without really doing anything particularly special for that." (令我惊讶的是,我们可以让这些系统展现出非常灵巧的行为,而我们并没有针对这一点做任何特别的事情。)
5. 物理类比与人类认知
"You could say 'that company has a lot of momentum.' You know exactly what it means. But if you think about it, that's quite a complex statement — there's a lot riding on that word momentum." (你可以说"那家公司有很大的势头"。你立刻就明白了。但仔细想想,这是个相当复杂的陈述——"势头"这个词承载了很多东西。)
6. DRL 的另一种强大
"DRL is impressive for the opposite reason — it does things that humans hadn't thought of, like move 37." (深度强化学习的令人印象深刻在于相反的原因——它做了人类从未想到的事情,比如第37手。)
7. 硬件成本革命
"When I started working in robotics about a decade ago, I worked with a PR2 which cost about $400,000. Now each arm on this thing is maybe a tenth of $30,000. We think that can be even less." (大约十年前,我开始做机器人研究时,用的是 PR2,成本约 40 万美元。现在,这台机器人每条臂的成本可能是 3 万美元的十分之一。我们认为还能更便宜。)
8. 研究者的最高品质
"They're just as happy building stuff as they are testing out experiments as they are just hammering away at things — whatever it takes." (他们做硬件搭建和跑实验一样开心,无论需要什么他们就做什么。)
9. 莫拉维克陷阱
"Elderly care, taking care of small children — those things are going to be hard and they're probably going to be harder than people think." (老年人护理、照顾小孩——这些事情会很难,而且可能比人们想象的还要难。)
10. 编程工具的类比
"It's not like coding tools came on the scene and suddenly we don't need software engineers anymore — it's that coding tools increase the productivity." (不是说编程工具一出现,我们就不需要软件工程师了——而是编程工具提升了生产力。)
时间线索引
| 时间 | 内容 |
|---|---|
| 00:00 | 开场介绍 — Physical Intelligence 的"稻草人问题" |
| 01:12 | 定义物理智能 — 像 LLM 之于语言一样的机器人基础模型 |
| 02:00 | 为什么赌通用性?— 语言模型的历史教训 |
| 04:07 | 通用路线的最大挑战 — 泛化难以演示,不如单任务机器人好看 |
| 05:29 | 如果成功了会怎样 — 个人电脑类比,机器人界的寒武纪大爆发 |
| 07:29 | 人形机器人热潮的判断 — 只是众多可能形态之一 |
| 09:33 | 机器人研究关键历史节点 — 从1986年的 Alvin 到现代 |
| 13:32 | 多模态 LLM 与机器人控制的结合 — 近年最重要突破 |
| 14:02 | Sergey 的个人研究史 — 从计算机图形学到机器人 |
| 15:49 | 强化学习与生成式AI的对比 — 两大AI成就的不同方向 |
| 19:00 | 当前 Physical Intelligence 的方法论 — 通用数据 + 跨机体学习 |
| 21:38 | 数据困境与飞轮解法 — Tesla 模式的机器人版本 |
| 23:05 | 最令人惊喜的发现 — 灵巧度和跨机体泛化超预期 |
| 24:19 | 比预期进展更快的事 vs 比预期更难的事 |
| 29:10 | 社会接受度挑战 — 打碎碟子可以,但家里有小孩时不行 |
| 30:22 | Physical Intelligence 核心方法论再拆解 |
| 35:00 | 什么是真正的 RL 数据飞轮 |
| 38:48 | 遥操作数据的优化 — 删除停顿让机器人比人类更快 |
| 40:01 | 形态因子与通用AI — 个人电脑的类比再现 |
| 41:18 | 联合创始人 Lauky 的自行车类比 — 物理智能的"顿悟时刻" |
| 44:00 | 猴子使用工具的神经科学研究 — 工具成为身体的一部分 |
| 48:10 | 莫拉维克悖论 — 老人护理和婴幼儿照护为何最难 |
| 49:40 | LLM 大脑的暗区 — 物理类比与人类认知的深层联系 |
| 51:04 | 顶级AI研究者稀缺的原因 |
| 54:38 | 研究与工程的区别,以及规模化制造的挑战 |
| 55:53 | 企业如何准备机器人AI — 编程工具类比 |
| 58:33 | Sergey 最喜欢的机器人 — Boston Dynamics Atlas |
| 59:23 | Boston Dynamics 的演示价值与商业化挑战 |
| 01:00:07 | Roomba 是史上最畅销消费机器人的反思 |
| 01:00:52 | 补充技术的惊喜 — 机器人硬件成本的急速下降 |
评论
还没有评论,来第一个留言吧 ✨