Opus 4.7的真相:半步升级与模型商品化陷阱
Claude Opus-4.7 Just Dropped, And...
本报告由 AI 深度分析生成,基于视频完整字幕。
导读
Nick Saraev 是一位拥有七年 AI 模型应用经验的创业者,早年从事本地营销服务,后转型为 AI 自动化业务。他以务实的视角著称,擅长在行业噪音中抽取真正有价值的信号。在 Anthropic 发布 Opus 4.7 后数分钟内,他发布了这期快速分析视频,从基准测试数据出发,推导出一个核心结论:Opus 4.7 是一次精心设计的"半步"升级,真正值得关注的不是模型本身,而是整个行业正在滑入的"模型商品化陷阱"。
一、基准测试全景:数学般精确的"半步"
Nick 首先展示了 Opus 4.7 与 Opus 4.6、GPT 5.4、Gemini 3.1 Pro 以及 Mythos Preview 的基准测试对比表。他发现了一个有趣的规律:Opus 4.7 的成绩几乎精确地落在 Opus 4.6 和 Mythos Preview 的中间值。
具体数据:
- 软件工程基准(SWE-bench Pro) :从 53.4% 提升至 64.3%,增幅约10个百分点——几乎是 Opus 4.6 到 Mythos Preview 差距的精确一半
- 人类最后的考试(Humanity's Last Exam) :从 40% 提升至 46.9%,Mythos 为 56.8%——再次是接近一半的位置
- 视觉推理:从 69.1% 大幅跃升至 82.1%,这是最大的单项提升
- 研究生级推理:表现优异,"better than most Master's degrees"(比大多数硕士学位更好)
Nick 对此的解读是直接的:"My take on how Opus 4.7 was trained is it's probably Mythos Preview just distilled, basically dummified down a little bit and running on a lot faster and better hardware."(我认为 Opus 4.7 的训练方式大概就是把 Mythos Preview 蒸馏了,简化了一点,然后在更快更好的硬件上运行。)
这个判断很有分量。 如果 Opus 4.7 确实是 Mythos Preview 的蒸馏版,那它的能力上限就已经被 Mythos 预先定义了。模型的基础能力并未突破,只是在安全可控的范围内释放了更多。
二、被刻意削弱的两个能力
在一片提升中,有两个指标反常地下降了,这才是最耐人寻味的部分:
- 代理式搜索(Agentic Search / BrowseComp) :79.3%,低于 Opus 4.6 的表现
- 网络安全漏洞复现:略低于 Opus 4.6
Nick 认为这不是意外:"Maybe that again is like where most of the computer security concerns came from."(这可能正是大部分计算机安全顾虑的来源。)
结合代理式终端编码(Agentic Terminal Coding)仅从 65.4% 微升至 69.4%(而 Mythos 为 82%)的数据,Nick 推断 Anthropic 在终端控制、网络搜索和安全领域进行了刻意的能力压制。
他的解释很直接: "Part of me feels like this is the part that's been disproportionately dumbed down."(我有部分感觉这些是被不成比例地弱化了的部分。)因为这些能力——控制终端执行 bash 脚本、探测端口、浏览和搜索网络——恰恰是 Mythos Preview "hacked the entire internet"(入侵了整个互联网)时使用的核心能力。
三、Anthropic 的安全困境:核武器类比
Nick 对 Anthropic 限制 Mythos Preview 访问的态度很有意思——他理解但不完全认同。
他提到 Anthropic 内部的比喻:"According to the Anthropic staff, they believe it's like giving kids nuclear freaking weapons."(据 Anthropic 的人说,他们觉得这就像把核武器交给小孩。)
但他也坦承:"Obviously I would much rather have that nuclear bomb in my hand."(当然,我更希望那个核弹在我自己手里。)
更值得注意的是他对"恶意论"的反驳。 Nick 明确表示,他不认为 Anthropic 是为了建立某种"永久底层阶级"(permanent underclass)而限制访问。他说:"I think anytime in history there's been the ability to point a finger at somebody... and then say they're doing this stuff because they're evil and they hate us. Yeah, for the most part, we're usually wrong."(我认为历史上每次有人指着某个组织说他们做这些是因为邪恶和仇恨,基本上我们都判断错了。)
这个立场在当前 AI 社区弥漫的"大公司阴谋论"中显得尤其清醒。
四、核心论断:AI 的零到一时刻早已过去
这是整个视频中最尖锐的判断。Nick 直言:"Does this open up any new applications? Not really. My main take is that AI does not make things possible anymore. It just makes things slightly more profitable."(这开启了什么新应用吗?并没有。我的核心观点是,AI 已经不再让事情变得可能了,它只是让事情稍微更有利可图。)
他把 AI 真正的"零到一"时刻定位在2020 年 GPT-3 发布——当时你第一次可以用自然语言向模型发出请求,让它转化为 bash 命令。"Like that to me was the zero to one moment. Everything else has just been like horizontal expansion of the capability."(那对我来说才是零到一的时刻。之后的一切都只是能力的水平扩展。)
他用自己的业务举了一个生动的例子: 七年前他挨家挨户敲门和打电话做本地营销,一小时能接触 10-15 家企业。如今用 Opus 4.6,同样的时间可以触达超过 5,000 家,而且用更个性化、更高质量的方式。这个从 15 到 5,000 的跃迁确实已经发生了——Opus 4.7 不过是把 5,000 变成 5,200 而已。
五、模型商品化陷阱:别追着基准测试跑
Nick 对行业趋势的批评非常直接。他指出一种危险的行为模式:开发者为了 3-4% 的基准测试提升,不断在模型之间切换,每次都要重建整个基础设施。
"Over the course of the last couple months, I've seen so many people switching from Opus 4.6 to GPT 5.4 because they're chasing like a 3 to 4% higher score in agentic coding, but then they also have to completely rejig their entire infrastructure to accommodate that."(过去几个月,我看到无数人从 Opus 4.6 切换到 GPT 5.4,因为他们追逐代理式编码上 3-4% 的分数提升,但他们也不得不完全重建整个基础设施来适应这一变化。)
他给出的建议是:不要追逐闪亮的新东西。 除了基准测试之外,模型之间还有"personality differences"(个性差异),如果当前模型在你的场景里工作得不错,花时间优化提示词和构建更好的脚手架(scaffolding),比切换模型更有价值。
他的一句总结很精练: "Don't chase the shiny objects."(别追闪闪发光的东西。)
六、预测:下一代模型将饱和所有基准
Nick 做了一个大胆的预测:大多数基准测试将在一个模型世代内被饱和。
他用一个直觉化的解释来支撑这个判断——当你在基准测试上达到 50% 时,你实际上已经完成了 90% 的路程,因为进步曲线呈指数型。"If you're scoring 50%, you're over here. And realistically, the gap between your 50% and the 100% is pretty pretty small."(如果你得了 50%,你在这里。实际上从 50% 到 100% 的差距非常非常小。)
这意味着基准测试本身正在失去鉴别力。 当所有顶级模型都在各项基准上达到 90%+ 时,用基准测试来选择模型将变得毫无意义。那时真正的差异化因素将是什么?Nick 暗示了答案:模型的个性、生态系统、使用体验和商业关系。
他还预测 OpenAI 的"Spud"(新 GPT 模型)很可能会在 Opus 4.7 之后几天内发布,竞争节奏正在加快。
金句收录
"My take on how Opus 4.7 was trained is it's probably Mythos Preview just distilled, basically dummified down a little bit." (我认为 Opus 4.7 的训练方式大概就是把 Mythos Preview 蒸馏简化了一点。)
"AI does not make things possible anymore. It just makes things slightly more profitable." (AI 已经不再让事情变得可能了。它只是让事情稍微更有利可图。)
"The zero to one moment was 2020 when OpenAI dropped GPT-3." (零到一的时刻是 2020 年 OpenAI 发布 GPT-3 的时候。)
"Don't chase the shiny objects. The models are going to continue getting better." (别追闪闪发光的东西。模型会继续变好的。)
"According to the Anthropic staff, they believe it's like giving kids nuclear freaking weapons." (据 Anthropic 的人说,他们觉得这就像把核武器交给小孩。)
"When you're half of the way there, you're actually kind of like 90% of the way there." (当你完成一半时,你实际上已经完成了大约 90%。)
"That sort of commoditization, I think, is rather unfortunate and probably gets in the way more than it actually fixes things." (这种商品化,我认为相当不幸,它造成的阻碍可能比解决的问题更多。)
时间线索引
| 时间 | 内容 |
|---|---|
| [00:00] | 开场:Opus 4.7 刚刚发布,预告 OpenAI 新模型也即将发布 |
| [00:26] | 基准测试对比总览:Opus 4.7 是 4.6 到 Mythos 的"半步" |
| [00:57] | 推测 Opus 4.7 是 Mythos Preview 的蒸馏版本 |
| [01:23] | Anthropic 对安全的顾虑与"核武器"类比 |
| [01:46] | 软件工程基准详细分析:10% 提升 |
| [02:14] | 代理式终端编码:提升较小,可能因安全限制 |
| [03:03] | 人类最后的考试:从 40% 到 46.9% |
| [03:29] | 预测所有基准将在一个世代内饱和 |
| [03:58] | 异常下降:代理式搜索表现不及 Opus 4.6 |
| [04:23] | 金融分析、计算机使用等其他基准解读 |
| [04:52] | 视觉推理:最大单项跃升(69.1% → 82.1%) |
| [05:41] | 安全相关能力被刻意削弱的综合分析 |
| [06:29] | 反驳"大公司阴谋论":Anthropic 的动机并非恶意 |
| [06:53] | 个人经历:从一小时 15 家到 5000 家的效率跃迁 |
| [07:39] | 核心论断:AI 的零到一时刻早已过去 |
| [08:02] | AI 不再让事情变得可能,只让事情更有利可图 |
| [08:51] | 模型商品化趋势与追逐基准测试的弊端 |
| [09:44] | 警告:为 3-4% 提升切换模型得不偿失 |
| [10:31] | 总结:不要停下手头的工作去追逐新模型 |
评论
还没有评论,来第一个留言吧 ✨