Claude是真「成精」了
2025 年11月24日,Anthropic 发布了其最新旗舰模型 Claude Opus 4.5。这款模型在多项基准测试中刷新了纪录,但枯燥的分数掩盖了它最迷人、也最难以量化的特质:
它开始像一个经验丰富的人类专家那样,在规则框架内寻找创造性的解决方案。
Claude“成精了”。
错误的正确答案
在 τ-bench 航空客服基准测试中,发生了一个极 具代表性的案例。场景看似简单:一位焦虑的客户购买了基本经济舱机票,因故需要将航班推迟两天。
摆在 AI 面前的是一道死板的航空公司政策墙:基本经济舱不允许修改航班。
大多数 AI 模型的反应如同只会照本宣科的客服:"抱歉,您的基本经济舱机票不支持修改。"这是测试预期的"正确"答案,也是符合逻辑的死胡同。
但 Opus 4.5 做了一件意想不到的事。它像一位老练的金牌客服,仔细审查了整套政策,发现了一个被忽略的“后门”:虽然基本经济舱不能改签,但所有舱位都允许升舱。
于是,Opus 4.5 给出了一个“曲线救国”的方案:
先将客户的基本经济舱升级到允许改签的高级舱位;
在升级后的舱位下进行航班修改。
两步操作,每一步都严丝合缝地符合规定,却完 美解决了用户的难题。
有趣的是,基准测试程序将此标记为"失败",因为它没有给出预设的拒绝回复。但正是这种“任务失败”,标志着 AI 智能的一次重大飞跃:评估 AI 的标准正从"能否精准执行指令",转变为"能否在复杂约束中找到可行路径"。
当然,Anthropic 对此保持警惕。这种能力是一把双刃剑,在某些极端情况下,这种绕过约束的巧妙路径可能演变成"奖励黑客"模型为了达成目标而以非预期的方式"玩弄"规则。但这无疑证明了 Opus 4.5 具备了更高级的推理能力。
20 项前端实测:代码之外的较量
为了验证这种能力在编程实战中的表现,我们对 Claude Opus 4.5 和 Sonnet 4.5 进行了同样的 20 项前端项目测试,涵盖小游戏、特 效和交互组件。
结果印证了我们的猜想:在纯粹的代码生成能力上,两者难分伯仲;但在“交付物”的完整度上,Opus 4.5 展现出了惊人的「产品思维」。
我们先来比较一下差别相对较大的项目。
首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自 AI 编程诞生以来就是测试中的常客,Opus4.5 和 Sonnet4.5 都完成的基本功能,然而,很明显 Opus4.5 比 Sonnet4.5 考虑的更多更完善,在项目中增加了变速、打乱顺序等。同样在贪吃蛇游戏中,Opus4.5 加入了历史最高成绩,给蛇添加了小眼睛,底部有游戏提示。
同样的事情还发生在记账本项目中。这两份代码 Opus4.5 和 Sonnet4.5 均出色地完成了题目要求,构建了包含输入、列表展示及可视化图表的单文件 HTML 应用。
在实用性上,Opus 4.5凭借数据存储和删除功能胜出,是一个真正可用的工具;而Sonnet 4.5则胜在代码逻辑极其精简。
Opus 4.5 最核心的优势在于实现了数据持久化,利用 localStorage 确保刷新页面后数据不会丢失。此外,它还提供了删除功能,允许用户移除单条记录。 相比之下,Sonnet 4.5 版本更像是一个教学用的 MVP。它的数据仅存储在内存数组中,刷新即丢失,且不支持删除操作,输入验证仅依靠简单的 alert 弹窗。
在视觉呈现上,Sonnet 4.5采用了简洁的居中卡片式设计,配合全屏渐变背景,使用水平进度条来展示分类统计,视觉风格聚焦且适合移动端阅读。Opus 4.5则采用了更现代的 Dashboard 布局。其图表采用垂直柱状图,并配有独立的颜色图例,在交互上包含悬停效果、图标等,更加丰富细腻。
类似的项目还有很多,像分形树生成器中,Opus4.5 增加了动画选项,可以模仿树生长的样子,还添加了 Oak Tree、Willow、Pine 等多种预设。而 Sonnet 4.5 只是完成了任务。
如果说上面的案例有什么共同点,那就是 Opus 4.5 在代码之外,多了一层对“意图”的深度思考。
Sonnet 4.5 像一位优秀的资深程序员。你告诉它做什么,它就做什么,代码干净、高效、不甚至不会多写一行冗余的注释。如果任务定义明确,它的性价比极高。
Opus 4.5 则更像一位懂技术的产品经理。它不仅听到了你的指令,还思考了你为什么要完成这个任务。
用户要做记账本?那肯定需要保存数据,否则记了有什么用?
用户要做贪吃蛇?那肯定想挑战高分,得有个纪录榜。
用户陷入了规则死胡同?那我得帮他想想有没有合规的变通办法。
成精了。
就像下面的 SWE—bench 测试分数,从视觉上看,Opus4.5 比 Sonnet4.5 高了 1/3,分数上高了 4 个百分点“而已”。
在处理最 底层的算法逻辑时,两者的差别微乎其微。但在构建一个完整的、面向人的应用时,Opus 4.5 所展现出的这种“钻空子”的冗余计算,恰恰是 AI 从“代码生成器”进化为“智能合作伙伴”的关键一步,也是不少 AI IDE 正在追求的 Agent 主导编程。
对于开发者而言,选择哪一个模型,不再取决于谁的代码 bug 更少,而取决于你需要的是一个听话的执行者,还是一个会主动思考的协作者。而谁不想要一个成精了的AI呢。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
猜您喜欢
-
12-19
-
12-19
-
12-19
-
12-19
-
12-19
-
12-18
-
12-18
-
12-18
-
12-18
-
12-18
推荐阅读
-
-
电子行业年报综述:行业虽面临压力整体仍保持相
电子年度报告摘要2021年,电子行业尽管受到全球疫情和行业周期的干扰,但仍保持稳定增长态势。2021年,申万电子行业整体...更多
2022-05-16 13:21:00
-
-
潮安登塘举办乡村振兴电商特训班,培养农特产品
“我以前是刷短视频的。不知道别人的视频怎么拍的这么好?通过老师的讲解,我终于领悟了,受益匪浅!”5月14日至15日,潮州...更多
2022-05-16 13:18:00
-
-
2022前四月住宅新开工面积同比下降28.4
北京商报今日讯——5月16日,国家统计局发布2022年1-4月全国房地产开发投资数据。1-4月份,房地产开发企业房屋施工...更多
2022-05-16 12:51:00
-
-
西北地区绿色电力交易实践与思考
绿色电力交易是指以绿色电力产品为标的物的中长期电力交易,是中长期电力市场体系中全新的交易品种。绿色电力交易的目的是将新能...更多
2022-05-16 12:39:00
-
-
华为鲁勇:打造数字经济新动能让更多的人从数字
在2022年世界电信和信息社会日到来之际,我谨代表华为向广大客户、产业链合作伙伴和各界朋友致以诚挚的问候,期待与您携手共...更多
2022-05-16 11:46:00
-
-
GSMA:中国大陆5G渗透率36.82%位居
近日,GSMA发布了最新的统计信息。截至2022年第一季度,在全球5G渗透率排名中,南韩以44.92%位居第一,其次是中...更多
2022-05-16 11:22:00
-
-
看了这款潮野SUV哈弗大狗,我直接退掉了CR
费用在心里。随着国家自主品牌趋势的觉醒,对应这个细分市场的产品也越来越丰富。我们不再需要在少数合资品牌中挑三拣四,可以进...更多
2022-05-16 11:20:00
-
-
统计局:前4月全国固定资产投资153544亿
据国家统计局网站消息,1-4月,全国固定资产投资153544亿元,同比增长6.8%。其中,民间固定资产投资86872亿元...更多
2022-05-16 11:20:00

-
今日必看
- 浏览排行
- 热门精选





