GPT-5.5深夜发布:当下最强AI的实力与局限,人类如何应对?

1分钟前

昨晚我就预感OpenAI可能要放大招,果然半夜如厕时刷手机看到GPT-5.5发布,瞬间睡意全无。


过去一周全球顶级AI公司模型连发,让人应接不暇,人类的智力空间似乎在不断缩小。



目前GPT-5.5已在ChatGPT和Codex上线,但仅限Plus以上会员使用,每月至少需支付20美金才能体验这款当下可能最强的AI模型。


我第一时间体验后,最大感受是它确实很强,却并非我心中目前最好用的AI。接下来先聊聊它的优势,再分享几个我用GPT-5.5完成的案例。


OpenAI官网介绍GPT-5.5时,用了“A new class of intelligence for real work”这句话。



这显然是在强调它是专为解决实际工作问题打造的新一代智能模型。通俗来讲,就是GPT-5.5完成工作任务的效率更高,成本却更低。


先看官方发布的多领域测试榜单,涵盖日常工作、科研、工具使用等多个方面。重点关注GPT-5.5与Claude Opus 4.7的巅峰对决。



从榜单可见,GPT-5.5基本完胜Claude。我挑几个和普通打工人相关的测试来说明它的强大之处。


比如GDPval测试,模拟AI在44个职业领域完成知识型工作,GPT-5.5得分84.9%。



放到现实工作场景中,这意味着用它完成各领域知识型工作的能力更强,像产品经理分析需求、做竞品报告、原型设计、数据分析,创作者产出内容,财务分析以及文档写作、PPT设计等。


再说说GPT-5.5的编码能力。为什么各大AI厂商发布新模型都爱强调编码能力?原因很简单,编程能很好地考察模型的问题分析、路径规划、方案执行能力以及问题解决成功率。


过去有些模型虽能编程,但需要多次人机互动调教才能完成任务。现在的新AI模型追求自我分析、规划和执行,尽量减少人为干预。GPT-5.5主打的Agentic Coding正是这个理念,让AI自主完成编码任务。


官网测试基准显示,5.5版本全面超越之前的5.4版本。



另外,编码工作是AI付费的主流场景之一。GPT-5.5还有个重要特点:完成特定任务时Token消耗与5.4持平,但效率和成功率更高。这意味着实际Token消耗会减少,因为过去可能需要多轮会话才能完成的事,现在一次就能搞定。


GPT-5.5的工具调用和电脑视觉化操作能力也是目前最强的。



尤其是电脑视觉化操作,这是未来Agent替我们完成实际工作的重要标准。也就是说,给OpenClaw或Hermes配上GPT-5.5模型,它们的工作能力会进一步提升。



讲完榜单和能力,来看几个案例。OpenAI自己做的案例是上传参考图,让GPT-5.5基于Artemis II任务的真实数据开发太空轨迹应用,展示地球、月球、猎户座的动效轨迹。



提示词为“Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.”


这个案例的效果相当出色。再看我用GPT-5.5做的带交互效果的高保真原型图,原始需求就一句话。


提示词:“设计一套关于健康管理App的高保真原型页面,带交互,产品名字是EasyLife,核心功能包括注册、登录、主页、个人身体数据显示,包括一些图表等。设计风格带圆角,整体简洁风。”


注意,需求里既没说详细业务逻辑,也没描述功能模块,甚至单一模块的逻辑都没提及。丢给GPT-5.5后,它自主分析、设计、执行,还写好了前端代码。



有个细节:原始需求里没有“活动”和“报告”模块,但开发版本默认带了,只是页面为空。点击时提示页面暂未开发,我跟它提了一句。



大概一两分钟后,它就给出了完整版本。看过我之前文章的读者可能有印象,去年减脂时我用其他AI产品做过类似App,当时折腾很久效果还不好,现在GPT-5.5的效果已经可以直接使用了,关键是基本一两步就完成,无需多轮会话。


回到开头的观点:GPT-5.5确实很强,是目前最强的AI模型,但对我来说不是最好用的。


原因很简单,取决于使用场景和目的,也就是你的工作流是什么。


对我而言,内容创作、产品设计、咨询业务是已形成的工作流,我用5个AI员工实现了自动化,这在昨天的文章里提过。



但这些工作流里没有全能模型能胜任所有工作,所以我会在不同场景和任务下让不同Agent搭配不同模型,就像雇佣不同能力的员工。


比如内容辅助创作,目前最强的还是Claude Opus 4.6;Agent事务处理和本地化操作,主要用GPT-5.4;产品类工作,Claude和GPT表现差不多,但Claude性价比不高。我也用国产模型,事务型工作或AI团队调度管理常用Kimi、MiniMax和GLM。


其实不管用什么模型,核心是有没有能让AI接入的工作流。如果只是用AI查信息、聊天,用什么区别不大。


现在AI发展很快,很多人焦虑,但焦虑没用,关键是想清楚能用AI做什么。每次打开对话框却无所适从,这才是值得深思的。


时代发展速度只会越来越快,让人焦虑的不是技术进展,而是跟不上节奏。核心问题在于传统思维和认知受限、信息差存在,以及行动能力匮乏。


你们可能发现我最近更新文章频率很高,有时一天两篇。不是时间变多了,而是我身处这轮发展进程中,还有了AI团队。我不想错过,所以投入其中。


刚写完这篇文章,AI圈又有大事:DeepSeek V4来了!或许我刚得出的结论又要被推翻了。


本文来自微信公众号“唐韧”(ID:RyanTang007),作者:唐韧,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com