GPT-5:OpenAI商业化野心的体现,模型瓶颈下创业者的机遇

08-09 07:09

北京时间8月8日凌晨,OpenAI发布了最新一代的GPT模型——GPT-5。但此次模型发布,没有ChatGPT和GPT-4发布时那种震撼的气势,也未像o1发布时引领模型范式。

从发布会公布的benchmark来看,GPT-5性能仅以个位数优势领先其他厂商在2025年发布的SOTA级别模型,失去了以往的代差优势。不过,此次发布有几个值得关注的点,下面简要分析,与关心AI的创业者和技术人员分享。

1. 合成数据的可用化

发布会上,OpenAI技术专家介绍,在GPT-5训练中,让GPT-4o、o3等前一代模型生成训练数据,使GPT-5获得推理、规划、分解任务的能力。OpenAI设计了“合成流程”,让模型生成“正确类型数据”,提高了合成数据在模型训练中的作用。这种新应用为先进模型训练提供了新可能,不过要让模型解决更复杂问题,还需高质量人类标注数据和可靠的数据质量评估系统。

2. Agent变得越来越重要

Agent是2025年AI应用领域热门关键词,这波热潮由OpenAI 2月发布的“Deep Research”功能引发。Agent本质不仅是模型 + 工具,还需从训练阶段就让模型能力为其优化。2025年,以Agentic AI为目标的AI模型增多,如海外的o3、Claude4,国内的Qwen3、Kimi K2。

GPT-5也对工具调用能力进行着重微调。在模拟真实世界场景的测试集Tau²中,其在电信领域测试结果较o3和GPT-4.1有长足进步。latent.space对GPT-5的测试显示,一方面,只需自然语言描述就能让GPT-5调用工具;另一方面,它擅长并行使用工具,这需要较高智能,能并行化使用工具使基于GPT-5构建更复杂的Agent产品成为可能。总之,GPT-5会与工具一起思考,并用工具构建程序。

3. GPT-5在编程方面进行了着重升级

编程是AI模型着重强调的能力,GPT-5在SWE-bench和Aider Polyglot等测试上较o3有明显提高,但在SWE-bench指标上仅领先Claude 4.1 Opus 0.4%。

实际编程能力上,GPT-5进步更大。它擅长智能体式编码,“修改bug”能力也更好,分别对应商业化复杂编程和个人化“Vibe Coding”。latent.space的测试中,困难“测试题”o3 + Cursor和Claude 4 Opus无法解决,GPT-5却能一次性解决。关键在于模型调用工具方式不同,GPT-5编程时会多次思考、迭代,而Claude 4 Opus是想清楚再做。

模型厂商和应用创业公司重视AI编程,是因为编程是AI应用领域已探明市场容量最大的方向之一,有助于缓解营收压力。Anthropic和OpenAI对编程投入增大,表现也越来越好。

4. GPT-5不是向着AGI优化的,它是OpenAI进一步加强商业化的产物

尽管OpenAI及其CEO Sam Altman强调以AGI为长期愿景,但从GPT-5及2025年发布的一系列产品和功能看,其商业化属性在增强。2025年,OpenAI在ChatGPT中发布DeepResearch引领Agent热潮,加强Canvas功能,为GPT-4o加入生图功能,还加入学习模式,让ChatGPT变成个人教师。这些针对用户体验的升级使ChatGPT用户数和收入增加,周活用户超7亿,付费用户达500万,订阅收入27亿美元。

企业级商业化方面,GPT-5 API价格对标Gemini 2.5Pro,大幅低于Claude 4 Opus,有吸引力。此外,它大幅降低模型幻觉,提高上下文长度,减少解决复杂问题时使用的token数量,提高了可用性,降低了成本。

5. 模型的进步进入瓶颈期,对于创业者是坏事么?

2025年,开源的DeepSeek R1席卷全球,Gemini 2.5Pro成为新的SOTA模型标杆,但大语言模型进步速度停滞。马斯克的Grok4和GPT-5虽强,但进步是渐进式的,大语言模型性能进步可能暂时遭遇瓶颈。

对于应用端创业者来说,这并非坏事。AI应用是快鱼吃慢鱼的游戏,拼速度、创新和对用户的感知,大厂在创业公司面前无优势。Notion的Ivan Zhao面对AI时代新挑战兴奋不已,这种创业和创新状态值得欣赏。

本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:发现非凡创业者的阿尔法公社,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com