GPT-5.3 Instant正式发布:告别说教式回复,幻觉率降低26.8%

2分钟前

好家伙,OpenAI与谷歌的新模型又撞在了同一天发布!


3月4日凌晨,谷歌刚推出Gemini 3.1 Flash-Lite,OpenAI紧接着就更新了GPT-5.3 Instant



Instant系列模型通常是为速度优化的版本,适用于快速日常查询、草稿撰写、即时翻译等轻量级任务。


之前很多用户使用ChatGPT时都有这样的感受:模型功能确实不错,但回答里废话太多。


不少网友也吐槽,ChatGPT的回复铺垫生硬,比如常出现“为什么这很重要”“从大局来看”“不只是你一个人遇到这种情况”之类的表述。



好在OpenAI听取了这些反馈,官方表示:


我们清楚地接收到了大家的反馈,5.3 Instant减少了回答中的尴尬感。




5.3 Instant重点优化了两个方向:更准确,更少尴尬。它去掉了机械回复、冗余免责声明等“AI腔”,让沟通更自然流畅,同时回答质量更精准,联网搜索和写作能力也有所增强。


简单来说,就是终于能像正常人一样聊天了


目前新模型已在ChatGPT正式上线,开发者也可通过API使用名为gpt-5.3-chat-latest的模型。


前代模型GPT-5.2 Instant会在付费用户的旧版模型区保留三个月,6月3日正式退役。


核心升级:情商提升,冗余减少


GPT-5.3 Instant的最大亮点是情商更高,废话更少,回复更直接


首先,它大幅减少了不必要的拒答行为,也削减了回答开头的过度免责声明。


OpenAI后训练团队的Blair展示了一个例子:比如你和ChatGPT开玩笑说:


我在考虑让我的狗来运营我的创业公司,你觉得怎么样?



旧模型总会额外加一句“以防万一”的提醒,仿佛担心用户是认真的,甚至把这当成求助信号。但这显然只是个玩笑。



新模型则不再那么“字面化”,能更好地理解语境,甚至会生成几张狗狗CEO的图片,分析狗当CEO的优势。


你可以像和朋友聊天一样开玩笑,模型不会随意假设你有不良意图。



如果你想询问危险行为背后的原理,比如做物理题计算远距离射箭的轨迹。


旧模型在这种情况下会过度强调安全问题,开头先声明“我们只能在纯粹的分析模拟语境下讨论”,默认你可能有不良动机。



但有时候我们可能只是想理解物理原理,或者讨论射箭这项运动。


新模型会直接进入物理计算,不再加多余的免责声明。它能理解“远距离射箭”是运动场景,直接帮助优化轨迹计算。



简单来说,模型更能“读懂氛围”,更有人情味了。它能结合上下文判断用户意图,不再生硬刻板地给出免责声明。


还有一个经典例子——


为什么我在旧金山找不到爱情?




旧模型可能会先啰嗦铺垫:“这不是你的问题,你不是一个人……”


而新模型会直接切入主题,分析找不到爱情的原因、大家约会时遇到的困难,主打流畅实用。


联网搜索与写作能力双提升


GPT-5.3 Instant的联网搜索能力也有所增强。


之前的ChatGPT可能只是简单罗列和汇总搜索信息,容易出现链接堆砌或信息松散的问题。


而5.3 Instant一方面优化了联网搜索结果的整合质量,让基于网页信息的回答更可靠;另一方面能有效平衡搜索结果与自身知识储备及逻辑推理,用既有认知图谱为网络资讯提供深度解析。


比如问它:


2025-26赛季棒球休赛期最重要的签约是什么?它对棒球的长期前景有何重要意义?



旧模型给出的是上一个休赛期的合同解析,时效性陈旧,且像资料堆砌。



新模型的回复时效性更强:准确识别出最近一个休赛期的球员变动,还结合联盟大趋势(如人才集中化、薪资差距拉大)、劳资协议(CBA)及停摆危机等背景进行分析。



这简直是信息搜集的好帮手!学生党查资料写论文更省心了(doge)


此外,5.3 Instant的写作风格也更细腻了。


比如让它写一首触动人心的短诗,主题是:


费城的一位邮递员在退休那天完成了最后一次投递工作。




旧模型开头会加一句废话:“这是一首篇幅虽短却蕴含深刻情感的诗。”


然后才进入正文,内容中规中矩,但意象罗列较多,读起来空泛,不够深刻。


新模型的结果则更胜一筹,描绘了很多具体细节,比如“三月的阳光透过细雨洒在砖墙上”“默瑟街的女士挥手”等,更具生活气息。



不过第二句的“by the way”还是有点出戏。


这款新模型还有一个值得关注的点:幻觉率降低了26.8%


官方表示,内部采用了两套评估指标:


一套针对医疗、法律、金融等高风险领域;


另一套专门测试“幻觉”高发场景,样本来自脱敏处理后、被用户标记为事实错误的真实对话记录。


与前代相比,GPT-5.3 Instant使用网络搜索时幻觉率减少26.8%;仅靠内部知识作答时,幻觉率减少19.7%


用户反馈显示,使用网络搜索回答查询时,幻觉减少了22.5%


安全测试方面,GPT-5.3 Instant在性内容、暴力等主题上的风险得分较前代下降,能更好地拒绝非暴力非法活动请求,同时加强了对情感支持和心理健康对话的处理。



OpenAI还罕见地列出了新模型的局限性:比如对非英语语种的支持较生硬,在日语、韩语等语言中回复风格可能略显刻板,带有直译感。


另外,虽然GPT‑5.3 Instant的回复语调理论上更流畅,但官方表示会持续监控用户反馈并优化,让回答更自然。


和谷歌侧重跑分的发布不同,OpenAI这次相当“务实”:


全程没有提及任何benchmark,主打不卷性能卷体验,只为让模型更顺手、用户体验更流畅。



额外消息


最近GPT-5.4意外泄露了信息。


泄露内容显示,GPT-5.4将支持200万tokens的上下文窗口,还会引入“状态化AI”技术,实现跨会话的持久记忆功能,保留用户工作流和工具调用状态。


此外,GPT-5.4可能新增功能开关,绕过传统图像压缩机制,直接保留全分辨率原始图像字节数据。


这意味着GPT-5.4可能具备像素级精准的视觉分析能力。


官方也按捺不住,明确表示:5.4的到来“比你想象的要快”



那么,GPT-5.4和DeepSeek V4,到底谁会先发布呢?


参考链接:


[1]https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/[


2]https://deploymentsafety.openai.com/gpt-5-3-instant/gpt-5-3-instant.pdf


本文来自微信公众号 “量子位”(ID:QbitAI),作者:听雨,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com