GPT-5.3与Gemini 3.1 Flash-Lite同日发布,轻量模型各显神通

3天前

本文来自微信公众号:APPSO,作者:发现明日产品的,原文标题:《刚刚,GPT-5.3 新模型撞车 Gemini,OpenClaw:谢谢你们》



就在近日,OpenAI与Google几乎同时推出了各自的轻量AI模型,试图打破外界对轻量模型的刻板印象。简单来说:



GPT-5.3 Instant:更具「人情味」的智能助手,大幅降低幻觉率、减少「AI腔」并强化细节写作能力,沟通更自然精准,适用于对内容质量要求高的场景(如写作、专业问答、高风险领域)



Gemini 3.1 Flash-Lite:主打性价比与速度,还支持「思考等级」调节功能,在保持高吞吐量的同时兼顾深层逻辑推理,适合大规模、高实时性的批量任务(如内容审核、UI生成、NPC对话)



GPT-5.3 Instant:终于能像正常人一样聊天了



经常使用ChatGPT的用户或许都有过这样的困扰:只是随口问个小问题,它却总要先铺垫一段「作为人工智能,我需要提醒你……」的冗长内容。



这种略显说教的「AI腔」确实容易让人反感。好在OpenAI这次真正听取了用户反馈。



新上线的GPT-5.3 Instant重点解决了这个问题,学会了直接给出答案,不再啰嗦铺垫。





除了简洁,它也变得更可靠。旧版本联网搜索后,常把一堆链接和无关信息堆砌给用户。



得益于搜索能力的提升,GPT-5.3 Instant会主动结合网页内容与自身背景知识,先理解用户的真实需求,再给出有重点的回答,而非简单转递搜索引擎结果。





OpenAI内部评测显示,联网状态下幻觉率降低26.8%,仅依赖内部知识时也降低19.7%。官方特别指出,在医疗、法律、金融等高风险领域,新模型的谨慎度与准确性均有明显改善。



最令人惊喜的是它在写作上的进步。



OpenAI用一首诗对比说明:同样写费城邮递员退休最后一天,旧版本倾向堆砌「把城市背在邮袋里」这类抒情句,新版本则会描写「掉漆的蓝色栏杆」「总有狗等待的栅门」,情绪自然流露,无需刻意营造。



语气调整也是此次更新的核心目标之一。



「停下。深呼吸。」这类打断对话节奏的句式被刻意减少,整体风格更直接,减少不必要的「AI腔」。用户仍可在设置中自定义回复的温暖度与热情度,调整到习惯的交互风格。





GPT-5.3 Instant即日起向所有ChatGPT用户开放,API名称为「gpt-5.3-chat-latest」。付费用户仍可使用旧版GPT-5.2 Instant,但它将于今年6月3日正式退役。



彩蛋时间



Gemini 3.1 Flash-Lite:便宜、反应快,还很聪明



与GPT-5.3 Instant的「好好说话」不同,Gemini 3.1 Flash-Lite走务实路线,目标明确:追求速度与低成本。



价格方面,Gemini 3.1 Flash-Lite输入价格为0.25美元每百万tokens,输出价格为1.50美元每百万tokens。



这意味着开发者花不到2元人民币,就能让AI阅读相当于5本《哈利·波特》全集的文字量。



别以为便宜没好货。



据Artificial Analysis基准测试,相比上一代Gemini 2.5 Flash,3.1 Flash-Lite的首字响应时间(TTFT)快2.5倍,整体输出速度提升45%。对于实时响应产品,这种延迟差距在用户体验上肉眼可见。





这意味着眨眼间,回答可能已生成一半。对于即时翻译、游戏NPC对话、即时UI生成等实时反馈应用,低延迟至关重要。



此外,Gemini 3.1 Flash-Lite具备「思考」能力。



在AI Studio和Vertex AI中,Google为该模型配备「思考等级(Thinking Levels)」选项,开发者可根据任务复杂度自主调节模型「思考深度」。





简单的高吞吐量任务(如批量翻译、内容审核)可用轻配置快速完成;复杂任务(如界面生成、仿真创建)则可让模型多花时间推理,确保结果扎实。



这种灵活能力带来了不错的成绩:Arena.ai排行榜Elo分数达1432,GPQA Diamond(研究生级问答)测试准确率86.9%,多模态理解MMMU Pro达76.8%,甚至超过了体量更大的Gemini 2.5 Flash。





目前,3.1 Flash-Lite以预览版通过Google AI Studio和Gemini API向开发者开放,企业用户可通过Vertex AI接入。Latitude、Cartwheel、Whering等早期合作伙伴已完成生产环境测试,认可其大规模调用下的稳定性与指令遵循能力。



两款模型各有定位:GPT-5.3 Instant让交互更像人,Gemini 3.1 Flash-Lite追求更快更省钱。以近期热门的OpenClaw为例,其处理邮件、管理日程的核心场景需要模型说人话、少出错、扛高频调用——GPT-5.3的低幻觉率与自然语气满足前两点,Gemini的速度与低成本则适配高并发需求。



附上参考地址:



https://openai.com/index/gpt-5-3-instant/



https://gemini.google.com/u/4/app/e0bea96b8f62bd1f


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com