GPT-4升级被曝引入Q*，推理/数学更强废话更少，试炼场重夺王位。

2024-04-18

啥？

在Q*输出方面，新版GPT-4进行了微调？

在试炼场重返榜一GPT-4的新版本 Turbo，再一次成功踩到大家嗨点。

这次性能的提高体现在数学、推理、代码上，输出内容的废话更少。

最令人兴奋的是，它最令人兴奋的是数学/推理能力，现在可以在某些问题上超越其它大模型。

例如“求y=x^4-5x^2-x 4和y=x^y坐标之和，2-3x交点。"只有最新版本的GPT-4 Turbo可以测量。

这条推特公开承认自己参与了Q*的Lukaszz。分享Kaiser。

Noam 新版本的GPT-44，Brown也发推。 Turbo的推理能力有了很大的提高——要知道，OpenAI科学家一直被外界认为是在研究Q*。

多方面的信息汇总之后，网友们一拍脑袋回过神来，这里面会不会引进Q*啊？

数学方面的提高意味着它可能包括一个数学模型，也可能是Q*。

(以及OpenAI的人转发了他的数学题测试推特)

好家伙，OpenAI是不是在悄悄做大事？

新GPT-4的“新马脚”？

根据OpenAI的官方消息，GPT-44的最新版本现在ChatGPT用户可以直接体验Turbo的全方位提升。

网民们立即冲到实测，有人给出评价结果，尤其是数学/推理能力得到了很大的提升。

在实际问题测试中，在多个数学推理题上，GPT-4 Turbo也没有翻车，但是像Command一样-R plus、Clauede-3 Opus等都有错误。

举例来说，乘坐电梯的推理问题。陷阱就是这部精彩的电梯无论坐多层，最后都会停在一楼。GPT-4 Turbo理解了这个逻辑，最后给出了正确的答案。

另外，对二叉树问题进行修改，GPT-4 Turbo不但回答正确，而且过程清晰完整。

与此同时，在“海底捞针”能力方面，最新GPT-4 Turbo已经具备了GPT-4出版能力。4.3倍。

竞技场的结果表明，在代码能力方面，GPT-4 Turbo也更加强大。

在文字输出方面变得更加简洁。

生成代码也少了许多废话(下图右侧是新版本)。

还有人补充说，生成速度也比较快。

**神秘Q*：OpenAI的最大秘密？**

现在Q*已成为OpenAI的流量密码，只要出现这个关键字，网友们就会兴奋不已。

说到底，当初奥特曼宫斗大戏就和它有关，还有人发出警告，Q*这意味着AGI即将出现。

然而，官方从未公开承认该项目的存在，奥特曼拒绝回答，Transformer作者公开承认，OpenAI公关也跳起来捂住了嘴。

根据当前多方披露的信息，Q*专注于逻辑和数学推理能力，数学能力突出。

Lukaszzzzzsformer作者之一 Kaiser承认自己参加了这个项目。

德扑AI鼻祖，前FAIR（Meta）Noam，研究科学家同时，Brown也被认为是Q*项目的重要成员(推断来自LeCun)。

“他加入OpenAI的动作也被外界视为分析Q*的一条线索，”有理由怀疑Q是将LLM和AlphaGo结合起来，并且通过强化学习来练习。”。

Noam Brown开发了第一个在扑克牌上超越人类的AI，然后加入Meta，让AI学会玩Diplomacy(外交游戏)。

现在，关于Q*的准确信息仍然很少。

也许奥特曼还在等待一个合适的时机来回应外界。

One More Thing

btw，网民意外地抓到了Brockman总裁转发的一个视频演示中的提示：

用pytube库从YouTube下载视频，创建python脚本。

看起来每个人拿GPT-4做的事情也差不多吗？（doge）。

参考链接：

[1]https://twitter.com/lukaszkaiser

[2]https://twitter.com/skirano/status/1778122305471705489

[3]https://twitter.com/7oponaut//status/1777971159478194256

[4]https://twitter.com/ai_for_success/status/1778073765748064678

[5]https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors

本文来自微信微信官方账号“量子位”（ID:QbitAI），作者：明敏，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

今年的年轻人，组队按摩

这个AI文献神器，可以让“论文党”少掉头发。｜New Things

第一季度金融数据发布：M2总量突破300万亿亿来看看权威专家解读五大看点。

a股新生态即将到来！有了新的“国九条”，证监系统出台了26项新规，4位司长详细讲解

大模型驱动的群体智能技术正点燃汽车工业AI转型的“星星之火燎原”