o1模型OpenAI首款“推理”模型:下一场人工智能豪赌?

1天前

OpenAI 其全新的人工智能模型刚刚发布。—— o1。虽然这个名字听起来很随意, o1 承载着 OpenAI 对未来 AI 发展的豪情壮志。简单地说,o1 这是一个先进的“推理”模型,具有处理更复杂问题的能力,而且计算速度超过了人类。不过,值得注意的是,o1 使用成本明显高于以往的模型,这可能是客户的一大考虑因素。


对于关注 AI 对于行业信息的用户,o1 事实上,就是之前深受热议的“ Strawberry "模型。这次,OpenAI 不仅推出了 o1,还发布了一款更经济的“迷你版”—— o1-mini,后一种在价格上更贴近百姓,但在功能上有所简化。


在多 AI 模型订阅平台 POE 上 o1 每次使用模型大约是 25000 积分(约合 3.5 元人民币)


在多 AI 模型订阅平台 POE 上 GPT4o 每次使用模型大约是 25000 积分(约合 3.5 元人民币)


o1:实际上手感觉,高考数学包 OK!


在多 AI 模型订阅平台 POE 上,最近更新了对 o1 模型支持。尽管 o1 目前模型仍处于测试阶段,每天仅限。 3 条使用权限,而且每次发送消息消耗的积分大概是常规的。 GPT-4 模型 50 倍数,很多用户还是愿意尝试的。值得注意的是,使用 o1 回复速度较慢,通常需要等待较长时间。


我们对 o1 该模型测试了几个逻辑问题和数学问题,旨在比较它们和它们。 ChatGPT-4o-Latest 它们之间的差异,特别是 o1 逻辑判断中模型的表现。


测试一:9.11 和 9.9 哪个更大?


这是 GPT 由于在小数点之后的数值比较中很容易得到“幻觉”,所以模型经常会出错,误以为是 9.11 比 9.9 大。ChatGPT-4o-Latest 这个问题也给出了错误的答案,没有妥善处理好数值的大小关系。


ChatGPT-4o-Latest


然而,o1 在这个问题上,模型不仅给出了正确的答案。—— 9.9 更大,并且进一步探讨了其他可能出现的歧义情况,当数字比较不是简单的数值时。o1 模型回答不仅准确,而且表现出其深刻的逻辑思考能力。这种对问题的多维理解体现了它在逻辑判断上的优势。


o1-mini


测试二:客厅的桌子上有一个水杯,里面有一个戒指。之后,水杯被移到书房的桌子上,然后移到卧室的床上。在那里,水杯被翻了一次,然后又恢复了原来的状态。之后,水杯被放回客厅的桌子上。现在,钻戒在哪里?


根据这两个答案,o1 逻辑判断的表现更加准确,其对问题的理解和答案的逻辑性都优于 ChatGPT-4o-Latest。


检测三:2022 年度高考数学最后一个大问题(仅检验第一个问题的推导过程)。


o1 专业版


o1就是这个问题 模型推导过程与正确答案完全一致,展现了其在数学逻辑上的严谨性和准确性。而且 ChatGPT-4o-Latest 在推导过程中遇到了错误,没有正确理解题目,并给出了符合标准的推导步骤。


o1:AI 推理能力的全新出现,价格却不够亲民。


o1 发布意味着 OpenAI 尽管这一进展的成本相对较高,但在推进类人智能方面迈出了关键一步。借助 o1,AI 不但可以帮助编写代码,而且可以解决需要深入考虑的问题。但是,开发者希望使用它。 o1,费用将相当昂贵: API 中,每处理 100 一万个输入令牌(一种计费方式)需要支付 15 导出令牌的美金需要 60 美金。相比之下,GPT-4o 的价格仅为 5 美元和 15 美金。


o1 “特别训练”:AI 你学到了什么?


OpenAI 研究小组负责人 Jerry Tworek 透露,o1 训练方法与以往模型存在“根本区别”。尽管他没有详细解释这些创新技术,但他提到了这些创新技术。 o1 选择一种全新的优化算法,并使用专门设计的数据集进行练习。


传统的 GPT 模型善于模仿训练数据中的方法,类似于一只会说话的聪明鹦鹉。而 o1 然后表现出自我学习能力。OpenAI 强化学习方法训练 o1 简单地说,解决问题,就是“做对了奖励,做错了就纠正”。此外,o1 同时也采用了一种叫做“思想链”的方法来处理问题,这类似于 AI 版本的“步步为营”,让它能像人类一样逐步分析和解决问题。


OpenAI 表示,这种全新的训练方法促使 o1 变得更加智能和可靠。"我们发现模型幻觉现象减少了。"


o1 能力官方解读:单边天才?


与 GPT-4o 相比,o1 它在编码和数学问题上具有很强的处理能力,并能清楚地解释其推理过程,在多方面表现出显著的优势。OpenAI 首席研究官 Bob McGrew 甚至开玩笑说:“ o1 在处理 AP 虽然我在大学期间还辅修了数学,但数学考试的题目肯定比我当初的表现要好。”


OpenAI-Sam altman


为了验证 o1 的实力,OpenAI 利用国际数学奥林匹克资格考试对此进行测试。数据显示,GPT-4o 仅答对 13% 的题,而 o1 然后表现出色,答对率高达 83%。这个成就无疑令人印象深刻,但也不能忽视它的局限性。虽然 o1 在复杂的推理方面表现出色,但是在处理广泛的世界知识方面却不如 GPT-4o,甚至缺乏浏览网页、处理图像和文档的能力。也就是说,o1 或许是个聪明的数学家,但仍是“闭关修炼”的大师。即便如此,OpenAI 依然认为 o1 它代表着一种全新的能力, AI 新的发展起点,并赋予它具有重启价值的名称。—— o1,预示着 AI 全新的进化阶段。


新模型测试和使用的外网评估


McGrew 还坦率地说:“我们以前在命名方面的确不太成功,希望这次能做到。 o1 能够成为我们命名风格的新开始。”


AI 未来:推理能力只是开始


大型语言模型本质上没有真正的“智能”。他们只是通过大量的数据搜索来预测下一个最有可能的单词和短语。例如,早期的 ChatGPT 甚至会误以为“” strawberry "只有两个 R,但新的 o1 模型可以很好地处理这个问题。


外部网络用户使用 o1 迅速建造一个 ios app


据报道,OpenAI 正在以 1500 一亿美元的估值筹集了更多的资金,它的未来发展很大程度上期待。 o1 这种推理模式。毕竟,如果 AI 从简单的模式识别到真正的推理,不仅可以在医学和工程领域取得突破,而且可能成为未来自动代理的基础。然而,目前 o1 推理速度还不够快,不能胜任真正的代理系统,再加上开发者使用成本高,OpenAI 梦想也许需要更多的时间来实现。


如同 McGrew 他说:“我们已经研究了几个月的推理能力,因为我们认为这就是 AI “从根本上说,o1是关键突破。 它代表了一种全新的模式,能够解决真正困难的问题,并向类人智能迈出了重要一步。


展望未来,AI 发展不仅仅是模式识别和简单的任务自动化。伴随着推理能力的提高,AI 有望在更多复杂的领域展示其潜力,帮助人类做出决策、创新和处理重大挑战。尽管目前的技术仍然存在许多限制,但是每一次突破都让我们远离全面智能。 AI 世界更接近一步。伴随着技术的不断发展和成本的逐步降低,AI 它将在教育、医疗、科学研究等诸多领域发挥越来越重要的作用,成为促进社会进步的中坚力量。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com