Claude 3.5一夜封王,10倍的编码速度绝世,全网最全面的实测来了。

06-23 01:47

昨日,Anthropic在深夜发布了Claude,下一代旗舰大模型。 3.5 Sonnet。


据悉,Claude 3.5 Sonnet不仅在评估中超过了GPT-4o,而且保持了GPT-4o的作用。「中杯」最好的性价比,超过了自己的Claude 3 Opus。


如今,Claude 3.5 在全球范围内,Sonnet已开启免费试用。


就成本而言,Sonnet处理每百万输入token只需3美元,每百万输出token只需15美元。


对比之下,GPT-每100万输入token收费5美元,每100万输出token收费15美元,在价格上可以算是不相上下。在正式对战中,每个家庭都已经降到了成本价。


前OpenAI对齐团队负责人Jan Leike说,我喜欢Sonnet新模型。我经常要求它向我解释ML论文。虽然不一定都是对的,但可能比我略读好,速度也快很多。自动对齐研究越来越近...


有些网民也表示,「Claudee可以为我的一半工作。 3.5 完成Sonnet,我非常激动。」。


MichaelaelAnthropic的产品经理 Gerstenhaber称新模型为新模型「全世界最智能的模型」。


他指出,「在这一行业,我们正处在寒武纪大爆发的开始。」。


今年的晚点期,Claude 3.5 最强版本的Haiku和Claude 3.5 Opus将陆续推出。


模型制造商是完全卷起来的!


网友实测


Claude 3.5 Sonnet发布后,在全网引起了强烈的反响,许多网民开始了一波测试。


十倍的编码速度惊人

首先来看看Claude 3.5 Sonnet敲击代码的速度有多可怕。


网民们只是在一次对话中使用threejs cannonjs建立了包含物体和碰撞效果在内的3D太阳系模型。


另外一位网友表示,使用Claude 3.5 与GPT-4相比,Sonnet编码的效率是任何其它大型语言模型的10倍。全新的Artifacts功能,可以在聊天旁边生成和运行代码,令人惊叹。


没有什么比使用Claude更好的了。 3.5 为了解密维吉尼亚密码,Sonnet一次性编写了一个程序。


许多网民纷纷称赞Claude 3.5 快速起飞的Sonnet速度。



一个2分钟的小游戏

一个开发者直接用了不到2分钟的时间,做了一个小狗戴着太阳镜吃骨头的游戏。


其他人花了3分钟制作马里奥克隆版,并为人物提供了动画效果。


还有另一款「原创」Color游戏 Cascade。



建立蛇梯棋游戏需要2分钟。


网友表示,「通过新的Artifacts功能,我可以实时查看代码并玩游戏。使用Claude的代码感觉比GPT-4和Gemini好10倍」。



这个网民用Sonnet做了一个乒乓球游戏。


与ChatGPT不同,它不使用编码编译器。在此过程中,我们可以制作html/其中一个选项的文档、笔记和其他内容。jss。


神经网络可视化

有些人还做了可视化深度学习,但由于消息有限,不得不暂停。


以下是用动画效果来解释反向传播的工作原理。


重建3D「模拟矩阵」

Claude 3.5 在第一次尝试中,Sonnet是第一个可以再现电影《黑客》的人。「数据流」3D情景模型。


而且,在制作恐怖游戏时,Claude 3.5 与Opus相比,Sonnet的3D结构更好。



SVG效果图

Claude 3.5 独角兽SVG图片可以在Sonnet中绘制。


它甚至可以生成芯片制造过程的示意图。


「井字棋」游戏失败

在使用新模型后,OpenAI研究科学家德扑鼻祖表示,


比如GPT-4o(现在有Claude 3.5 Sonnet)这种前沿模型,在许多方面都有可能达到。「聪明的高中生」水平,但它们是形象「井字棋」这种基本任务无法完成。


每个人都希望原生的多模态训练能有所帮助,但事实并非如此。




改变Artifacts的互动交互


从上面可以看出,这次更新的一个亮点就是Claude。 Artifacts引入了超强实时交互功能。


这个功能,可以算是开启互动AI最具潜力的方法。


它标志着Claude从对话AI向合作工作环境的转变。将来,Anthorpic的想法是,整个组织可以专注于知识、文档和工作,而Claude将随时提供服务。


Ethan在沃顿商学院教授 在Mollick看来,Artifacts可以说是一个简化代码编译器。


就是这样一款螃蟹游戏,他开始建立。


最初的版本是这样的,略显平淡。



教授直接问,游戏能不能有点吓人?接着气氛瞬间就上来了。


每个人的直观感受是,使用Claude和Artifacts就像在IDE工作一样。


这位日本网友说,简单地说,Artifacts就是一个显示代码浏览的功能。易于直观地理解,可用于多种目的。


-网站创建


-形状


-图形


-文档


-简单游戏


这有助于建立一个简单的网站。


只需告诉它“制作计算器应用程序”,一个使用React的计算器应用程序浏览即可完成。


使用Artifacts,Sonnet可以使用HTML来建立简单的ppt材料。


这位网友发现,在这个过程中,设计照片可以显示给Sonnet,他们将使用这些图片作为参考。



Claude 3.5 Sonnet不仅比GPT-4o或其它LLMs具有更高的编码效率,而且由于Artifacts功能可以在聊天旁边生成和运行代码,因此可以提供令人惊叹的使用体验。


例如,让它用React生成一个贪吃蛇的游戏。



接下来,我们还可以用自然语言来修改游戏,例如做一个漂亮的背景,或让蛇有一个化身。


Artifacts功能完全贯彻了从对话人工智能到协调工作环境的理念,因为它可以在创建游戏的同时立即在右窗口玩这个游戏。


总体而言,Artifacts似乎是Claude长远景的一个信号。


很长一段时间,Anthropic一直表示,他主要关注公司,并计划把Claude变成一个工具,让公司「安全地」把他们的知识、文档和正在进行的工作集中在一个共享空间。


听起来,这个概念更像是Notion或者Slack,而非ChatGPT。Anthropic模型将位于整个系统的中心。


打GPT-4o,上一代2倍速度。


总的来说,Claude 3.5 在生成率方面,Sonnet已经完成了升级,是上一代超大杯Claudee。 3 2倍于Opus。


而且,新模型在视觉上完全超越了GPT-4o。上个月刚刚发布的OpenAI新模型,没想到这么快就被取代了。



下面是官方博客中的一些基准测试。


从图中可以看出,Claude 在大多数标准中,3.5已领先GPT-4o、Gemini Llama-400B模型1.5。


在代码标准中,Claude 在零样本的前提下,3.5取得了92%的成绩。数学方面,零样本 ClaudeCoT加持 GPT-4o仍然落后于3.5。



就视觉标准而言,Claude 3.5 在视觉问答MMU标准上,Sonnet略逊于GPT-4o。


然而,在视觉数学推理、科学表格、图表问答、文档问答等方面,都取得了最高分。


Claude不仅可以准确地识别和转录图像中的文本内容,而且结合强大的代码生成能力,真正地将多种模式集成在一起。



与众不同的是,Claude 3.5 与GPT-4o相比,Sonnet并没有集成语音助手,或者可以生成图像,而且Anthropic暂时没有这样的准备。


Danielanielalanielanthropic联创兼总裁 在接受彭博独家采访时,Amodei指出,「我们的目标是让它成为所有企业业务的首选模型」。


她继续说,从研究的角度来看,我们可以生成图像导出,但是画一个「滑雪的猫」图像并非我们的企业客户所需要的,所以我们并不优先考虑这一点。


当前,制药巨头Pfizer已使用Claude模型,帮助发现新药。


未来,模型越智能,支持这种非常高水平的智商工作的力量就越大。显然,Anthropic正在努力进一步多元化它想要看到的企业和公司。


Artifacts,一种可以扩展Claude交互技术的新功能,是一种新的尝试。


Anthropic的提高速度,简直令人惊叹。


现在Anthropic的这一步,一定会迫使其他竞争者跟上。


要知道,Claude并不像Gemini或者ChatGPT那样受到更多的关注,但是它在赛场上很受欢迎。


参考资料:


https://www.anthropic.com/news/claude-3-5-sonnet


https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/


本文来自微信微信官方账号“新智元”(ID:AI_era),作者:新智元,编辑:编辑部,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com