Claude 3.5一夜封王,10倍的编码速度绝世,全网最全面的实测来了。
昨日,Anthropic在深夜发布了Claude,下一代旗舰大模型。 3.5 Sonnet。
据悉,Claude 3.5 Sonnet不仅在评估中超过了GPT-4o,而且保持了GPT-4o的作用。「中杯」最好的性价比,超过了自己的Claude 3 Opus。
如今,Claude 3.5 在全球范围内,Sonnet已开启免费试用。
就成本而言,Sonnet处理每百万输入token只需3美元,每百万输出token只需15美元。
对比之下,GPT-每100万输入token收费5美元,每100万输出token收费15美元,在价格上可以算是不相上下。在正式对战中,每个家庭都已经降到了成本价。
前OpenAI对齐团队负责人Jan Leike说,我喜欢Sonnet新模型。我经常要求它向我解释ML论文。虽然不一定都是对的,但可能比我略读好,速度也快很多。自动对齐研究越来越近...
有些网民也表示,「Claudee可以为我的一半工作。 3.5 完成Sonnet,我非常激动。」。
MichaelaelAnthropic的产品经理 Gerstenhaber称新模型为新模型「全世界最智能的模型」。
他指出,「在这一行业,我们正处在寒武纪大爆发的开始。」。
今年的晚点期,Claude 3.5 最强版本的Haiku和Claude 3.5 Opus将陆续推出。
模型制造商是完全卷起来的!
网友实测
Claude 3.5 Sonnet发布后,在全网引起了强烈的反响,许多网民开始了一波测试。
十倍的编码速度惊人
首先来看看Claude 3.5 Sonnet敲击代码的速度有多可怕。
网民们只是在一次对话中使用threejs cannonjs建立了包含物体和碰撞效果在内的3D太阳系模型。
另外一位网友表示,使用Claude 3.5 与GPT-4相比,Sonnet编码的效率是任何其它大型语言模型的10倍。全新的Artifacts功能,可以在聊天旁边生成和运行代码,令人惊叹。
没有什么比使用Claude更好的了。 3.5 为了解密维吉尼亚密码,Sonnet一次性编写了一个程序。
许多网民纷纷称赞Claude 3.5 快速起飞的Sonnet速度。
一个2分钟的小游戏
一个开发者直接用了不到2分钟的时间,做了一个小狗戴着太阳镜吃骨头的游戏。
其他人花了3分钟制作马里奥克隆版,并为人物提供了动画效果。
还有另一款「原创」Color游戏 Cascade。
建立蛇梯棋游戏需要2分钟。
网友表示,「通过新的Artifacts功能,我可以实时查看代码并玩游戏。使用Claude的代码感觉比GPT-4和Gemini好10倍」。
这个网民用Sonnet做了一个乒乓球游戏。
与ChatGPT不同,它不使用编码编译器。在此过程中,我们可以制作html/其中一个选项的文档、笔记和其他内容。jss。
神经网络可视化
有些人还做了可视化深度学习,但由于消息有限,不得不暂停。
以下是用动画效果来解释反向传播的工作原理。
重建3D「模拟矩阵」
Claude 3.5 在第一次尝试中,Sonnet是第一个可以再现电影《黑客》的人。「数据流」3D情景模型。
而且,在制作恐怖游戏时,Claude 3.5 与Opus相比,Sonnet的3D结构更好。
SVG效果图
Claude 3.5 独角兽SVG图片可以在Sonnet中绘制。
它甚至可以生成芯片制造过程的示意图。
「井字棋」游戏失败
在使用新模型后,OpenAI研究科学家德扑鼻祖表示,
比如GPT-4o(现在有Claude 3.5 Sonnet)这种前沿模型,在许多方面都有可能达到。「聪明的高中生」水平,但它们是形象「井字棋」这种基本任务无法完成。
每个人都希望原生的多模态训练能有所帮助,但事实并非如此。
改变Artifacts的互动交互
从上面可以看出,这次更新的一个亮点就是Claude。 Artifacts引入了超强实时交互功能。
这个功能,可以算是开启互动AI最具潜力的方法。
它标志着Claude从对话AI向合作工作环境的转变。将来,Anthorpic的想法是,整个组织可以专注于知识、文档和工作,而Claude将随时提供服务。
Ethan在沃顿商学院教授 在Mollick看来,Artifacts可以说是一个简化代码编译器。
就是这样一款螃蟹游戏,他开始建立。
最初的版本是这样的,略显平淡。
教授直接问,游戏能不能有点吓人?接着气氛瞬间就上来了。
每个人的直观感受是,使用Claude和Artifacts就像在IDE工作一样。
这位日本网友说,简单地说,Artifacts就是一个显示代码浏览的功能。易于直观地理解,可用于多种目的。
-网站创建
-形状
-图形
-文档
-简单游戏
这有助于建立一个简单的网站。
只需告诉它“制作计算器应用程序”,一个使用React的计算器应用程序浏览即可完成。
使用Artifacts,Sonnet可以使用HTML来建立简单的ppt材料。
这位网友发现,在这个过程中,设计照片可以显示给Sonnet,他们将使用这些图片作为参考。
Claude 3.5 Sonnet不仅比GPT-4o或其它LLMs具有更高的编码效率,而且由于Artifacts功能可以在聊天旁边生成和运行代码,因此可以提供令人惊叹的使用体验。
例如,让它用React生成一个贪吃蛇的游戏。
接下来,我们还可以用自然语言来修改游戏,例如做一个漂亮的背景,或让蛇有一个化身。
Artifacts功能完全贯彻了从对话人工智能到协调工作环境的理念,因为它可以在创建游戏的同时立即在右窗口玩这个游戏。
总体而言,Artifacts似乎是Claude长远景的一个信号。
很长一段时间,Anthropic一直表示,他主要关注公司,并计划把Claude变成一个工具,让公司「安全地」把他们的知识、文档和正在进行的工作集中在一个共享空间。
听起来,这个概念更像是Notion或者Slack,而非ChatGPT。Anthropic模型将位于整个系统的中心。
打GPT-4o,上一代2倍速度。
总的来说,Claude 3.5 在生成率方面,Sonnet已经完成了升级,是上一代超大杯Claudee。 3 2倍于Opus。
而且,新模型在视觉上完全超越了GPT-4o。上个月刚刚发布的OpenAI新模型,没想到这么快就被取代了。
下面是官方博客中的一些基准测试。
从图中可以看出,Claude 在大多数标准中,3.5已领先GPT-4o、Gemini Llama-400B模型1.5。
在代码标准中,Claude 在零样本的前提下,3.5取得了92%的成绩。数学方面,零样本 ClaudeCoT加持 GPT-4o仍然落后于3.5。
就视觉标准而言,Claude 3.5 在视觉问答MMU标准上,Sonnet略逊于GPT-4o。
然而,在视觉数学推理、科学表格、图表问答、文档问答等方面,都取得了最高分。
Claude不仅可以准确地识别和转录图像中的文本内容,而且结合强大的代码生成能力,真正地将多种模式集成在一起。
与众不同的是,Claude 3.5 与GPT-4o相比,Sonnet并没有集成语音助手,或者可以生成图像,而且Anthropic暂时没有这样的准备。
Danielanielalanielanthropic联创兼总裁 在接受彭博独家采访时,Amodei指出,「我们的目标是让它成为所有企业业务的首选模型」。
她继续说,从研究的角度来看,我们可以生成图像导出,但是画一个「滑雪的猫」图像并非我们的企业客户所需要的,所以我们并不优先考虑这一点。
当前,制药巨头Pfizer已使用Claude模型,帮助发现新药。
未来,模型越智能,支持这种非常高水平的智商工作的力量就越大。显然,Anthropic正在努力进一步多元化它想要看到的企业和公司。
Artifacts,一种可以扩展Claude交互技术的新功能,是一种新的尝试。
Anthropic的提高速度,简直令人惊叹。
现在Anthropic的这一步,一定会迫使其他竞争者跟上。
要知道,Claude并不像Gemini或者ChatGPT那样受到更多的关注,但是它在赛场上很受欢迎。
参考资料:
https://www.anthropic.com/news/claude-3-5-sonnet
https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/
本文来自微信微信官方账号“新智元”(ID:AI_era),作者:新智元,编辑:编辑部,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com