Claude 3.5一夜封王，10倍的编码速度绝世，全网最全面的实测来了。

2024-06-23

昨日，Anthropic在深夜发布了Claude，下一代旗舰大模型。 3.5 Sonnet。

据悉，Claude 3.5 Sonnet不仅在评估中超过了GPT-4o，而且保持了GPT-4o的作用。「中杯」最好的性价比，超过了自己的Claude 3 Opus。

如今，Claude 3.5 在全球范围内，Sonnet已开启免费试用。

就成本而言，Sonnet处理每百万输入token只需3美元，每百万输出token只需15美元。

对比之下，GPT-每100万输入token收费5美元，每100万输出token收费15美元，在价格上可以算是不相上下。在正式对战中，每个家庭都已经降到了成本价。

前OpenAI对齐团队负责人Jan Leike说，我喜欢Sonnet新模型。我经常要求它向我解释ML论文。虽然不一定都是对的，但可能比我略读好，速度也快很多。自动对齐研究越来越近...

有些网民也表示，「Claudee可以为我的一半工作。 3.5 完成Sonnet，我非常激动。」。

MichaelaelAnthropic的产品经理 Gerstenhaber称新模型为新模型「全世界最智能的模型」。

他指出，「在这一行业，我们正处在寒武纪大爆发的开始。」。

今年的晚点期，Claude 3.5 最强版本的Haiku和Claude 3.5 Opus将陆续推出。

模型制造商是完全卷起来的！

网友实测

Claude 3.5 Sonnet发布后，在全网引起了强烈的反响，许多网民开始了一波测试。

十倍的编码速度惊人

首先来看看Claude 3.5 Sonnet敲击代码的速度有多可怕。

网民们只是在一次对话中使用threejs cannonjs建立了包含物体和碰撞效果在内的3D太阳系模型。

另外一位网友表示，使用Claude 3.5 与GPT-4相比，Sonnet编码的效率是任何其它大型语言模型的10倍。全新的Artifacts功能，可以在聊天旁边生成和运行代码，令人惊叹。

没有什么比使用Claude更好的了。 3.5 为了解密维吉尼亚密码，Sonnet一次性编写了一个程序。

许多网民纷纷称赞Claude 3.5 快速起飞的Sonnet速度。

一个2分钟的小游戏

一个开发者直接用了不到2分钟的时间，做了一个小狗戴着太阳镜吃骨头的游戏。

其他人花了3分钟制作马里奥克隆版，并为人物提供了动画效果。

还有另一款「原创」Color游戏 Cascade。

建立蛇梯棋游戏需要2分钟。

网友表示，「通过新的Artifacts功能，我可以实时查看代码并玩游戏。使用Claude的代码感觉比GPT-4和Gemini好10倍」。

这个网民用Sonnet做了一个乒乓球游戏。

与ChatGPT不同，它不使用编码编译器。在此过程中，我们可以制作html/其中一个选项的文档、笔记和其他内容。jss。

神经网络可视化

有些人还做了可视化深度学习，但由于消息有限，不得不暂停。

以下是用动画效果来解释反向传播的工作原理。

重建3D「模拟矩阵」

Claude 3.5 在第一次尝试中，Sonnet是第一个可以再现电影《黑客》的人。「数据流」3D情景模型。

而且，在制作恐怖游戏时，Claude 3.5 与Opus相比，Sonnet的3D结构更好。

SVG效果图

Claude 3.5 独角兽SVG图片可以在Sonnet中绘制。

它甚至可以生成芯片制造过程的示意图。

「井字棋」游戏失败

在使用新模型后，OpenAI研究科学家德扑鼻祖表示，

比如GPT-4o(现在有Claude 3.5 Sonnet）这种前沿模型，在许多方面都有可能达到。「聪明的高中生」水平，但它们是形象「井字棋」这种基本任务无法完成。

每个人都希望原生的多模态训练能有所帮助，但事实并非如此。

改变Artifacts的互动交互

从上面可以看出，这次更新的一个亮点就是Claude。 Artifacts引入了超强实时交互功能。

这个功能，可以算是开启互动AI最具潜力的方法。

它标志着Claude从对话AI向合作工作环境的转变。将来，Anthorpic的想法是，整个组织可以专注于知识、文档和工作，而Claude将随时提供服务。

Ethan在沃顿商学院教授在Mollick看来，Artifacts可以说是一个简化代码编译器。

就是这样一款螃蟹游戏，他开始建立。

最初的版本是这样的，略显平淡。

教授直接问，游戏能不能有点吓人？接着气氛瞬间就上来了。

每个人的直观感受是，使用Claude和Artifacts就像在IDE工作一样。

这位日本网友说，简单地说，Artifacts就是一个显示代码浏览的功能。易于直观地理解，可用于多种目的。

-网站创建

-形状

-图形

-文档

-简单游戏

这有助于建立一个简单的网站。

只需告诉它“制作计算器应用程序”，一个使用React的计算器应用程序浏览即可完成。

使用Artifacts，Sonnet可以使用HTML来建立简单的ppt材料。

这位网友发现，在这个过程中，设计照片可以显示给Sonnet，他们将使用这些图片作为参考。

Claude 3.5 Sonnet不仅比GPT-4o或其它LLMs具有更高的编码效率，而且由于Artifacts功能可以在聊天旁边生成和运行代码，因此可以提供令人惊叹的使用体验。

例如，让它用React生成一个贪吃蛇的游戏。

接下来，我们还可以用自然语言来修改游戏，例如做一个漂亮的背景，或让蛇有一个化身。

Artifacts功能完全贯彻了从对话人工智能到协调工作环境的理念，因为它可以在创建游戏的同时立即在右窗口玩这个游戏。

总体而言，Artifacts似乎是Claude长远景的一个信号。

很长一段时间，Anthropic一直表示，他主要关注公司，并计划把Claude变成一个工具，让公司「安全地」把他们的知识、文档和正在进行的工作集中在一个共享空间。

听起来，这个概念更像是Notion或者Slack，而非ChatGPT。Anthropic模型将位于整个系统的中心。

打GPT-4o，上一代2倍速度。

总的来说，Claude 3.5 在生成率方面，Sonnet已经完成了升级，是上一代超大杯Claudee。 3 2倍于Opus。

而且，新模型在视觉上完全超越了GPT-4o。上个月刚刚发布的OpenAI新模型，没想到这么快就被取代了。

下面是官方博客中的一些基准测试。

从图中可以看出，Claude 在大多数标准中，3.5已领先GPT-4o、Gemini Llama-400B模型1.5。

在代码标准中，Claude 在零样本的前提下，3.5取得了92%的成绩。数学方面，零样本 ClaudeCoT加持 GPT-4o仍然落后于3.5。

就视觉标准而言，Claude 3.5 在视觉问答MMU标准上，Sonnet略逊于GPT-4o。

然而，在视觉数学推理、科学表格、图表问答、文档问答等方面，都取得了最高分。

Claude不仅可以准确地识别和转录图像中的文本内容，而且结合强大的代码生成能力，真正地将多种模式集成在一起。

与众不同的是，Claude 3.5 与GPT-4o相比，Sonnet并没有集成语音助手，或者可以生成图像，而且Anthropic暂时没有这样的准备。

Danielanielalanielanthropic联创兼总裁在接受彭博独家采访时，Amodei指出，「我们的目标是让它成为所有企业业务的首选模型」。

她继续说，从研究的角度来看，我们可以生成图像导出，但是画一个「滑雪的猫」图像并非我们的企业客户所需要的，所以我们并不优先考虑这一点。

当前，制药巨头Pfizer已使用Claude模型，帮助发现新药。

未来，模型越智能，支持这种非常高水平的智商工作的力量就越大。显然，Anthropic正在努力进一步多元化它想要看到的企业和公司。

Artifacts，一种可以扩展Claude交互技术的新功能，是一种新的尝试。

Anthropic的提高速度，简直令人惊叹。

现在Anthropic的这一步，一定会迫使其他竞争者跟上。

要知道，Claude并不像Gemini或者ChatGPT那样受到更多的关注，但是它在赛场上很受欢迎。

参考资料：

https://www.anthropic.com/news/claude-3-5-sonnet

https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/

本文来自微信微信官方账号“新智元”（ID：AI_era），作者：新智元，编辑：编辑部，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

一家家庭企业赢得了恒大的诉讼，却没有得到一分钱。