大型一对一作战75万轮，GPT-4夺冠，Llama 3位居第五

2024-04-28

有关Llama 三是有新发布的检测结果。——

LMSYS大模型评估社区发布了一份大模型排行榜，Llama 第三名是第五名，英语单项和GPT-4并列第一。

与其它Benchmark不同的是，这个列表的基础是模型一对一的battle，由全网评估者自己出题并进行评分。

最后，Llama 3在排行榜上获得第五名，排名第一的是GPT-4的三个不同版本，以及Claude 超级大杯Opus。

但是在英语单项列表中，Llama 3超越Claude，与GPT-4打成平局。

Meta的首席科学家LeCun非常高兴地转发了这篇文章，并留下了一篇“Nice”。

SoumithPyTorch鼻祖 Chintala也兴奋地表示，这一成就令人惊叹，并为Meta感到自豪。

Llama 3的400B版本还没有出来，仅仅依靠70B参数就获得了第五名...我还记得去年3月GPT-4发布的时候，几乎不可能达到和它一样的表现。..........现在AI的普及真的很不可思议，我对Meta AI的同事们为这样的成功感到非常自豪。

所以，这个列表的具体结果是什么呢？

近90个模型对战75万轮。

在最新名单发布之前，LMSYS已经收集了近75万个大模型solo对战结果，其中涉及的模型达到了89个。

其中，Llama 3有1.27万次参加，GPT-四是有多个不同的版本，最多参与68,000次。

下图显示了一些热门模型的比赛频率和胜率，图中的两个指标也没有统计平手次数。

在列表方面，LMSYS分为列表和多个子列表，GPT-4-Turbo排名第一，与之并列的是早期1106版本，以及Claude。超级大杯Opus。

另外一个版本(0125)的GPT-4位居后，接下来是Llamama。 3了。

不过更有意思的是，比较新的0125，表现还不如老版本1106。

但是在英语单项列表中，Llama 3的结果与两款GPT-4直接平局，也超过了0125版本。

Claude是中文能力排行榜的第一名。 3 Opus和GPT-4-1106共享，Llama 三是已排到20位以外。

除语言能力外，列表中还设置了长文本和代码能力排名，Llama 三也都名列前茅。

但是，LMSYS的“游戏规则”到底是什么呢？

每个人都可以参与的大模型评估

这个大模型测试，大家都可以参加，题目和评价标准，都是由参与者自己决定的。

而且具体的“竞技”过程，又分为battle和side-by-两种模式的side。

在battle模式中，在测试界面输入好问题后，系统会随机调用库中的两个模型，但测试人员不知道系统是谁赢的。界面只显示“模型A”和“模型B”。

当模型导出答案后，评估者需要选择哪一个更好，或平局，当然，如果模型表现不符合预期，也有相应的选择。

模型身份只有在做出决定后才能被揭开。

side-by-side由用户选择指定的模型进行PK，其它测试步骤与battle相同。

但是，只有battle匿名模式下的投票结果才能被统计，模型在对话过程中不小心暴露了自己的身份，结果才会失败。

根据每个模型对其它模型进行Win。 Rate，能画出这样的图像：

△

而且最后的排名，就是利用Win Rate数据，通过Elo评估系统转换成绩获得。

Elo评估系统是由美国物理学教授Arpadad计算玩家相对技能水平的一种方法。 Elo设计。

具体到LMSYS，在初始条件下，所有模型评分（R）全部设定为1000，然后根据这个公式换算出期望的胜率。（E）。

随著测试的持续进行，将按实际评分进行。（S）修改分数，S有1、0和0.5三种取值，分别对应三种情况：胜利、失败和平手。

下面的公式显示了调整算法，其中K是指数，需要测试人员根据实际情况进行调整。

最终将所有有效数据纳入计算之后，获得模型Elo评分。

然而，在实际操作过程中，LMSYS团队发现该算法的稳定性不足，因此又采用了统计方法进行调整。

它们通过Bootstrap反复取样，得到了更稳定的结果，并对置信度区间进行了估计。

Elo评分经过最终修正，成为排名的依据。

One More Thing

Llama 已能在模型推理平台Groq(不是马斯克的Grok)上运行。

这一平台最大的亮点就是“快”，之前用Mixtral模型跑出了每秒近500。速度token。

跑Llama 三、也相当快，实测70B可以跑到每秒300左右。 Token，8B版本更接近800。

参考链接：

[1]https://lmsys.org/blog/2023-05-03-arena/

[2]https://chat.lmsys.org/?leaderboard

[3]https://twitter.com/lmsysorg/status/1782483699449332144

本文来自微信微信官方账号“量子位”（ID:QbitAI），作者：克雷西，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

储存在涨价中，兆易创新却很尴尬 | 一解财报

眼药大牛股表现下隐藏的隐患 | 一解财报

从鸡肋到刚需，智能手表盯上“脆皮年轻人”

商务部：实施数字消费提升行动打造“4+N”网络消费矩阵

品牌变革新时代健康+迎来投资新机遇

项目推荐

AI云印侠

宾果智能

幸福绩效