大型一对一作战75万轮,GPT-4夺冠,Llama 3位居第五

04-28 16:25

有关Llama 三是有新发布的检测结果。——


LMSYS大模型评估社区发布了一份大模型排行榜,Llama 第三名是第五名,英语单项和GPT-4并列第一。


与其它Benchmark不同的是,这个列表的基础是模型一对一的battle,由全网评估者自己出题并进行评分。


最后,Llama 3在排行榜上获得第五名,排名第一的是GPT-4的三个不同版本,以及Claude 超级大杯Opus。


但是在英语单项列表中,Llama 3超越Claude,与GPT-4打成平局。


Meta的首席科学家LeCun非常高兴地转发了这篇文章,并留下了一篇“Nice”。


SoumithPyTorch鼻祖 Chintala也兴奋地表示,这一成就令人惊叹,并为Meta感到自豪。


Llama 3的400B版本还没有出来,仅仅依靠70B参数就获得了第五名...我还记得去年3月GPT-4发布的时候,几乎不可能达到和它一样的表现。..........现在AI的普及真的很不可思议,我对Meta AI的同事们为这样的成功感到非常自豪。



所以,这个列表的具体结果是什么呢?


近90个模型对战75万轮。


在最新名单发布之前,LMSYS已经收集了近75万个大模型solo对战结果,其中涉及的模型达到了89个。


其中,Llama 3有1.27万次参加,GPT-四是有多个不同的版本,最多参与68,000次。



下图显示了一些热门模型的比赛频率和胜率,图中的两个指标也没有统计平手次数。


在列表方面,LMSYS分为列表和多个子列表,GPT-4-Turbo排名第一,与之并列的是早期1106版本,以及Claude。 超级大杯Opus。


另外一个版本(0125)的GPT-4位居后,接下来是Llamama。 3了。


不过更有意思的是,比较新的0125,表现还不如老版本1106。


但是在英语单项列表中,Llama 3的结果与两款GPT-4直接平局,也超过了0125版本。


Claude是中文能力排行榜的第一名。 3 Opus和GPT-4-1106共享,Llama 三是已排到20位以外。


除语言能力外,列表中还设置了长文本和代码能力排名,Llama 三也都名列前茅。


但是,LMSYS的“游戏规则”到底是什么呢?


每个人都可以参与的大模型评估


这个大模型测试,大家都可以参加,题目和评价标准,都是由参与者自己决定的。


而且具体的“竞技”过程,又分为battle和side-by-两种模式的side。


在battle模式中,在测试界面输入好问题后,系统会随机调用库中的两个模型,但测试人员不知道系统是谁赢的。界面只显示“模型A”和“模型B”。


当模型导出答案后,评估者需要选择哪一个更好,或平局,当然,如果模型表现不符合预期,也有相应的选择。


模型身份只有在做出决定后才能被揭开。


side-by-side由用户选择指定的模型进行PK,其它测试步骤与battle相同。


但是,只有battle匿名模式下的投票结果才能被统计,模型在对话过程中不小心暴露了自己的身份,结果才会失败。


根据每个模型对其它模型进行Win。 Rate,能画出这样的图像:




而且最后的排名,就是利用Win Rate数据,通过Elo评估系统转换成绩获得。


Elo评估系统是由美国物理学教授Arpadad计算玩家相对技能水平的一种方法。 Elo设计。


具体到LMSYS,在初始条件下,所有模型评分(R)全部设定为1000,然后根据这个公式换算出期望的胜率。(E)。


随著测试的持续进行,将按实际评分进行。(S)修改分数,S有1、0和0.5三种取值,分别对应三种情况:胜利、失败和平手。


下面的公式显示了调整算法,其中K是指数,需要测试人员根据实际情况进行调整。


最终将所有有效数据纳入计算之后,获得模型Elo评分。


然而,在实际操作过程中,LMSYS团队发现该算法的稳定性不足,因此又采用了统计方法进行调整。


它们通过Bootstrap反复取样,得到了更稳定的结果,并对置信度区间进行了估计。


Elo评分经过最终修正,成为排名的依据。


One More Thing


Llama 已能在模型推理平台Groq(不是马斯克的Grok)上运行。


这一平台最大的亮点就是“快”,之前用Mixtral模型跑出了每秒近500。 速度token。


跑Llama 三、也相当快,实测70B可以跑到每秒300左右。 Token,8B版本更接近800。


参考链接:


[1]https://lmsys.org/blog/2023-05-03-arena/


[2]https://chat.lmsys.org/?leaderboard


[3]https://twitter.com/lmsysorg/status/1782483699449332144


本文来自微信微信官方账号“量子位”(ID:QbitAI),作者:克雷西,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com