斯坦福大模型评估榜 Claude 3 排名第一

06-24 12:54

IT 世家 6 月 22 斯坦福大学基础模型研究中心日报(CRFM)6 月 11 每天发布大规模多任务语言逻辑能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中,综合排名前十的大语言模型中有两个来自中国制造商。,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物。 Yi Large(Preview)。


据报道,大规模多任务语言逻辑能力评估(MMLU on HELM)使用了 Dan Hendrycks 其他人提出的测试方法是用来衡量多任务学习中文本模型的准确性。该测试包括基础数学、美国历史、计算机科学和法律。 57 个任务。为了在这次测试中取得高分,模型需要广泛的世界知识和解决问题的能力。IT 家庭附件的排名如下:


▲ 官网图源斯坦福大学基础模型研究中心


1、Claude 3 Opus(20240229): Anthropic(在美国,亚马逊投资)


2、GPT-4o(2024-05-13):OpenAI(美国)


3、Gemini 1.5 Pro:谷歌(美国)


4、GPT-4(0613):OpenAI(美国)


5、Qwen2 Instruct(72B):阿里巴巴(中国)


6、GPT-4 Turbo(2024-04-09):OpenAI(美国)


7、Gemini 1.5 Pro(0409 preview):谷歌(美国)


8、GPT-4 Turbo(1106 preview):OpenAI(美国)


9、Llama 3(70B):Meta(美国)


10、Yi Large(Preview):零一万物(中国)


Qwen2 这是一个由阿里巴巴开发的大型开源语言模型,发布于今年。 6 月 6 日。Qwen2 系列包含 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B-A14B 和 Qwen2-72B 包括五种不同规模的预训练和指令微调模式;除英语和汉语外,支持额外的 27 各种语言的数据训练;Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的前后文。


Yi Large 这是一个由零一万物公司开发的闭源大模型,Yi 基于模型系列 6B 和 34B 预先训练语言模型,然后扩展到聊天模型,200K 长期前后模型、深度升级模型和视觉语言模型。官方声称“其在关键基准测试方面优于 GPT-4 和 Claude 3 Opus 等待领先模型"。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com