斯坦福大模型评估榜 Claude 3 排名第一

2024-06-24

IT 世家 6 月 22 斯坦福大学基础模型研究中心日报（CRFM）6 月 11 每天发布大规模多任务语言逻辑能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中，综合排名前十的大语言模型中有两个来自中国制造商。，分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物。 Yi Large（Preview）。

据报道，大规模多任务语言逻辑能力评估（MMLU on HELM）使用了 Dan Hendrycks 其他人提出的测试方法是用来衡量多任务学习中文本模型的准确性。该测试包括基础数学、美国历史、计算机科学和法律。 57 个任务。为了在这次测试中取得高分，模型需要广泛的世界知识和解决问题的能力。IT 家庭附件的排名如下：

▲ 官网图源斯坦福大学基础模型研究中心

1、Claude 3 Opus（20240229）： Anthropic(在美国，亚马逊投资)

2、GPT-4o（2024-05-13）：OpenAI（美国）

3、Gemini 1.5 Pro：谷歌(美国)

4、GPT-4（0613）：OpenAI（美国）

5、Qwen2 Instruct（72B）：阿里巴巴(中国)

6、GPT-4 Turbo（2024-04-09）：OpenAI（美国）

7、Gemini 1.5 Pro（0409 preview）：谷歌(美国)

8、GPT-4 Turbo（1106 preview）：OpenAI（美国）

9、Llama 3（70B）：Meta（美国）

10、Yi Large（Preview）：零一万物(中国)

Qwen2 这是一个由阿里巴巴开发的大型开源语言模型，发布于今年。 6 月 6 日。Qwen2 系列包含 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B-A14B 和 Qwen2-72B 包括五种不同规模的预训练和指令微调模式；除英语和汉语外，支持额外的 27 各种语言的数据训练；Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的前后文。

Yi Large 这是一个由零一万物公司开发的闭源大模型，Yi 基于模型系列 6B 和 34B 预先训练语言模型，然后扩展到聊天模型，200K 长期前后模型、深度升级模型和视觉语言模型。官方声称“其在关键基准测试方面优于 GPT-4 和 Claude 3 Opus 等待领先模型"。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

“烟卡”成了学生的“新宠”，隐形危害需要关注！

炎炎夏日，来一口台州人“降暑神饮”

几十辆特斯拉在马斯克“黑粉”上涂鸦。 Cybertruck 皮卡

在1300光年之外，韦布太空望远镜拍摄了巨蛇星云的图像，证实了恒星形成的理论

太突然了！你家可能需要从20元飙升到70元！｜来听新闻

项目推荐

康小虎百岁计划・健康大使招募计划

毛加健康

康老板 · 氧疗堂