国产模型指令跟随世界第一,由LeCun亲自推送。「最难作弊」新的大模型列表

1天前

What???


一直保持低调行事的国内创业公司,其模型悄然跃升为国内第一,世界第五(仅排列到o1系列和Claude 3.5以后)!


而且是前十名中唯一的国内企业是国内企业


(Qwen2.5-72b,国内第二名是阿里开源。-instruct,总榜第13)。



此外,LiveBench也被列入了排名榜,尽管目前还没有大型试验场。(LMSYS Chatboat Arena)如此广为人知,但是资质杠杆的——


Meta首席AI科学家杨立昆图灵获得者(Yann LeCun),今年六月推出了联合纽约大学。


号称是世界上第一个不能作弊的LLM基准测试”



而且这次突然被杀的黑马,其实更了解国内大模型竞争格局的朋友已经猜到了。——


Step系列,背后是大模型六小虎之一。阶跃星辰


指令跟随高分,赢得世界第一。


在Livebench榜单上,阶跃星辰自主研发的万亿参数语言大模型Step-2-16k-202411在Globall 在Average上获得57.68分。


排名第五,国内排名第一。


这份榜单以前不经常出现。一方面,它真的很新,今年6月刚刚推出;另一方面,更现实的是,国产大模型之前并没有在这份榜单的顶端取得令人印象深刻的成就。


这样也不会耽误榜单本身的实力。——


LeCun与纽约大学等机构联合推出,专门为大型模型设计,目前包括6个类别的17个不同任务,每月更新新问题。


目标是确保清单上的问题不易受到污染 ,并且可以轻松、准确、公平地进行评估。


强调不易被污染,是因为训练数据中包含了大量的网络媒体,许多BenchMark很容易被污染。


比如大家都很熟悉的GSM8K数学测试集,最近已经证明这里已经拟合了很多模型。这显然给评估模型能力带来了麻烦。


除BenchMark被污染外,确保评估方法公平、无偏见也非常重要。


一般来说,每个人都使用LLM作为评委或人类作为裁判。LiveBench选择客观、基本的事实判断来评价每一个问题。



所以,当我们第一次面对这份名单时,我们还能从中看到什么?


首先讲一下Step-2,成绩优异。


IF Average一项,即指令跟随,它以最高分位居世界第一。


本项目的内容是改写、简化、总结或生成《卫报》近期新文章的故事。


86.57的分数真的很高——榜单上的其他人(甚至OpenAI和Anthropic家族的模型)都在70-80分段,Meta在单项中排名第二。-LLaMA-3.1-405b-instruct-turbo比它低8分多。


这意味着,Step-2对细节有很强的控制力,对英语生成的理解能力max,然后更好地遵循人类的指示。


更具体一点可以理解为,当我们普通人输入语句颠倒、词意不清、表意模糊的非专业·真一般·prompt时,Step-2可以结合上下文和具体情况推断用户的实际需求,从“360p”认知一个模糊的指令“1080p”,准确捕捉模糊指令背后的真实意图。


与此同时,意味着内容创作能力也很强,举例来说,让它创作一首古诗,它可以在字数、格律、压韵、意境等方面有准确的控制。


完全自主开发,MoE架构,万亿参数


这一次,在LiveBench再次出现爆炸之前,Step-给外界留下最深刻的印象,一定有一个是“中国第一个由创业公司推出的万亿参数模型”。


它有点像阶跃风格的具象化。在模型六小虎中,阶跃的Step系列最迟发布,但拍摄毫不含糊。


今年3月,Step-2在全球开发者先锋大会开幕式上浏览亮相,一下子就以前做Step-1的千亿参数规模,拉升到万亿参数规模。


夏季WAIC吊足食欲后, 2024期间,Step-2推出正式版本。



该模型采用MoE架构。


一般来说,MoE模型的主流训练有两种方式,否则训练将基于现有模型通过upcycle(重用)开始,否则训练将重新开始。


Upcycle方法所需的计算率比较低,训练效率也比较高,但是随便就到了这个方法的天花板。


举例来说,基于拷贝获得的MoE模型,很容易出现专家同质化严重的情况。


而且如果选择重新开始MoE模型的训练,可以探索到更高的模型上限,但是作为代价,训练难度也会增加。


但是阶跃队还是选择了后者,选择完全自主开发,选择重新开始训练。



在此过程中,通过创新MoE架构模式,如部分专家共享参数、异构专家设计等,Step-在这一混合专家模式中,每一位专家都接受了充分的训练。


因此,Step-2每一次训练或推理所激活的参数也超过了市场上大多数Dense模型,总参数达到万亿级。


此外,Step-2在训练过程中,阶跃系统团队突破了6D并行、完善显存管理、完全自动化运维等关键技术,支持了整个模型的高效训练。


初次亮相时,阶跃官方表示:


Step-二是全面接近GPT-4的数理逻辑、编程、中文知识、英语知识、指令跟随等方面的体验。



结合这次LiveBench 根据AI的成绩,团队对Step-2的定位,优势,把握得非常清楚。


底座模型技术能力强,关键是要让人使用。


官方公告是,Step-2C端智能生活助手已接入阶跃星辰。「跃问」,可以尝试Web端和App。


假如是开发者,可通过API接入阶跃星辰开放平台使用Step-2。


所有的语言模型和多模态模型都需要


开头我们提到,Step模型是一个系列,而Step-2是其语言模型的强大代表。


这一系列,除了语言模型,阶跃星辰。多模式模型也很有看头。


Step-1.5V就是阶跃星辰多模理解大模型,这个模型在三个方面都有突出的优势:


第一,感知。创新的图形混合训练方法使Step-1.5V能够理解复杂图表、流程图、准确感知复杂物理空间的几何位置,并处理高分辨率和极限宽高比的图像。


第二,推理能力。对各种高级推理任务进行图像信息,如回答数学问题、编写代码、创作诗歌等。


第三,视频理解能力。它不但能准确地识别视频中的物体、人物和环境,而且能理解视频的整体氛围和人物情感。


生成方面,阶跃手上有Step-1X图像生成大模型


Step-选择DiT1X(Diffusion Models with transformer)架构,有600M、三种不同的参数,即2B和8B,词意理解和图像创意实现双手抓。


具体而言,不管文本指令是简单的还是复杂的,不管是画单一的目标,还是多层次的,复杂的内涵场景,它都可以cover。


另外,该模型还支持对中国元素的深度提升,使生成内容更适合中国人的审美风格。



对语言模型和多模态模型都要求,阶跃有自己的道理。


自成立之初,阶跃星辰就明确了自己的通向。 AGI 的路线图:


单模态-多模态-多模态理解与产生的统一-世界模型——AGI。


换句话说,阶跃的目的是开发一种可以实现AGI的多模态模型,并利用这些自主研发的大模型来创建新一代的AI应用。


为这个目标,一年多来,阶跃已经写下了自己的答案。


R&D迭代速度非常快,无论Step-1到Step-2,不到一年, 或者Step-1V到Step-1.5V,总的来说,继续向前跑步。


产品也有自己的想法,并不局限于ChatBot。。Step-二是登顶国内同一天,阶跃旗下的跃问也出现了新的功能:


iPhone可以通过简单的设置。 右下角侧面的“相机控制”按钮,一键调用“拍照问”功能。


没有iPhone 苹果用户16,将系统更新到iOS18,也可以一步调用国产AI。 了。



尽管已在六小虎中占有一席之地,但最近看阶跃,还是想用黑马来形容。


谈论技术和实力,Step-2能够突然杀入国内权威榜单中的第一名,成为世界榜单中唯一的国产玩家。


到目前为止,大模型的浪潮已经流行了将近两年。


在过去的两年里,所有加入其中的技术从业者都在创造一个愿景(看似分布其实是共同的),一个愿意参与并与之联系的愿景。


有理由相信,由于卓越的技术实力和不懈的创新追求,阶跃Step系列和中国的大模型将越来越辉煌。


One More Thing


上个月,智源研究院推出FlagEvalal辩论平台 Debate,希望通过引入模型辩论的竞争机制,为大模型能力评估提供新的衡量标尺。


和大型试炼场的玩法有些相似,就是两个模型一个正方一个反方,双盲测试,辩论结束后顾客投票。


接着,正反双方都是谁。



模型辩论主要依靠信息理解、知识整合、逻辑判断、语言生成和对话能力。


自然,同时也可以测量复杂语境中数据的处理深度和转移应变能力,反映其学习和推理的进步水平。


浅浅地玩了一下,有些话题还挺有意思的。


比如“博物馆起火,只能救一只,救猫还是救蒙娜丽莎”这个话题。


两个模型吵到后面,“猫有九条命”的话都说出来了,笑死了。



最后反复投了好几次,Step-2完胜o1。


看起来它的辩论能力也很强啊…



榜单官网:https://livebench.ai/#/blog


跃问链接:https://yuewen.cn


FlagEval 官网Debate:https://flageval.baai.org/#/debate


本文来自微信微信官方账号“量子位”(ID:QbitAI),作者:衡宇,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com