再见,Devin,最强的AI工程师Genie基于GPT-4o诞生

08-15 00:05

AI代码的荣誉又易主了,Genie超越Devin,成为地表最强的。「AI软件工程师」,Genie不是一个编程助手,而是一个可以独立思考的人「同事」,与你并肩作战。


不知你是否还记得第一个?「AI程序员」Devin,Cognitionition,由10枚IOI金牌在手。 今年三月推出AI开发。


GPT-4提供后端支持,可以以文字的形式接收自然语言指令,并且可以独立编写代码。


刚上线的时候,虽然效果无法取代程序员,但还是给人留下了深刻的印象。


现在,五个月过去了,「狂飚」GenAI领域已经大不相同了。不但GPT-4迎来了下一代GPT-4o模型,Claudede新发布的GPT-4o 3.5 Sonnet、在编码方面,Codestral等模型都具有出色的性能。


创业公司Cosine开发的自主AI工程师Genie是Devin的直接挑战者。


根据Cosine发布的报告,在SWE-Bench中,Genie的分数为30.08%,很容易超过Devin的分数为13.8%。



Cosine联合创始人兼CEO Alistair Pullen表示:「(Genie)模型能力不是一个基准测试结果可以概括的:从一开始就被训练成人类软件工程师。(SWE)同样的思考和行动。」



在SWE-Bench方面,我们创造了世界上最强的AI软件工程师,在亚马逊和Cognition方面取得了30.08%的成绩。


由于首席执行官声称Genie可以像人类软件工程师一样思考和行动,网友调侃道,「这意味着它不能和女人说话,如果你给它打电话,它也会出汗?」


01 什么是Genie?它能做些什么?


与Devin类似,Genie还可以在人类工程师的指导下独立完成各种编码任务,包括bug修复、功能构建、代码重构和代码验证的全面检测。


Genie除了独立运行外,还可以与客户合作。


现在Genie还处于内测阶段,可以在官网注册信息后申请试用。


Cosine声称Genie可以模拟人类工程师的认知过程。


博文中Pullen解释说,「我的想法很简单:让它观察人类工程师是如何完成工作的,并且遵循这个过程。」


GitHubbe产生的代码存储在用户的GitHub 在repo中,这意味着Cosine不会保留副本,也不会有随之而来的安全隐患。


另外,Cosine软件平台已与Slack和系统通知集成,它可以使用系统通知来提醒用户,提出问题或标记问题,就像人类同事一样。


「Genie还可以向顾客提出澄清问题,并且对其产生的Pullll提出澄清 Request评论/意见(获取请求)作出回应。」。


Pullen说,「我们试图让Genie看起来像同事,所以让这个模型使用同事的方式是最合理的。」



与OpenAI合作,使用最新的GPT-4o

Genie不同于很多依靠基本模型和辅以少量工具模型的模型,它是通过一个独特的过程开发出来的,包括从OpenAI模型开始的练习和微调。


Genie刚开始开发的时候,只能根据前后文窗口相对较小的模型进行微调,其范围在16-32k之间。 token。


在最初的探索中,团队发现,即使使用超过1 亿token的大数据,加上设计架构的优势和各种压缩/分层方法,仍然受到模型在特定时间可以表达的信息容量的限制。唯一的办法就是在前后窗口使用更多的模型。


幸好,不久之后,他们就获得了OpenAI长前后文模型的访问限制,这就成了Genie能力的突破。


Pullen向VentureBeat透露,「GenieOpenAI是一种非通用的GPT-4o组合,它允许我们浏览并使用它们的模型进行训练,作为测试计划的一部分。」


「这个模型表现很好,所以我们和OpenAI的微调团队和工程领导分享了我们的经验。这对我们来说是一个真正的转折点,因为它说服了他们投入资源和支持我们的新技术。」


虽然Cosine没有说明型号规格,但是OpenAI最近刚刚宣布GPT-4o长导出前后模型的可用性有限,导出长度可达64k token,与最初的4k相比,整整增加了16倍。


训练数据是关键

在技术报告中,Pullen写道,在最近的训练操作中,Genie接受了数十亿token数据的练习,选择这些数据的组合是为了让模型尽可能地成为当前用户最关心的语言。


在Genie的技术报告中列出了训练数据中包含的15种语言,Java、JS、C、C 、C#、Rust、热门语言,如Python,以及常用的Scalalala、Kotlin、Swift、PHP等也全部包含在内。


其中,JavaScript、Python、TypeScript和TSX是数据集中度最高的语言,其它语言占3%。


Cosine的博文说,这个团队花了将近一年的时间来整理数据集,包括大量来自真实工程师的软件开发活动。


获取和有效利用这些信息是极其困难的,因为这些信息本质上是不存在的。


从跟踪软件工程师的发展轨迹开始,他们的数据管道收集pullll。 request、commits、issue(MIT许可)等数据来自OSS存储库。


接着,这些信息在管道中运行,通过取证的方式导出推理过程,重建人类是如何得出最终结论的。


各种任务类型的数据集中占比


这是第一版模型训练的基础,其余的工作都是通过自我游戏和自我提升来完成的。


Genie的自主循环由计划、检索、代码编写和代码运行四个主要过程组成。这本身并不新颖,但是因为 Genie被训练得像人类一样,所以有了更大的改进。


「数据标注的影响不容小觑。从一个强大的软件工程师那里获取高质量的数据是非常困难的,但结果是值得的,因为它让我们对开发人员处理问题的思维方式有了深刻的理解。」


这些数据不仅体现了完美的信息脉络和渐进的知识发现,而且捕捉到了人类工程师逐步决策的过程。


肯定Pullen,「我们发现,我们不再只是随机生成代码,而是像人类一样处理问题,而是通过使用这些数据来训练我们的模型,而不是简单地提醒基本模型(这是别人正在做的)。」


评价结果的标准

在模型开发过程中,团队主要使用两个标准进行评估。——SWE-Bench 和 HumanEval。


前者涵盖的问题比较全面,包括分解问题,找到相关代码,对代码进行分类,实现可行的解决方案;后者更注重编写代码,没有搜索知识,更少强调对问题的理解。


不过,官方博客只披露了SWE-Bench的成绩,Genie获得了30.08%的成绩,SWE-在Lite中,分数为50.67%。


Genie在其中SWE-Bench的表现十分亮眼:这是迄今为止的最高分,比19.27%的第二名增长了10%以上。


另外,团队还对模型信息的检索能力进行了独立测试,特别是对所需代码文件的正确部分进行检索。


AI工程师的核心部件之一——如果模型找不到可靠、熟练的编辑代码,那么编辑代码的能力就不能得到充分发挥。


假设模型每次都能找到正确的代码,可以查看模型找到了多少行代码来实现目标,以及实际找到的代码行数来简单衡量检索能力。


在测试过程中,Genie成功地检索到了142,338行所需的91,475行代码,得分为64.27%。显然,这里还有很大的改进空间,而且与分解问题的能力相比,检索的能力更少。


02 中国牛津硕士背靠YC。


Cosine是以Y谷命名的硅谷。 建立了Combinator创业加速器。


该公司是一家致力于研究和总结人类执行任务的人类推理实验室,旨在教会人工智能模仿、擅长和拓展这些任务。


2022年,Alistair Pullen、Sam Stenner和Yang Li联合创立了Cosine,并将其定位为人们推理实验室。


他们希望从软件工程领域开始,对人类执行任务的方式进行研究和总结,进而教会AI模仿、擅长和拓展这些任务,促进智能化发展。


从Uphonest和SOMAA来看,Cosine已经 Capital募集了250万美元的种子资金,Lakestar、Focal等公司也参与了投资。


Cosine拥有一支小型但技术精湛的团队,在人工智能领域取得了长足的进步,Genie只是一个开始。


在公告博文中,Pullen说,「我们真诚地相信,我们可以再现人类对任何工作和行业的推理。」


「软体工程只是最直观的起点,我们迫不及待地想向大家展示我们正在探索的其它一切。」


值得注意的是,在创始人团队中,有一张中国人的脸,Yang Li。


2021年,Li毕业于牛津大学社会学系,被选为福布斯30名30岁以下精英之一。


他在创办Cosine之前,有过6次工作/创业经历,其中包括美团摩拜单车业务的商务总监。


可以看到,在2022年之前,Yang 在工业界,Li以一年一跳的频率不断探索新的机遇。


如今,Yang 在Li推特的简介中,有这样的描述:经历了1 次IPO、二次收购和三个独角兽。


一次IPO是指将摩拜单车的月活跃用户数增加到2.2。 直至IPO达到550亿美元。


03 未来的Genie


在VentureBeat的邮件中,Pullen透露了Genie可能采用的价格模式。在最初阶段,产品定价将分为两类:


第一,面向个人和小团队。与现有的人工智能工具相比,价格具有竞争力,约20美元。这个级别的产品在功能和应用上会有一些限制。


第二,面向企业。功能更多,使用几乎没有限制,可以建立完美的人工智能同事和代码专家。这个级别的其他价格会更高。


「我们一直在追逐一个梦想,那就是创造一个能够真正自动执行端到端编程任务,无需干涉,高度可靠的人工同事。Genie是实现这一理想的第一步。」,在Cosine的博客文章中,Pullen写道。


Genie的推出对软件开发团队尤其是那些希望提高生产率、减少日常工作时间的团队有着深远的影响。


Genie凭借独立处理复杂编程挑战的能力,可以改变工程资源的分配方式,使团队更具战略意义。


Pullen写道,「工程资源不再是限制因素的想法,对我来说是一个很大的推动力,尤其是在公司成立之后。」


人工智能同事可以跳进未知的代码库,在比人类快几倍的时间内处理未知的问题。它的价值是显而易见的,对世界影响很大。


Cosine为Genie的未来发展制定了一个雄心勃勃的计划。


「通过Genie创新R&D团队,我们正在加快推进。我们的主要目标是平衡实际产品和前沿研究。」


- 为了提高Genie的能力,完善数据。Genie将精通更多的编程语言和最新框架,通过拓宽数据并引入新功能,准确满足开发者的工作需要。


- 扩展其模型组合。包括小模型和可以处理更复杂挑战的大模型,用于简单任务。使用独特的数据集,Cosine可以将任何最先进的基本模型转换为Genie模型。


- 把工作扩展到开源社区。举例来说,前后拓展一个领先的开源模型,并使用庞大的数据集进行预训练。


- 使用特定的代码库对Genie进行微调。即使这些代码是用不太流行或专有的语言编写的,这是一个公司功能,可以使Genie完美地理解大型和遗留的代码库。


Pullen表示,随着Genie的逐步完善,Genie将不断向客户发布更新,优化与这位人工同事的互动,收集有价值的反馈。


Li在推特上畅想,Cosine旨在编码人类的推理能力,将来不再有采样,也不再有copilot。


参考资料:


https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/


https://cosine.sh/blog/genie-technical-report


https://cosine.sh/blog/state-of-the-art


本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com