通讯效率超过98%!中国第一个三种异构芯片混合训练技术是壁邈科技

09-06 13:50

近一年实施海外限令后,AI 壁邈科技芯片公司(Biren Technology)现在很少发声,公布其在计算结构方面的最新技术进展。


9 月 5 日,钛媒体 AGI 独家获悉,即将在 2024 全球 AI 在芯片峰会上,石墙科技将首次公布石墙独立原创异构 GPU 协同训练计划 HGCT,行业首次支持 3 种类或以上异构 GPU 混合训练同一个大模型,提供多种不同型号、不同厂家的统一方案。 GPU,而且一行代码适应多种框架。


壁仞 HGCT 异构协同通信的效率大于 98%、端到端的训练效率 90-95%,从而突破了大模型异构算率荒岛的难题。


墙体科技副总裁,AI 首席软件架构师丁云帆向钛媒体 AGI 独家表示,这里是业界第一次支持 3 种类或以上(壁邈) GPU 英伟达 GPU 其它国产芯片)异构 GPU 同时,训练一个大模型。同时,目前墙体科技打造的软硬一体化、全栈升级、异构协同、开源开放的大模型整体解决方案,可实现千卡集群、千亿参数自动断点续训。 10 分钟,15 每天持续训练不中断,4。 每天持续训练无故障。


该技术还表示,正在与客户、合作伙伴和科研机构联合推进异构 GPU 协同培训生态主要包括:中国移动、中国电信、商汤科技、国家电网智能电网研究院有限公司、上海智能计算能力科技有限公司、上海人工智能实验室、中国信息通信研究院等。


据报道,在此之前,AI Infra 企业没有问芯穹 4 2 最多支持芯片 2 种 GPU 同时训练。


墙体科技创立于此 2019 2008年,主要研发高性能通用性能。 GPU,致力于做自主原创的高性能 GPU 软件和硬件系统,构建国内自主智能计算产业生态。


科技创始人、董事长、CEO 张文曾经说过,“芯片行业,尤其是通用智能芯片行业,是一个典型的资本密集型和人才密集型行业,加上大规模的场景应用,形成了促进企业成功的三大要素。”


投融资方面,钛媒体 App 据了解,到目前为止,壁邈科技已经完成了超过总金额。 50 融资亿元人民币,投资方包括启明创投,IDG 资本、华登中国、平安集团、高淳风险投资、格力风险投资、松禾资本、云晖资本、郭盛资本、招商局资本等机构是中国 GPU “独角兽”公司在芯片领域很重要。


实际上,算率作为数字经济的核心生产力,是当前的推动力。 AI、技术创新与应用的基础支撑,如大数据、物联网等, GPU 和 AI 在计算率中,芯片是核心要素。


随着 ChatGPT 引发全球 AI 大模型热潮,计算能力需求不断增加,R&D成本不断增加,同时各国面临“主权” AI “竞争。那么,如何利用软件优化效率和异构集成方法,在有限的大模型计算能力和集群规模下,提高芯片性能和增加计算率规模,就变得非常关键。


但是现在,英伟达和国产芯片之间的异构协作,也就是不同的 GPU 如何将软件栈相互融合,是目前国内计算率如何变得好用的重要课题之一。


例如,上海临港的一个集群被使用。 22 国内芯片企业 58 款 AI 芯片产品,通过多种芯片扩大算率供应,使适配训练框架消耗更长时间,总投资成本达到约。 10000 人天。在这些成本中,适应成本约为 3 人天 / 模型适配的算法成本约为 10 人天 / 在运行过程中,模型、通讯库和适配费用约为 500 人天。与此同时,大量的异构芯片构成了算率荒岛,无法有效地聚集支持较大模型训练的计算能力需求。


丁云帆直言,目前的异构 GPU 协同训练仍然存在许多挑战,例如异构训练 GPU 数据共享困难,异构 GPU 通讯效率低,异构 GPU 合作训练木盆效益,异构 GPU 协调难度大,如何适应不同的硬件? ( 英伟达,各种国产芯片 ) 等。


为解决顾客的需求和技术挑战,壁邈科技团队攻坚异构 GPU 自主研发原创异构训练难点 GPU 协同训练计划 HGCT,通过异构调度、异构通信、异构拆分三层架构,完成了提供多种不同型号、不同厂家的统一方案。 GPU,行业首次支持 3 种类或以上异构 GPU 同一大模型的混合训练。


根据这种异构科技的说法, GPU 协同训练计划对行业端有两个意义:1、该方案的最终价值实现了国内 GPU 和英伟达 GPU 突破异构算率荒岛难题的异构并存,加速国内生产 GPU 落地转移,帮助国产大模型落地;2、该方案赋予了整个计算产业发展的权力。 HGCT 该方案具有普遍性、方便性、兼容性,最终帮助客户实现各种异构算率的汇集,最大化异构 GPU 集群利用效率。


另外,基于已经落地的千卡算率集群和技术能力,壁邈科技也推出了 BIRENSUPA 基于开放的生态方案 AI 计算软件生态系统,赋能运营商、智算中心、大模型、能源、金融等领域的用户和开发者。


" AI 芯片是一个技术密集型行业。首先,它必须有足够强大的技术。这不是“纸上谈兵”,而是人才、资金和工业领域的认知。芯片不能犯错。只要有错误,就可能是致命的错误。因此,企业需要克服很多障碍,市场也需要给予。 AI 芯片公司更有耐心。丁云帆对钛媒体 App 表示。


(本文首发于钛媒体 App,作者|编辑林志佳|胡润峰)


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com