构建数推分离双网络结构,「双脑」大型一体机突破落地算率瓶颈|初期项目
作者|黄楠
编辑|袁斯来
在模型技术的浪潮中,Scaling 在科技媒体Thee之前,Law被业界遵循为第一原则。 在独家报道中,Information提到,OpenAI下一代旗舰模型Orion的训练效果可能远远低于预期:与GPT-4相比,性能提升可能很小。这样就引发了从业人员对大模型发展路线的深入思考:Scaling Law是唯一的方向吗?
长期以来,基于Scaling Law的大模型落地存在重大瓶颈。为了提高模型能力,制造商不断扩大预训练数据、训练计算率和模型参数规模,不仅成本高;同时,算法同质化也会导致数据规模和训练计算能力的同质化,最终导致伤害输出的趋同。另一方面,大模型能否有效学习客户数据,成为领域专家,也是一个很大的挑战。
目前,单靠Scaling是单一的。 Law的集中暴力训练表现出许多缺点。大模型的“智能”不仅取决于参数的规模,还取决于如何在实际场景中发挥作用,这是企业客户关注的焦点。为了打破从模型到应用落地的高墙,硬氪最近接触到了「传神物联网」提出,集中预训练方法值得重新审视,即时学习和训练方法更具探索性。
「传神物联网」董事长何恩培指出,在相同的参数下,大型模型的算法和结构更加先进,所需的训练算率越低,训练数据越少,不仅不影响模型能力,而且在某些指标上可以超越常规结构的大参数模型。“相比之下,这种高效算法和结构的小参数模型更适合商业着陆,也能满足一般情况的需要。”

传神创始人何恩培发表主题演讲《基于双网络架构数推分离大模型的探索与实践》
基于这个想法,「传神物联网」该模型采用全技术栈自主开发的双网络结构,不使用任何开源代码和框架,将推理网络与数据学习网络分开。
其中,客户数据学习网络就像人脑一样,致力于数据的动态管理和迭代训练,不断为模型注入知识营养;推理网络就像人脑一样,作为大量数据预训练的基础网络,具有良好的推理和泛化能力。
这种双网协调工作的设计可以有效降低训练的计算率成本,防止微调导致的基础模型能力下降和泛化能力下降。同时,数据学习网络还可以学习公司的历史数据,实时学习业务运营产生的新数据。两个网络共同工作,导出客户需要的结果。
测试显示,基于数推分离技术,任度大模型突破了常规大模型技术架构的限制,前后输入长度不受限制。它可以将数亿客户的数据压缩到神经网络,并进行深入的知识理解,非常接近 “即时” 数据学习方法。即使是少量的数据更新,也可以快速上传和完成数据压缩,迭代为企业自身的大型定制模型。
任度大型模型有两个版本:2.1B和9B,在降低算率成本方面,其训练和推理的算率成本分别为10%-20%和25%-50%。
硬氪知道,现在「传神物联网」将双网络结构的数推分离大模型应用到任度“双脑”大模型一体机,将投放市场。基于数推分离的双脑模式,这款一体机可以解决客户数据退出训练、向量效果有限、人才投入高等痛点,实现数据更新的本地即时学习,快速转化为“公司知识专家”。
针对客户数据安全和私有化问题,任度“双脑”大型一体机可以采用本地部署和培训,无需上传到公共云,保证了数据隐私和安全。同时,其原创性和高性别参考的特点可以在一定程度上解决高硬件投入、高能耗、技术安全和软件漏洞等痛点。在客户应用大模型的过程中。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




