异构计算 高性能、低功耗的NPU,高通正推动终端侧生成AI的发展。

09-08 06:53

9 月 6 日,2024 全球 AI 在北京举行芯片峰会。全球 AI 到目前为止,芯片峰会已经成功举办了六次,现在已经成为国内规模最大、规格最高、知名度最高的产业峰会之一。本次峰会的主题是“智算时代共筑芯路”, 50 多名来自 AI 芯片、Chiplet、RISC-V、智算集群与 AIInfra 在报告、演讲、高端对话和圆桌上,系统软件等方面的嘉宾都参加了。 Panel,对 AI 全面解构芯片筑基智算新时代。


高通 AI 中国区产品技术负责人万卫星应邀参加会议开幕式,并发表了“终端侧面” AI 以智能计算全新体验为主题的创新演讲。在演讲中,他提出,高通公司继续深耕。 AI 面对当前的生成式领域 AI 高通发展迅速,领先高通 SoC 解决方案提供了具有高性能、低功耗的异构计算系统和强大的解决方案 NPU,能满足当前丰富的生成形式 AI 不同的用例需求和计算率要求,对于实现最佳性能和能效尤为重要。第三代骁龙是由高通推出的。 8 移动平台和骁龙 XElite 终端侧生成式计算平台 AI 目前已经应用于旗舰终端和用例,终端侧生成式 AI 这个时代已经到来。


演讲全文如下:


大家早上好!非常感谢主办方的邀请,让我再次代表高通参加这次活动,与大家分享。 AI 芯片是生成式的 AI 在目前最热门的跑道上,高通公司做了一些工作。我今天带给你的演讲主题是“终端侧面” AI 全新的创新智能计算体验”。


高通是一家芯片公司 AI 加速应用特别创造了高计算能力、低功耗。 NPU。第一,我给大家简单介绍一下这款高计算能力,低功耗。 NPU 进化路径。可说,这是一个很典型的由上层组成的。 AI 用例驱动底层硬件开发的演变过程。能回忆起来,现在 2015 大概一年左右,大家都知道。 AI 用例主要是语音识别、语音唤醒、图片分类、图片识别等比较简单。这几个用例背后的底层模型,都是一些较浅、较小的模型。 CNN 网络。那时,我们给了这个。 NPU 配合标量和矢量的硬件加速模块,满足特性要求。


在 2016 2000年后,计算摄影的概念在市场上普及,我们还将研究内容从传统的语音识别和图像分类扩展到图像和视频的处理。由于像素级别的其他处理对算率的要求越来越高,除了更大的规模和更多的层数之外,支持这些应用模型 CNN 除了网络之外,还有其它新的网络,比如 LSTM、RNN,甚至现在大家都很熟悉。 Transformer。这些网络对计算能力和功耗的需求特别敏感。因此,在标量和矢量加速模块的基础上,我们进一步配置了一个张量加速器,以提供更充足的计算率,满足像素级和像素级的应用 Transformer 时间网络,计算能力要求。


2023 年初,大型模型,尤其是大型语言模型开始真正流行起来。其实 70% 上述大语音模型都围绕着大语音模型 Transformer。所以,我们给这个 NPU 专门配置了 Transformer 支持。同时,在保证标量、矢量、张力等硬件加速的基础上,我们增加了更多的硬件加速模块,包括独特的微切片推理技术,进一步满足计算率要求和要求。 Transformer 并行化需要更高的模型推理来加速。


在未来,我们将继续加强对未来的加强。 NPU 的投入。生成式 AI 未来一定是多模态的趋势,所以今年我们也在努力将一些真正的多模态大模型全面运行到终端。在今年 2 月份的 MWC 巴塞罗那 2024 基于第三代骁龙,高通公司。 8 一个移动平台显示 demo,就是让超出 70 十亿参数多模态语言模型(LMM)在端侧全面奔跑。


就模型规模而言,高通未来将支持更大规模的大规模语言模型,今年我们将希望看到超越。 100 超过1亿参数的大语言模型在端侧完全运行。当然,终端侧需要运行多少模型取决于实际用例和这些用例。 KPI 的需求。


为什么我们致力于在终端侧推理这些生成式? AI 模型呢?在终端侧进行 AI 处理不但具有成本、个性化、延迟等优点,我们认为最重要的一点,就是隐私。包括手机、PC 从客户的角度来看,个人设备上的个人信息、聊天记录、相册信息,甚至用户的生物特征信息,都不希望这些数据上传到云端进行处理。我们认为这样可以很好地保护普通用户的隐私,通过运行大语言模型、大视觉模型等,在终端端完成这些数据的处理。从另一个角度来看,终端侧是最接近数据产生的地方。因为设备产生了这些数据,包括麦克风、摄像头和各种传感器数据。处理数据也是一种很自然的保护用户隐私的方法,在离数据产生最近的地方完成数据处理。


大家对高通 HexagonNPU 了解一下,相信很多都是从搭载骁龙平台的手机开始的,但是高通除了骁龙移动平台之外,还有涵盖汽车、物联网、PC、可穿戴设备等。高通 HexagonNPU 我们的大部分产品都被赋能了,这意味着我们的合作伙伴和开发者朋友可以使用这些不同的产品形式。 NPU 加快算法速度,享受足够的算率。除硬件外,我们还拥有统一的高通。 AI 软件栈(QualcommAI Stack),能让 OEM、在高通支持的不同产品形式上,开发者可以完成模型布局和优化。


下一步对高通进行更深入的介绍 HexagonNPU 硬件架构。使用第三代骁龙 8 为例,高通 HexagonNPU 最重要的是三个加速模块:张量、矢量和标量。它们可以处理不同的数据类型,例如张量加速器可以用来处理卷积运算和张量数据。另外还包含了片上的内存,这样三个加速器就能更有效地合作。神经系统的网络推理有许多层,每层之间都有一些中间数据。而且如果这些中间数据没有电影上的内存作为缓存,那么它们都可能在 DDR 其实这样对性能、功耗都会有很大的影响。所以我们通过了 NPU 配置较大的片上内存,能更好地释放。 AI 算率。


此外,高通 NPU 随着行业先进技术的发展,整个硬件开发将不断迭代。该处理器的微架构,包括前端设计和后端设计,每年都会进行迭代,以达到最佳的性能和能效。不论是 AI 手机还是 AIPC,对于功耗要求很高,我们要保证设备在日常使用中不会发热,续航时间更长。所以我们给 NPU 为了达到最佳的能效比,专门建造了加速器专用电源。通过微切片技术的升级,我们将支持网络紧密结合,获得最佳性能。除上述产品升级外,我们还将提供更高的主频,支持更多的产品。 DDR 带宽。对于生成式 AI 模型,尤其是解码阶段, DDR 支持,所以更大 DDR 宽带意味着大型解码速度更快,可以给消费者带来更好的使用体验。


除特殊的高计算能力、低功耗外。 NPU 此外,我们还有一个叫做高通传感器中心的独立模块,它也可以用来做。 AI 推理加快。这是 DSP 加多核 MicroNPU 设计最大的特点就是功耗极低,适合一些需要一直在线的任务,包括摄像头、手势识别、人脸检测、语音唤醒等。总是打开。由于这些用例需要一直在线,所以对功耗特别敏感。在硬件开发方面,我们还会通过特殊的传感器中心来加速模块的适应,从而加速功耗极其敏感的用例。


前面介绍了相当多的硬件内容,下面将从用例上介绍我们是如何完成这些工作的。现在有很多东西 AI 例子,包括与自然语言理解和自然语言理解相关的例子,以及降噪、超分、超分、HDR、与图像处理相关的用例,如背景模糊,目前仍有视频生成、视频处理等。此外,如今 AI 游戏中还有很多应用,比如 AINPC、情节自动化,地图绘制,二创等。这是针对各种类型的用例 KPI 要求和计算率要求也不同。很难有一个单一的处理器来满足所有的需求用例、连续用例和泛在用例。 KPI 的需求。


举一个简单的例子,有些任务是正确的。 CPU 在这个时候,理论上不应该唤起全新的任务。 IP,否则延迟会很大,此时可考虑使用。 CPU 加速架构。还有一些对算率要求较高的用例,可能需要长期处理,包括游戏领域、视频 / 图像处理领域和大型模型等用例。另外一个用例可能需要一直在线,此时使用。 CPU、GPU 或是 NPU 由于它对功耗极其敏感,所以加速是不合适的。


通过推出异构计算系统,高通可以满足这些普遍的需求 AI 使用不同的计算力和例子 KPI 的需求。包括通用硬件加速模块在内的异构计算系统—— CPU 和 GPU,用于处理对延迟特别敏感的实时、突发、任务;我们也有 NPU,特别适用于一些需要持续处理、计算率要求高、功耗要求高的任务,包括大模型、视频等。 / 图像处理和游戏中持续运行的用例等;另外,传感器中枢用于处理手势识别、语音唤醒等总是启动的用例。


这种异构计算系统的设计,我们考虑了哪些因素,以及如何实现这个目标?首先,我们希望提供最终的性能;其次,我们也希望实现更好的持续性能,包括能效比;第三,我们还会考虑芯片的整体成本和尺寸。最终,我们还将考虑单位面积所能提供的算率。我们充分考虑了各种因素,创造了这样一个 NPU 并且有异构计算系统 SoC,给消费者带来极致。 AI,尤其是生成式 AI 使用体验。


前面介绍了我们 AI 硬件技术,包括各种各样的硬件技术 IP Cpu、异构化计算系统。下一步,我将向您介绍高通所赋能的 AI 感受。


从去年年底开始,第三代骁龙 8 和骁龙 XElite 平台发布后,大家可以看到市场上已经推出了很多配备这两个平台的商品。事实上,许多产品已经具备了端大模型的能力。这里举几个例子:第一个是今年年初发布的三星。 GalaxyS24 Ultra,它可以支持实时翻译功能;二是 OPPOFind X7Ultra 推出了 AI 清除功能,如果想要移除图片中的背景或路人,可以非常方便地使用这个功能获得你想要的照片;三是荣誉 Magic6 该系列智能成片功能,可以非常方便地在图库中找到和找到。 Prompt 相关照片或视频,生成一段 vlog 与家人和朋友分享。


今年在 MWC 巴塞罗那 2024 在此期间,高通出现了 Android 大语言和视觉助手在智能手机上运行的大模型(LLaVA),那是个超越 70 1亿参数大型多模态语言模型(LMM)。我们正携手合作伙伴,将多模态大模型完整地带到终端,带给消费者。


第三代骁龙 8 和骁龙 XElite 该平台已赋能推出丰富的终端侧面。 AI 或生成式 AI 旗舰终端和能力用例。这些用例包括娱乐用例,包括图片生成、图片编辑等。,以及生产设备,包括写作助手、文本总结、实时翻译等。,这可以给日常生活或工作带来更高的效率。


总结一下今天的分享内容,第一高通。 SoC 解决方案提供了多个异构计算系统,包括多个 IP Cpu部件,包括通用的部件 CPU、GPU、专用的 NPU、这些超低功耗的传感器中心 IP 每个Cpu部件都会承担不同的任务,包括对延迟敏感、对算率敏感或对功耗敏感。与此同时,他们还可以相互结合,共同完成一些更复杂的处理任务,提供端到端的服务。在 2023 在年骁龙峰会期间,我们展示了如何利用高通的异构计算系统来完成端到端的虚拟化身。 AI 助理,当时我们把整个处理管分为三个部分:预处理、中间文本生成、虚拟化身渲染后处理。预处理就是跑在里面 CPU 上,中间的大语言模型跑在中间。 NPU 上,后处理跑在 GPU 还有传感器中心的上边。其次,我们提供强大、计算率丰富、超低功耗的特殊用途。 NPU,方便大家在 NPU 布局更大、更先进、更丰富的模型。三是我们认为,终端侧生成式 AI 随着时代的到来,骁龙计算平台和骁龙移动平台已经赋能了许多终端侧生成式平台 AI 终端设备的功能。


最后,我也想在这里做一个小小的预告,配备最新的高通。 OryonCPU 今年即将到来的下一代骁龙移动平台 10 月 21-23 日本举行的骁龙峰会上发布,敬请期待,谢谢!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com