AMD 深入解读Zen5架构:发现了频率降低、性能提高的秘密!

08-10 13:53

以前是借着参加的 AMD Zen5 我们与您分享了技术日活动。 Zen5 结构模式的特点,但与过去不同,当时公布的信息并不多,不涉及结构底部的细节,也缺乏和 Zen4 全面对比。


近期,AMD 更新了 Zen5 结构技术文档,最终公布了我们想要的许多细节,包括每一个微结构模块的具体变化,包括桌面端和移动端的异同, Zen5、Zen5c 新概念,包括同样升级的新概念 RDNA 3.5 GPU、XDNA 2 NPU。


任何工作都要有目标,CPU 当然,架构模式也是如此。


Zen5 目标很简单。核心是继续大幅提升单核和双核性能,为未来打下新的基础,同时实现满血版。 AVX-支持可配置的512 256/512 位置浮点数据路径,有利于大大改善 AI 能力。


令人尴尬的是,Intel 12 代酷睿开始采用异构混合架构,其中 E 核不支持 AVX-512,导致整体不得不放弃。


Zen5 另外一项重要任务是进一步普及紧凑版的核心,即 Zen5c,包括手机端和服务器端。


事实上,上一代就有了 Zen4、Zen4c,并且在数据中心端大放异彩,而在移动端只是很低调的小试牛刀,这次要大规模普及。


不过 AMD 明确表示,Zen5c 这样的设计在桌面端就不用了,原因以后再说。


另外,能效更加灵活,4/3nm 工艺支持,ISA 指令集增强,也是如此 Zen5 主要任务。


Zen5 从前端到后端,从整数到浮点,从缓存到带宽,微结构总览都进行了全面升级,后面将逐一描述。


缓存部分是大家经常看到的,也比较容易理解。


Zen5 是否有一级指令缓存容量? 32KB,8 道路关联,每时钟周期2组 32B 捡取;


一级数据缓存容量提高到 48KB,12 道路连接,每个时钟周期 4 一个内存操作。


还有一种特殊的操作缓存。 ( Op-Cache ) ,支持 6 每个时钟周期支持2组指令 6 捡起一个宽度。


二次缓存容量仍然是 1MB,16 路关联。


支撑“零泡沫”等分支预测和拾取部分得到了很大的优化和提升。 ( zero-bubble ) 支系,代表支系预测器访问。 BTB ( 支部目标缓冲 ) 不需要付出任何代价。


L1、L2 BTB 还增加了容量 ( 1.5K/7K 来到 16K/8K ) 并且增加了精度 TAGE,这种情况对于有条件的间接支系至关重要。


另外,每个时钟周期的拾取和解码指令数从 32B 翻番到 64B,回到寻址堆栈 32 个变成 52 个,最多支持每时钟周期。 3 一个预测窗口,指令缓存的延迟和带宽也有所改善。


新型指令解码系统,配置双解码流水线,能独立并行计算指令流,每个时钟周期 4 条指令。


操作缓存 ( OpCache ) 相关路数增加 1/3 达到了 16 道路,可以储存最多 6 一条指令,配合双流水线,每个时钟周期就是 12 条指令。


在开启 SMT 在多线程中,每一个过程都是一条流水线。


与此同时,通向整数和浮点单元的分配序列总宽度也非常重要。 6 个增至 8 个宏操作 ( macro-op ) ,并且支持操作结合,可以让两个来自某些指令的宏操作作为一个进行处理。


整个数字模块本来就是 Zen 结构的强项,现在更“膨胀”了,分配、重命名、退缩都达到了 8 个总宽。


ALU 从整数逻辑单元开始 4 个增至 6 个,包含 3 一个乘法单元和 3 每个支系模块,ALU 调度器也从 24 个大幅增至 88 个。


AGU 地址生成模块 3 个增至 4 个,每个时钟周期都可以执行。 4 二次内存寻址,AGU 调度器从 48 个独立、24 个与 ALU 分享变成了单独的 56 个。


整数单元的大幅加强,可以说是锐龙 9000 在加速频率微增或不动、基准频率降低的前提下,系列获得性能大幅提升的关键因素。


尤其是矢量和浮点能力也明显增强, AVX-512 最后,指令集可以支持完整性。 512 同时保留位数据路径 256 位置,很灵活,能兼顾高性能,高效率,不会使功耗失控。


升级了整个浮点执行单元的带宽和延迟,包括 4 一条浮点执行流水线 ( Zen4 3 条 ) 、3 × 38 浮点调度器 ( Zen4 2 × 32 个 ) 、2 条载存储和整数存储装置流水线,每小时周期 2 个 512 位载入和 1 个 512 位置存储,双循环 FADD,等等。


一级和二级缓存部分的数据带宽全面扩展,尤其是一级数据缓存。 12 路 48KB,4 条载入 / 每个时钟周期都可以存储流水线。 4 个载入 ( Zen4 还是 3 个 ) 和 2 个存储,4 条整载入流水线可以合并为合并。 2 条。


外部也全面涉及 TLB、实时窗口,数据预取等部分。


新增加的指令并不多,AVX-512 仍然是重点,包括扩展到扩展。 VEX 编码的 VNNI/VEX、矢量配对是一对掩码寄存器。 VP2INTERSECT。


还有就是 PMC 虚拟化,可以为客户机提供更好的安全保障,以及异构拓扑,显然是为了 Zen5、Zen5c 准备好搭配。


Zen5、Zen4 对比技术规格的细节,更是对上面提到的一种归纳。


请注意,从前端到执行单元到缓存的所有参数都发生了变化,所以可以说。 Zen5 这是一次全面的架构翻新,也就是所谓的“大改革”,这样就有了频率下降但性能上升的奇妙结果。


Zen5、Zen5c 两者的结构模式,IPC 性能、ISA 指令集完全一样,也支持多线程。对于操作系统和应用软件来说,它们是透明的,是相当的。基本上没有必要特别考虑调度,这和 Intel 异构大小核自然不同。


Zen5 向往是尽可能高的单核频率和单核性能,以及足够大的三级缓存。


Zen5c 这样可以减少频率,提高能效,同时精简部分三级缓存。


Zen5 CCX 模块核心和缓存系统结构图。


一级指令缓存基本没有改变,或者 32KB 容量,8 路关联。


一级数据缓存容量增加了一半 48KB,12 道路关联也增加了一半,而且带宽翻了一番, CPU 每时钟周期支持核心间的支持 4 个载入与 2 个存储。


二次缓存容量还是每个核心? 1MB,但关联路数翻了一番,达到了1MB。 16 道路,带宽也翻了一番,和一级缓存之间的时钟周期翻了一番。 64B,以及三级缓存之间的时钟周期。 三十二百,双向都是这样。


三级缓存每 CCX 16MB,16 道路关联,但减少了延迟,提高了准确率。


Zen5 在桌面台式机、移动笔记本、服务器数据中心三个领域,架构采用了不同的产品设计和试验实现方式,都很有目的。


桌面,经典 chiplet 一个或两个设计 CCD ( 相当于 CCX ) ,再加上前代设计的完全连续性 IOD,结构是纯粹的 Zen5,不能使用 Zen5c。


在笔记本上,继续单芯片,双芯片 CCX 组合成一个 CCD。全部是 Zen5、Zen5c 搭配,最多各自 4 个、8 个。


服务器上 ( 包含内嵌式 ) ,更灵活的设计,CCX 有的更大,有的更小,Zen5、Zen5c 一切都会发生,但应该会和 Zen4、Zen4c 同样发展各自的产品线,不会混用。


代号 Granite Ridge 锐龙的桌面版 9000 系列裸片,核心布局图。


和以前基本一致,每个小组 CCX/CCD 内有 8 一个核心,8MB 二次缓存,32MB 三级缓存,但是注意两种缓存。 CCX/CCD 没有互通,所以即使是 12/16 核心型号有 64MB 三级缓存,但是每个核心最多只能浏览自己的位置。 CCX/CCD 中的 32MB。


理论上当然可以通过 IF 跨越式浏览总线,但带宽过低,延迟过高,无法使用。


IOD 部分和锐龙 7000 这个系列是一样的,所以也是一样的。 2 个 RDNA2 架构的 GPU CPU 模块、128 位双通道 DDR5-5600 记忆控制器,28 条 PCIe 5.0 总线、5 个 USB 接口,四组显示输出。


编号 Strix Point 锐龙移动版 AI 300 系列裸片,核心布局图。


变化还是挺大的,上一代 Zen4、Zen4c 组合只在两款低端车型上低调尝试,这次成为标准。 Zen5、Zen5c 组合。


仔细看左上角,分两个黄框图,4个黄框图。 个 Zen5 相应的核心和对应 16MB 三级缓存是一组,8 个 Zen5c 相应的核心和对应 8MB 另外一组,即与桌面相似或更极端,Zen5、Zen5c 三级缓存各用各用,无法互通,24MB 而且只是一个总容量。


GPU 部分为 RDNA3.5 架构,8 组 WGP 也就是 16 个 CU,1024 个流处理器。NPU 部分为 48 阵型的 XDNA 2 结构。两个人都很熟悉。


IO 部分,支持 128 位 LPDDR5X-7500/DDR5-5600 内存、16 条 PCIe 4.0、8 个 USB 接口,包括两个 USB4。


RDNA 3.5 架构的 GPU 纹路分系统、着色器分系统、光栅分系统、显存 / 内存分系统等多个方面进行了优化和增强,采样率等指标性能翻了一番,可跟随。 LPDDR5X 更好的内存组合,更高的压缩率。


当然,规模也在增加,12 个 CU 变 16 个 CU,4 个渲染后端 ( RB ) ,最大频率提高到 2.9GHz,大致提高了理论性能 30%,只是因为驱动力还不到位,目前还没有发布游戏性能。


XDNA2 架构的 NPU AI 发动机,号称第一个” Win24 “做好充分准备 x86 Cpu NPU,但现在可以使用了 NPU 无论应用程序是否太少, AMD 还是 Intel。


一般而言,Zen5 从目前的表现来看,作为一个大规模的架构升级,无论笔记本上的锐龙,都是相当成功的。 AI 300 或者桌面上的锐龙系列 9000 系列,性能和能效都有了很大的提升,有目共睹。第五代服务器 EPYC 同样值得期待。


Intel 这一方面将要拿出对合 Arrow Lake,在错过了一代之后,终于回到了高性能之争,又一场好戏开始了!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com