AMD 深入解读Zen5架构：发现了频率降低、性能提高的秘密！

2024-08-10

以前是借着参加的 AMD Zen5 我们与您分享了技术日活动。 Zen5 结构模式的特点，但与过去不同，当时公布的信息并不多，不涉及结构底部的细节，也缺乏和 Zen4 全面对比。

近期，AMD 更新了 Zen5 结构技术文档，最终公布了我们想要的许多细节，包括每一个微结构模块的具体变化，包括桌面端和移动端的异同， Zen5、Zen5c 新概念，包括同样升级的新概念 RDNA 3.5 GPU、XDNA 2 NPU。

任何工作都要有目标，CPU 当然，架构模式也是如此。

Zen5 目标很简单。核心是继续大幅提升单核和双核性能，为未来打下新的基础，同时实现满血版。 AVX-支持可配置的512 256/512 位置浮点数据路径，有利于大大改善 AI 能力。

令人尴尬的是，Intel 12 代酷睿开始采用异构混合架构，其中 E 核不支持 AVX-512，导致整体不得不放弃。

Zen5 另外一项重要任务是进一步普及紧凑版的核心，即 Zen5c，包括手机端和服务器端。

事实上，上一代就有了 Zen4、Zen4c，并且在数据中心端大放异彩，而在移动端只是很低调的小试牛刀，这次要大规模普及。

不过 AMD 明确表示，Zen5c 这样的设计在桌面端就不用了，原因以后再说。

另外，能效更加灵活，4/3nm 工艺支持，ISA 指令集增强，也是如此 Zen5 主要任务。

Zen5 从前端到后端，从整数到浮点，从缓存到带宽，微结构总览都进行了全面升级，后面将逐一描述。

缓存部分是大家经常看到的，也比较容易理解。

Zen5 是否有一级指令缓存容量？ 32KB，8 道路关联，每时钟周期2组 32B 捡取；

一级数据缓存容量提高到 48KB，12 道路连接，每个时钟周期 4 一个内存操作。

还有一种特殊的操作缓存。 ( Op-Cache ) ，支持 6 每个时钟周期支持2组指令 6 捡起一个宽度。

二次缓存容量仍然是 1MB，16 路关联。

支撑“零泡沫”等分支预测和拾取部分得到了很大的优化和提升。 ( zero-bubble ) 支系，代表支系预测器访问。 BTB ( 支部目标缓冲 ) 不需要付出任何代价。

L1、L2 BTB 还增加了容量 ( 1.5K/7K 来到 16K/8K ) 并且增加了精度 TAGE，这种情况对于有条件的间接支系至关重要。

另外，每个时钟周期的拾取和解码指令数从 32B 翻番到 64B，回到寻址堆栈 32 个变成 52 个，最多支持每时钟周期。 3 一个预测窗口，指令缓存的延迟和带宽也有所改善。

新型指令解码系统，配置双解码流水线，能独立并行计算指令流，每个时钟周期 4 条指令。

操作缓存 ( OpCache ) 相关路数增加 1/3 达到了 16 道路，可以储存最多 6 一条指令，配合双流水线，每个时钟周期就是 12 条指令。

在开启 SMT 在多线程中，每一个过程都是一条流水线。

与此同时，通向整数和浮点单元的分配序列总宽度也非常重要。 6 个增至 8 个宏操作 ( macro-op ) ，并且支持操作结合，可以让两个来自某些指令的宏操作作为一个进行处理。

整个数字模块本来就是 Zen 结构的强项，现在更“膨胀”了，分配、重命名、退缩都达到了 8 个总宽。

ALU 从整数逻辑单元开始 4 个增至 6 个，包含 3 一个乘法单元和 3 每个支系模块，ALU 调度器也从 24 个大幅增至 88 个。

AGU 地址生成模块 3 个增至 4 个，每个时钟周期都可以执行。 4 二次内存寻址，AGU 调度器从 48 个独立、24 个与 ALU 分享变成了单独的 56 个。

整数单元的大幅加强，可以说是锐龙 9000 在加速频率微增或不动、基准频率降低的前提下，系列获得性能大幅提升的关键因素。

尤其是矢量和浮点能力也明显增强， AVX-512 最后，指令集可以支持完整性。 512 同时保留位数据路径 256 位置，很灵活，能兼顾高性能，高效率，不会使功耗失控。

升级了整个浮点执行单元的带宽和延迟，包括 4 一条浮点执行流水线 ( Zen4 3 条 ) 、3 × 38 浮点调度器 ( Zen4 2 × 32 个 ) 、2 条载存储和整数存储装置流水线，每小时周期 2 个 512 位载入和 1 个 512 位置存储，双循环 FADD，等等。

一级和二级缓存部分的数据带宽全面扩展，尤其是一级数据缓存。 12 路 48KB，4 条载入 / 每个时钟周期都可以存储流水线。 4 个载入 ( Zen4 还是 3 个 ) 和 2 个存储，4 条整载入流水线可以合并为合并。 2 条。

外部也全面涉及 TLB、实时窗口，数据预取等部分。

新增加的指令并不多，AVX-512 仍然是重点，包括扩展到扩展。 VEX 编码的 VNNI/VEX、矢量配对是一对掩码寄存器。 VP2INTERSECT。

还有就是 PMC 虚拟化，可以为客户机提供更好的安全保障，以及异构拓扑，显然是为了 Zen5、Zen5c 准备好搭配。

Zen5、Zen4 对比技术规格的细节，更是对上面提到的一种归纳。

请注意，从前端到执行单元到缓存的所有参数都发生了变化，所以可以说。 Zen5 这是一次全面的架构翻新，也就是所谓的“大改革”，这样就有了频率下降但性能上升的奇妙结果。

Zen5、Zen5c 两者的结构模式，IPC 性能、ISA 指令集完全一样，也支持多线程。对于操作系统和应用软件来说，它们是透明的，是相当的。基本上没有必要特别考虑调度，这和 Intel 异构大小核自然不同。

Zen5 向往是尽可能高的单核频率和单核性能，以及足够大的三级缓存。

Zen5c 这样可以减少频率，提高能效，同时精简部分三级缓存。

Zen5 CCX 模块核心和缓存系统结构图。

一级指令缓存基本没有改变，或者 32KB 容量，8 路关联。

一级数据缓存容量增加了一半 48KB，12 道路关联也增加了一半，而且带宽翻了一番， CPU 每时钟周期支持核心间的支持 4 个载入与 2 个存储。

二次缓存容量还是每个核心？ 1MB，但关联路数翻了一番，达到了1MB。 16 道路，带宽也翻了一番，和一级缓存之间的时钟周期翻了一番。 64B，以及三级缓存之间的时钟周期。三十二百，双向都是这样。

三级缓存每 CCX 16MB，16 道路关联，但减少了延迟，提高了准确率。

Zen5 在桌面台式机、移动笔记本、服务器数据中心三个领域，架构采用了不同的产品设计和试验实现方式，都很有目的。

桌面，经典 chiplet 一个或两个设计 CCD ( 相当于 CCX ) ，再加上前代设计的完全连续性 IOD，结构是纯粹的 Zen5，不能使用 Zen5c。

在笔记本上，继续单芯片，双芯片 CCX 组合成一个 CCD。全部是 Zen5、Zen5c 搭配，最多各自 4 个、8 个。

服务器上 ( 包含内嵌式 ) ，更灵活的设计，CCX 有的更大，有的更小，Zen5、Zen5c 一切都会发生，但应该会和 Zen4、Zen4c 同样发展各自的产品线，不会混用。

代号 Granite Ridge 锐龙的桌面版 9000 系列裸片，核心布局图。

和以前基本一致，每个小组 CCX/CCD 内有 8 一个核心，8MB 二次缓存，32MB 三级缓存，但是注意两种缓存。 CCX/CCD 没有互通，所以即使是 12/16 核心型号有 64MB 三级缓存，但是每个核心最多只能浏览自己的位置。 CCX/CCD 中的 32MB。

理论上当然可以通过 IF 跨越式浏览总线，但带宽过低，延迟过高，无法使用。

IOD 部分和锐龙 7000 这个系列是一样的，所以也是一样的。 2 个 RDNA2 架构的 GPU CPU 模块、128 位双通道 DDR5-5600 记忆控制器，28 条 PCIe 5.0 总线、5 个 USB 接口，四组显示输出。

编号 Strix Point 锐龙移动版 AI 300 系列裸片，核心布局图。

变化还是挺大的，上一代 Zen4、Zen4c 组合只在两款低端车型上低调尝试，这次成为标准。 Zen5、Zen5c 组合。

仔细看左上角，分两个黄框图，4个黄框图。个 Zen5 相应的核心和对应 16MB 三级缓存是一组，8 个 Zen5c 相应的核心和对应 8MB 另外一组，即与桌面相似或更极端，Zen5、Zen5c 三级缓存各用各用，无法互通，24MB 而且只是一个总容量。

GPU 部分为 RDNA3.5 架构，8 组 WGP 也就是 16 个 CU，1024 个流处理器。NPU 部分为 48 阵型的 XDNA 2 结构。两个人都很熟悉。

IO 部分，支持 128 位 LPDDR5X-7500/DDR5-5600 内存、16 条 PCIe 4.0、8 个 USB 接口，包括两个 USB4。

RDNA 3.5 架构的 GPU 纹路分系统、着色器分系统、光栅分系统、显存 / 内存分系统等多个方面进行了优化和增强，采样率等指标性能翻了一番，可跟随。 LPDDR5X 更好的内存组合，更高的压缩率。

当然，规模也在增加，12 个 CU 变 16 个 CU，4 个渲染后端 ( RB ) ，最大频率提高到 2.9GHz，大致提高了理论性能 30％，只是因为驱动力还不到位，目前还没有发布游戏性能。

XDNA2 架构的 NPU AI 发动机，号称第一个” Win24 “做好充分准备 x86 Cpu NPU，但现在可以使用了 NPU 无论应用程序是否太少， AMD 还是 Intel。

一般而言，Zen5 从目前的表现来看，作为一个大规模的架构升级，无论笔记本上的锐龙，都是相当成功的。 AI 300 或者桌面上的锐龙系列 9000 系列，性能和能效都有了很大的提升，有目共睹。第五代服务器 EPYC 同样值得期待。

Intel 这一方面将要拿出对合 Arrow Lake，在错过了一代之后，终于回到了高性能之争，又一场好戏开始了！

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

沉浸式存储体验P&I2024雷克沙与您共绘影像新篇章。

北京不会摆烂，培训机会来了，成长开始。

浙江也出手了，强挖郭士强徒弟，广州无法拒绝。

天津拿下新王炸，季后赛稳定，广州惨不忍睹。

谍战剧《孤舟》，解读人物角色，分析权力阵营

项目推荐

迪瓜租机

水灵珑

康老板 · 氧疗堂