2022-09-26
全新 AM5 接口、Zen 4 微架構
AMD Ryzen 9 7950X 處理器詳細評測
文: John Lam / 評測中心


AMD 正式發佈全新 Ryzen 7000 系列處理器,採用 TSMC 5nm + 6nm 制程、核心代號 Raphael,採用全新 Zen 4 微架構,相較上代 IPC 性能提升約 13%、單核性能提升約 29%、多核性能提升約 35%,新增 AVX-512 指令集支持,換上 Socket AM5 接口,支援 DDR5、PCIe 5.0、RDNA 2 IGP 核心,無論性能還是功能性都得到大幅提升。 HKEPC 編輯部找來全新 Ryzen 9 7950X 處理器與 Intel Core i9-12900K 及 Ryzen 9 5950X 作效能對比測試。



強化 Execution Engine : 增大 Retire Queue 與 Register File

 

AMD Zen 4 微架構的 Execution Engine 設計其實改動不大,保持 10 INT 整數 + 6 FP 淨點運算端口,主要性能提升來自 Instruction Retire Queue 增加了 25%。,有別於 Intel Core 微架構採用 Unified Reservation Station 設計,AMD 微架構選擇分割出獨立的 INT 整數及 FP 浮點運算群,各自擁有專屬的流水線及執行端口,雖然電晶體數目及所需晶片面積增加,但卻擁有更佳的並行運算能力, 這就是為何 AMD 的 SMT 同步多線程運算性能,為何會比 Intel Hyper-Threading 更佳。

 

 

Zen 4

 

 

為減少單元閒置造成資源浪費,AMD Zen 4 微架構將 INT 整數 Register File 暫存器數目由 192 個增至 224 個,FP 整數 Register File 暫存器數目由 160 個增至 292 個,能提升亂序執行能力避免 μOps 指令不必要地順序執行,從而提升處理器的指令層級並行運算性能。

 

此外,AMD Zen 4 擁有更深 Out of Order 引擎,Re-Order Buffer 由 256 個提升至 320 個,目的是要進一步降低運算延遲,並且進一步提高指令層面的平行運算能力,事實上 Execute Engine 的性能提升,很大程度都在自於 ROB 的增加。

 

 

Zen 4

 

 

AMD Zen 4 另一個重大改是加入 AVX-512 指令集支援,它是透過 2 個 256bit ADD 加法端口及 2 個 256bit MUL 乘法端口組合,實現 AVX512FMA 運算支援,這種的設計可以說是在晶片面積、功耗與時脈之間作出的最佳妥協,以下是 Zen 4 可支援的 AVX512 子集︰

 

→  AVX512F - Foundation

→  AVX512DQ - Packed integer instructions

→  AVX512_IFMA - Integer Fused mul-add

→  AVX512CD - Conflict detection for vectorizing loops

→  AVX512BW - Adds more packed integer instructions

→  AVX512VL - Extends new instruction to 128 and 256bits

→  AVX512_VBMI - Vector byte permutation

→  AVX512_VBMI2 - More Vector byte permutation

→  GFNI - Galois Flied New Instructions (SSE, AVX and AVX512)

→  AVX512_VNNI - Vector NN instructions

→  AVX512_BITALG

→  AVX512_VPOPCNTDQ

→  AVX512_BF16 - BFloat16 converts

 

根據 AMD 白皮書指出,AMD Zen 4 在 ONNX Runtime Performance測試中,多核 FP32 運算中性能相較上代快 31%,執行多核 int8 運算相較上代則有 147% 增長。

 

 

強化 Cache Subsystem 架構

 

為進一步提升處理器吞吐量,AMD Zen 4 微架構針對 Cache Subsystem 作出了不少改良,更高的 Load Bandwidth,更大的使用彈性,更大 L2 Cache 容量與 L2 DTLB Data 轉譯後備緩衝區數目,盡量填充 Execution Engine 減低閒置及延遲。

 

 

Zen 4

 

 

全新 Zen 4 微架構 L1 Data Cache 容量保持 32KB、同樣為 8-Way 關聯性,Load Queue 數目由 72 個提升至 88 個,盡量填充 Execution Engine 減低閒置及延遲,Store Queue 數目則維持 64 個。

 

此外,L2 DTLB 頁表由 2K Entries 提升至 3K Entries,DTLB 容量越大所能存放的頁表條目數越多,同時意味著緩存命中率的增加,實現 CPU 的性能提升。

 

 

Zen 4

 

 

L2 Cache 方面,AMD Zen 4 微架構提升至 1MB、8-Way L2 Cache 容量,雖然 Latency 由 12 Cycles 略為提升至 14 Cycles,但受惠於更大的 L2 Cache 及 DTLB 頁表,L2 Cache 命中表現相較上代 Zen 3 進一步改善。

 

分享到:
發表評論