
AMD 正式發佈全新 Ryzen 5000 系列處理器,採用 TSMC 7nm 制程、核心代號為「Vermeer」,升級全新 Zen 3 微架構、相較上代性能平均提升達 19%, AMD 不單止以核取勝,今代 IPC 性能更完全壓倒 Intel,並成功奪走最強 Gaming CPU 頭銜。HKEPC 編輯將分析 Zen 3 微架構的改動,並找來全新 Ryzen 9 5900X、Ryzen 9 5950X 處理器,與 Intel Core i9-10900K 作效能對比測試。
68% 累積性能提升、Ryzen 5000 處理器登場
假如 PC 市場沒有了 AMD,或許今天效能級 CPU 仍停留在 4 核心規格,高階 HEDT 可能只是 12~16 核心,然後 IPC 性能只有單位數字緩慢成長,就是因為 AMD Zen 微架構的出現,迫使 Intel 再不能以擠牙膏式推出新產品,玩家們終於有了別的選擇。
AMD 全新 Ryzen 5000 系列不再依靠 CPU Cores 數目取勝,針對 CPU 微架構及 SoC Block 設計作出大幅改良,不僅 IPC 性能完全超越 Intel,甚至連 Intel 一直引以為傲的遊戲性能亦被攻克了,首次坐上最佳遊戲 CPU 寶座。
回顧 AMD 至 2017 推出 Zen 微架構的進步,無論是制程及微架構都按照時程表發展並準時實現,Zen 3 微架構僅相隔 Zen 2 短短 18 個月,IPC 性能平均提升了 19%,遊戲性能提升 9~39% 不等,如果對比首代 Zen 架構的 IPC 性能累積提升 41%,如果將時脈成長計算在內的累積提升高達 68%,AMD 更表示 5nm 的 Zen 4 將準時在 2022 年上市 ,難怪大家都在說︰「AMD Yes」。
全新 AMD Zen 3 微架構
AMD Zen 3 微架構是基於現有的 Zen 2 微架構作為藍圖並重新設計,包括了 Front-End、Execution Engine、Load Store Unit、SOC 晶片架構都有大量改動,包括了增加內部頻寬、提升運算單元使用率、提升緩存命中率、提升單一週期指令執行數等等,主要改進及全新設計包括︰
→ 改良 Front-end Fetch 及 Pre-Fetch 能力
→ L1 Branch Target Buffer 容量提升 1 倍
→ 增加 Branch Predictor Bandwidth
→ Execution Engines 增至 10 issues per Cycles
→ 更大的 Integer window
→ 增加 Floating Point Bandwidth
→ 更快的 Floating Point FMAC 單元
→ 增加 Load/Store Bandwidth
→ 大幅減低 Core to Core 延遲
→ 大幅減低 Core to Cache 延遲
→ 8 核心 CCD 晶片設計
→ 單一的 32MB L3 Cache 設計
→ 經過良的 Core to Cache Ring System
經改良的 Front End 引擎
全新 AMD Zen 3 微架構針對 Front End 引擎作出了大幅改良,經改良的 TAGE Branch Predictor,提供更快的指令提取、預測分支並進一步減少分支錯誤所造成的延遲,更大的 Branch Predictor Bandwdth,提早填充至 Request Queue 單元,有助降低運算延遲並優化記憶體系統並行性能。
AMD Zen 3 微架構其中一個重點是 Branch Target Buffer (BTB) 緩存,L1 BTB 由 Zen 2 的 0.5K Entries 增至 1K Entries,Indirect Target Array (ITA) 亦增至由 1K Entries 增至 1.5K Entries,更大的 Branch Bandwidth 有助更快分支錯誤的回復,減少背靠背預測造成的預測泡沫,能加快預測分支的進行並降低分支失敗率。
▲ AMD Zen 3 微架構的指令提取設計
此外, AMD Zen 3 微架構為提升 Micro-Tags 效率,雖然 μOps Cache 緩存保持在 4,096 條,但加快了 μOps Cache 的排序過程,μOps Cache 與 I-Cache 之間的切換速度更快,讓解碼後存放的μOps 指令更快地被提取,當遇上相同的 x86 指令時不需要再 Decoder 單元進行解碼,直接由 μOps Cache 緩存單元提取 μOps 指令,為 Front-End 引擎提供更高的 x86 指令吞吐量。
▲ AMD Zen 3 的 Front End 引擎
指令解碼方面, AMD Zen 3 微架構的 Front-End 引擎沿用 1 組 4-Wide x86 Decoder ,與 Zen 2 一樣每個週期可處理 4 個 x86 指令,每個週期可提取的 μOps 亦同與為 8 條,但更高效 Branch Prediction 與更快速的 μOps 指令處理,令 Zen 3 擁有更低延遲、更大的 x86 指令吞吐量,更有利於 SMT 同步多線程運算效率。據 AMD 白皮書中指出,Zen 3 的19% IPC 增長,其中 1/4 是來自 Front-End 的改良。