2022-10-11
全新 Ada Lovelace 架構 !!
NVIDIA GeForce RTX 4090 FE 顯示卡
文: John Lam / 評測中心


NVIDIA 正式發佈全新 GeForce RTX 4090 顯示卡,採用全新 AD102 繪圖核心、升級新一代 Ada Lovelace GPU 微架構,增至 16,384 個 CUDA Core、第 3 代 RT Core 及第 4 代 Tensor Core、24GB GDDR6X 容量,與上代架構相比光刪化性能提升 2 倍、Ray Tracing 性能提升 4 倍,並且在絕大部份遊戲下 4K 光追能夠達至 100 FPS+,HKEPC 收到 NVIDIA GeForce RTX 4090 Founder Edition 與舊代旗艦卡進行測試。



GeForce RTX 40 系列登場

 

RTX 4090

▲ GeForce RTX 40 系列 (4080 / 4090)

 

 

NVIDIA 11 日正式發佈首款 Ada Lovelace GPU 架構產品、核心代號為 AD102 的旗艦級 GeForce RTX 4090 顯示卡,現代 GPU 圖形運算技術不斷提升,遊戲畫面的幾何複雜性與光線運算技術亦大大提升,畫面亦變得更加逼真,當 NVIDIA 發佈 Turing GPU 架構時,Battlefield 5 僅為每個像素需要 39 次光線追蹤操作來計算典型場景中的光照效果,但在 4 年過後 Cyberpunk 2077 的 RT:Overdrive 模式已經增至每像素需經過超過 600 次光線追蹤計算,因此需要更強大的 GPU 才能滿足遊戲的進步。

 

與之前的 Ampere GPU 架構相比,NVIDIA Ada Lovelace GPU 在光柵化遊戲中的速度提升達 2 倍,在光線追蹤遊戲中的速度提升達 4 倍,是 NVIDIA 在歷史上最大的一代性能升級 (每一代都這樣說 XD),主要得四大關鍵創新︰

 

 

RTX 4090

 

 

革命性的架構規模提升:
Ada Lovelace  GPU 架構規模大大提升,在制程創新下 NVIDIA 工程師能制造出具有 763 億個電晶體、擁有高達 18,432 個 CUDA Core 晶片,並且能運行超過 2.5GHz 時脈以上,卻可以保持與 GeForce RTX 3090 Ti 相同的 450W TGP 功耗表現。

 

更強大的 Ada Lovelace RT Core :

為了實現更強大的光線追蹤能力,Ada Lovelace GPU 架構升級第 3 代 RT Core 新增了兩個硬體單元;Opacity Micromap Engine 可將經過 alpha 測試的幾何體的光線追蹤速度提升 2 倍,而 Displaced Micro-Mesh Engine 可即時生成 Displaced Micro-Triangles 以創建額外的幾何體,能大大增加光線追蹤的復雜卻不會對 GPU 性能及儲存造成負擔。

 

著色器執行重新排序︰

Ada Lovelace GPU 架構的 SM 支援著色器執行重新排序,可以動態組織及重新排程著色器的工作負載,令光線追蹤的著色效率大大提升,在 Cyberpunk 的 RT:Overdrive 模式中,性能相較上代 SM 提升 44%。

 

NVIDIA DLSS 3 技術︰

Ada Lovelace GPU 架構新增 DLSS 3 技術,升級第 4 代 Tensor Cores 新增全新的光流加速器能提供 AI 畫幀生成功能,可將 DLSS 3 的幀速率提升至之前的 DLSS 2.0 的 2 倍,同時保持或超過原生圖像質量,並且新增 FP8 張量運算能力,與傳統的蠻力圖形渲染相比,DLSS 3 最終速度提高了 4 倍,同時提供了低系統延遲。

 

 

AD102

 

 

NVIDIA 於 11 日正式發佈 GeForce RTX 4090 型號,基於 AD102 繪圖核心、擁有 16,384 個 CUDA Cores、24GB GDDR6X 容量,MSRP 定價 US$1,599,能夠在大部份 4K + RT 啟動下提供 100FPS+ 遊戲性能。

 

緊接 11 月會將會再發佈 2 款 GeForce RTX 4080 型號,RTX 4080 12GB 基於 AD104 繪圖核心,擁有 7,680 個CUDA Cores、12GB GDDR6X 記憶體,RTX 4080 16GB 基於 AD103 繪圖核心,擁有 9,728 個 CUDA Cores、16GB GDDR6X 記憶體,MSRP 售價分別為 US$899 與 US$1,199。

 

 

TSMC 4N 制程、NVIDIA AD102 繪圖核心

 

NVIDIA AD102 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4090 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技,術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。

 

 

AD120 Full Diagram

▲ NVIDIA AD102 Block Diagram

 

 

GeForce RTX 4090 採用 AD102-300 繪圖核心,採用 TSMC 4N NVIDIA Custom 制程,擁有 763 億個電晶體、 Die Size 608.5mm² 相較上代 GA102 的 628mm² 還要小,完整的 AD102 晶片內建 12 個 GPC 單元、72 個 TPC 紋理處理群集及 144 個 SM 串流多處理器,增至 18432 個 CUDA Cores、144 個 RT Cores 及 512 個 Tensor Cores。

 

 

AD102

▲ NVIDIA AD102-300-KA-A1 繪圖核心

 

 

不過,GeForce RTX 4090 部份單元作出了屏蔽,刪減至只有 11 個 GPC 單元、64 個 TPC 紋理處理群集及 128 個 SM 串流多處理器,具備 16,384 個 CUDA Cores、128 個 RT Cores 及 512 個 Tensor Cores。

 

核心時脈方面,雖然晶片規模大幅提升但時脈仍然保持於超高水平,GeForce RTX 4090 預設時脈 2.23GHz、Boost 時脈為 2.52GHz,最高 TDP 為 450W。

 

此外,GeForce RTX 4090 採用 21Gbps GDDR6X 記憶體,384-bit 記憶體介面總頻寬為 1008GB/s,更重要是 L2 Cache 容量大幅增加至  73,732KB,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。

 

 

NVIDIA GeForce RTX 40 Family Full Specifications

 

Graphics CardGeForce
RTX 4080 12G
Founders Edition
GeForce
RTX 4080 16G
Founders Edition
GeForce
RTX 4090
Founders Edition
GPU CodenameAD104AD103AD102
GPU ArchitectureNVIDIA
AdaLovelace
NVIDIA
Ada Lovelace
NVIDIA
Ada Lovelace
GPCs5711
TPCs303864
SMs6076128
CUDA Cores / SM128128128
CUDA Cores / GPU7680972816384
Tensor Cores / SM4 (4th Gen)4 (4th Gen)4 (4th Gen)
Tensor Cores / GPU240 (4th Gen)304 (4th Gen)512 (4th Gen)
RT Cores60 (3rd Gen)76 (3rd Gen)128 (3rd Gen)
GPU Boost Clock (MHz)261025052520
Peak FP32 TFLOPS (non-Tensor)40.148.782.6
Peak FP16 TFLOPS (non-Tensor)40.148.782.6
Peak BF16 TFLOPS (non-Tensor)40.148.782.6
Peak INT32 TOPS (non-Tensor)10.624.441.3
RT TFLOPS92.7112.7191
Peak FP8 Tensor TFLOPS
with FP16 Accumulate
320.7/641.4389.9/779.8660.6/1321.2
Peak FP8 Tensor TFLOPS
with FP32 Accumulate
320.7/641.4389.9/779.8660.6/1321.2
Peak FP16 Tensor TFLOPS
with FP16 Accumulate
160.4/320.8194.9/389.8330.3/660.6
Peak FP16 Tensor TFLOPS with FP32 Accumulate80.2/160.497.5/195165.2/330.4
Peak BF16 Tensor TFLOPS
with FP32 Accumulate
80.2/160.497.5/195165.2/330.4
Peak TF32 Tensor TFLOPS40.1/80.248.7/97.482.6/165.2
Peak INT8 Tensor TOPS320.7/641.4389.9/779.82660.6/1321.2
Peak INT4 Tensor TOPS641.4/1282.8779.8/1559.61321.2/2642.4
Frame Buffer Memory Size and Type12GB GDDR6X16GB GDDR6X24GB
GDDR6X
Memory Interface192-bit256-bit384-bit
Memory Clock (Data Rate)21 Gbps22.4 Gbps21 Gbps
Memory Bandwidth504 GB/sec716.8 GB/sec1008 GB/sec
ROPs80112176
Pixel Fill-rate (Gigapixels/sec)208.8280.6443.5
Texture Units240304512
Texel Fill-rate (Gigatexels/sec)626.4761.51290.2
L1 Data Cache/SharedMemory7680 KB9728 KB16384 KB
L2 Cache49152 KB65536 KB73728 KB
Register File Size15360 KB19456 KB32768 KB
Video Engines2x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1X NVDEC (Gen 5)
TGP Power285W320W450W
Transistor Count35.8 Billion45.9 Billion76.3 Billion
Die Size294.5mm²378.6mm²608.5mm²
Manufacturing ProcessTSMC 4NTSMC 4NTSMC 4N
PCIe InterfaceGen4Gen4Gen 4

 

發表評論