
NVIDIA 正式發佈全新 GeForce RTX 4090 顯示卡,採用全新 AD102 繪圖核心、升級新一代 Ada Lovelace GPU 微架構,增至 16,384 個 CUDA Core、第 3 代 RT Core 及第 4 代 Tensor Core、24GB GDDR6X 容量,與上代架構相比光刪化性能提升 2 倍、Ray Tracing 性能提升 4 倍,並且在絕大部份遊戲下 4K 光追能夠達至 100 FPS+,HKEPC 收到 NVIDIA GeForce RTX 4090 Founder Edition 與舊代旗艦卡進行測試。
GeForce RTX 40 系列登場
▲ GeForce RTX 40 系列 (4080 / 4090)
NVIDIA 11 日正式發佈首款 Ada Lovelace GPU 架構產品、核心代號為 AD102 的旗艦級 GeForce RTX 4090 顯示卡,現代 GPU 圖形運算技術不斷提升,遊戲畫面的幾何複雜性與光線運算技術亦大大提升,畫面亦變得更加逼真,當 NVIDIA 發佈 Turing GPU 架構時,Battlefield 5 僅為每個像素需要 39 次光線追蹤操作來計算典型場景中的光照效果,但在 4 年過後 Cyberpunk 2077 的 RT:Overdrive 模式已經增至每像素需經過超過 600 次光線追蹤計算,因此需要更強大的 GPU 才能滿足遊戲的進步。
與之前的 Ampere GPU 架構相比,NVIDIA Ada Lovelace GPU 在光柵化遊戲中的速度提升達 2 倍,在光線追蹤遊戲中的速度提升達 4 倍,是 NVIDIA 在歷史上最大的一代性能升級 (每一代都這樣說 XD),主要得四大關鍵創新︰
革命性的架構規模提升:
Ada Lovelace GPU 架構規模大大提升,在制程創新下 NVIDIA 工程師能制造出具有 763 億個電晶體、擁有高達 18,432 個 CUDA Core 晶片,並且能運行超過 2.5GHz 時脈以上,卻可以保持與 GeForce RTX 3090 Ti 相同的 450W TGP 功耗表現。
更強大的 Ada Lovelace RT Core :
為了實現更強大的光線追蹤能力,Ada Lovelace GPU 架構升級第 3 代 RT Core 新增了兩個硬體單元;Opacity Micromap Engine 可將經過 alpha 測試的幾何體的光線追蹤速度提升 2 倍,而 Displaced Micro-Mesh Engine 可即時生成 Displaced Micro-Triangles 以創建額外的幾何體,能大大增加光線追蹤的復雜卻不會對 GPU 性能及儲存造成負擔。
著色器執行重新排序︰
Ada Lovelace GPU 架構的 SM 支援著色器執行重新排序,可以動態組織及重新排程著色器的工作負載,令光線追蹤的著色效率大大提升,在 Cyberpunk 的 RT:Overdrive 模式中,性能相較上代 SM 提升 44%。
NVIDIA DLSS 3 技術︰
Ada Lovelace GPU 架構新增 DLSS 3 技術,升級第 4 代 Tensor Cores 新增全新的光流加速器能提供 AI 畫幀生成功能,可將 DLSS 3 的幀速率提升至之前的 DLSS 2.0 的 2 倍,同時保持或超過原生圖像質量,並且新增 FP8 張量運算能力,與傳統的蠻力圖形渲染相比,DLSS 3 最終速度提高了 4 倍,同時提供了低系統延遲。
NVIDIA 於 11 日正式發佈 GeForce RTX 4090 型號,基於 AD102 繪圖核心、擁有 16,384 個 CUDA Cores、24GB GDDR6X 容量,MSRP 定價 US$1,599,能夠在大部份 4K + RT 啟動下提供 100FPS+ 遊戲性能。
緊接 11 月會將會再發佈 2 款 GeForce RTX 4080 型號,RTX 4080 12GB 基於 AD104 繪圖核心,擁有 7,680 個CUDA Cores、12GB GDDR6X 記憶體,RTX 4080 16GB 基於 AD103 繪圖核心,擁有 9,728 個 CUDA Cores、16GB GDDR6X 記憶體,MSRP 售價分別為 US$899 與 US$1,199。
TSMC 4N 制程、NVIDIA AD102 繪圖核心
NVIDIA AD102 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4090 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技,術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。
▲ NVIDIA AD102 Block Diagram
GeForce RTX 4090 採用 AD102-300 繪圖核心,採用 TSMC 4N NVIDIA Custom 制程,擁有 763 億個電晶體、 Die Size 608.5mm² 相較上代 GA102 的 628mm² 還要小,完整的 AD102 晶片內建 12 個 GPC 單元、72 個 TPC 紋理處理群集及 144 個 SM 串流多處理器,增至 18432 個 CUDA Cores、144 個 RT Cores 及 512 個 Tensor Cores。
▲ NVIDIA AD102-300-KA-A1 繪圖核心
不過,GeForce RTX 4090 部份單元作出了屏蔽,刪減至只有 11 個 GPC 單元、64 個 TPC 紋理處理群集及 128 個 SM 串流多處理器,具備 16,384 個 CUDA Cores、128 個 RT Cores 及 512 個 Tensor Cores。
核心時脈方面,雖然晶片規模大幅提升但時脈仍然保持於超高水平,GeForce RTX 4090 預設時脈 2.23GHz、Boost 時脈為 2.52GHz,最高 TDP 為 450W。
此外,GeForce RTX 4090 採用 21Gbps GDDR6X 記憶體,384-bit 記憶體介面總頻寬為 1008GB/s,更重要是 L2 Cache 容量大幅增加至 73,732KB,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。
NVIDIA GeForce RTX 40 Family Full Specifications
Graphics Card | GeForce RTX 4080 12G Founders Edition | GeForce RTX 4080 16G Founders Edition | GeForce RTX 4090 Founders Edition |
GPU Codename | AD104 | AD103 | AD102 |
GPU Architecture | NVIDIA AdaLovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace |
GPCs | 5 | 7 | 11 |
TPCs | 30 | 38 | 64 |
SMs | 60 | 76 | 128 |
CUDA Cores / SM | 128 | 128 | 128 |
CUDA Cores / GPU | 7680 | 9728 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 240 (4th Gen) | 304 (4th Gen) | 512 (4th Gen) |
RT Cores | 60 (3rd Gen) | 76 (3rd Gen) | 128 (3rd Gen) |
GPU Boost Clock (MHz) | 2610 | 2505 | 2520 |
Peak FP32 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak FP16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak BF16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak INT32 TOPS (non-Tensor) | 10.6 | 24.4 | 41.3 |
RT TFLOPS | 92.7 | 112.7 | 191 |
Peak FP8 Tensor TFLOPS with FP16 Accumulate | 320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP8 Tensor TFLOPS with FP32 Accumulate | 320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 160.4/320.8 | 194.9/389.8 | 330.3/660.6 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak TF32 Tensor TFLOPS | 40.1/80.2 | 48.7/97.4 | 82.6/165.2 |
Peak INT8 Tensor TOPS | 320.7/641.4 | 389.9/779.82 | 660.6/1321.2 |
Peak INT4 Tensor TOPS | 641.4/1282.8 | 779.8/1559.6 | 1321.2/2642.4 |
Frame Buffer Memory Size and Type | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
Memory Interface | 192-bit | 256-bit | 384-bit |
Memory Clock (Data Rate) | 21 Gbps | 22.4 Gbps | 21 Gbps |
Memory Bandwidth | 504 GB/sec | 716.8 GB/sec | 1008 GB/sec |
ROPs | 80 | 112 | 176 |
Pixel Fill-rate (Gigapixels/sec) | 208.8 | 280.6 | 443.5 |
Texture Units | 240 | 304 | 512 |
Texel Fill-rate (Gigatexels/sec) | 626.4 | 761.5 | 1290.2 |
L1 Data Cache/SharedMemory | 7680 KB | 9728 KB | 16384 KB |
L2 Cache | 49152 KB | 65536 KB | 73728 KB |
Register File Size | 15360 KB | 19456 KB | 32768 KB |
Video Engines | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1X NVDEC (Gen 5) |
TGP Power | 285W | 320W | 450W |
Transistor Count | 35.8 Billion | 45.9 Billion | 76.3 Billion |
Die Size | 294.5mm² | 378.6mm² | 608.5mm² |
Manufacturing Process | TSMC 4N | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 | Gen4 | Gen 4 |