2022-11-15
較 RTX 3080 Ti 快 100% ?
NVIDIA GeForce RTX 4080 FE 實測
文: John Lam / 評測中心


NVIDIA 正式發佈全新 GeForce RTX 4080 顯示卡,採用全新 AD103 繪圖核心、升級新一代 Ada Lovelace GPU 微架構,增至 9,728 個 CUDA Core、第 3 代 RT Core 及第 4 代 Tensor Core、16GB GDDR6X 容量,與上代架構相比光刪化性能提升 2 倍、Ray Tracing 性能提升 4 倍,啟動 DLSS 3 後新卡性能較 RTX 3080 Ti 快 1 倍但功耗降低 10%,MSRP 定價 US$1,199,HKEPC 收到GeForce RTX 4080 Founder Edition 與 RTX 3080 Ti 進行測試。



NVIDIA GeForce RTX 4080 系列登場

 

RTX 4090

▲ GeForce RTX 40 系列 (4080 / 4090)

 

 

緊接 10 月推出 GeForce RTX 4090 之後,NVIDIA  15 日再發佈 GeForce RTX 4080 系列,採用全新 Nvidia Ada Lovelace GPU 微架構,原本這個系列共有 2 個型號,分別是採用 AD103 繪圖核心的 RTX 4080 16GB 與採用 AD104 繪圖核心的 RTX 4080 12GB,雖然同樣叫 RTX 4080 但兩者規格與性能差異頗大,被一眾網民指責型號混亂,最終 NVIDIA 官方取消了 RTX 4080 12GB 的推出計劃,只保留 GeForce RTX 4080 16GB 型號。

 

與之前的 Ampere GPU 架構相比,NVIDIA Ada Lovelace GPU 在光柵化遊戲中的速度提升達 2 倍,在光線追蹤遊戲中的速度提升達 4 倍,是 NVIDIA 在歷史上最大的一代性能升級 (每一代都這樣說 XD),主要得四大關鍵創新︰

 

RTX 4090

 

 

革命性的架構規模提升:
Ada Lovelace  GPU 架構規模大大提升,在制程創新下 NVIDIA 工程師能制造出具有 763 億個電晶體、擁有高達 18,432 個 CUDA Core 晶片,並且能運行超過 2.5GHz 時脈以上,卻可以保持與 GeForce RTX 3090 Ti 相同的 450W TGP 功耗表現。

 

更強大的 Ada Lovelace RT Core :

為了實現更強大的光線追蹤能力,Ada Lovelace GPU 架構升級第 3 代 RT Core 新增了兩個硬體單元;Opacity Micromap Engine 可將經過 alpha 測試的幾何體的光線追蹤速度提升 2 倍,而 Displaced Micro-Mesh Engine 可即時生成 Displaced Micro-Triangles 以創建額外的幾何體,能大大增加光線追蹤的復雜卻不會對 GPU 性能及儲存造成負擔。

 

著色器執行重新排序︰

Ada Lovelace GPU 架構的 SM 支援著色器執行重新排序,可以動態組織及重新排程著色器的工作負載,令光線追蹤的著色效率大大提升,在 Cyberpunk 的 RT:Overdrive 模式中,性能相較上代 SM 提升 44%。

 

NVIDIA DLSS 3 技術︰

Ada Lovelace GPU 架構新增 DLSS 3 技術,升級第 4 代 Tensor Cores 新增全新的光流加速器能提供 AI 畫幀生成功能,可將 DLSS 3 的幀速率提升至之前的 DLSS 2.0 的 2 倍,同時保持或超過原生圖像質量,並且新增 FP8 張量運算能力,與傳統的蠻力圖形渲染相比,DLSS 3 最終速度提高了 4 倍,同時提供了低系統延遲。

 

 

 

GeForce RTX 4080 FE

▲ GeForce RTX 4080 系列正式登場

 

 

NVIDIA 於 16 日正式發佈 GeForce RTX 4080 型號,基於 AD103 繪圖核心、擁有 9,728 個 CUDA Cores、16GB GDDR6X 容量,MSRP 定價 US$1,199,啟動 4K + RT 性能下是上代 RTX 3080 Ti 的 1 倍,但 TGP 功耗降低了 10%,如果在 DLSS 3 啟動下遊戲性能更可以達至 RTX 3080 Ti 的 1.5 倍。

 

原計劃同日發佈 GeForce RTX 4080 12GB 型號,但受到外界激烈反對聲音,NVIDIA 最終決定取消 GeForce RTX 4080 12GB,很大機會改為明年 1 月以 GeForce RTX 4070 Ti 名義上市,但規格不會改變,售價未定。

 

 

 

TSMC 4N 制程、NVIDIA AD103 繪圖核心

 

NVIDIA AD103 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4080 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技,術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。

 

GeForce RTX 4080 採用 AD103-300 繪圖核心,採用 TSMC 4N NVIDIA Custom 制程,擁有 459 億個電晶體、 Die Size 379mm² 相較上代 GeForce RTX 3090 的 GA102-200 Die Size 628mm² 細小得多,完整的 AD103 晶片內建 7 個 GPC 單元、 42 個 TPC 紋理處理群集及 84 個 SM 串流多處理器,具備 10752 個 CUDA Cores、84 個 RT Cores 及 336 個 Tensor Cores。

 

 

 

GeForce RTX 4080 FE

▲ NVIDIA AD103 Block Diagram

 

 

不過,GeForce RTX 4080 部份單元作出了屏蔽,雖然保持 7 個 GPC 單元,但減至 38 個 TPC 紋理處理群集及 76 個 SM 串流多處理器,具備 9,278 個 CUDA Cores、76 個 RT Cores 及 304 個 Tensor Cores。

 

核心時脈方面,採用 TSMC 4N  制程令這代 Ada Lovelace 的核心時脈可大幅升,GeForce RTX 4090 預設時脈 2,205MHz、Boost 時脈為 2,505MHz,最高 TDP 為 320W。

 

 

RTX 4080 FE

▲ NVIDIA AD103-300-KA-A1 繪圖核心

 

 

記憶體方面,GeForce RTX 4080 採用更高速度的 22.4Gbps GDDR6X 記憶體顆粒,雖然記憶體容量增至 16GB,但記憶體頻寬則降至 256bit,總記憶體頻寬降至 716.8GB/s,相較 RTX 3080 的 760GB/s 還要少,不過 Ada Lovelace 其中一個重大改良是 L2 Cache 容量大幅增加,上代 RTX 3080 的 L2 Cache 只有 5120KB,今代 RTX 4080 則大幅提升至65536 KB,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。

 

 

NVIDIA GeForce RTX 40 Family Full Specifications

Graphics CardGeForce
RTX 4070 Ti
Founders Edition
GeForce
RTX 4080
Founders Edition
GeForce
RTX 4090
Founders Edition
GPU CodenameAD104AD103AD102
GPU ArchitectureNVIDIA
AdaLovelace
NVIDIA
Ada Lovelace
NVIDIA
Ada Lovelace
GPCs5711
TPCs303864
SMs6076128
CUDA Cores / SM128128128
CUDA Cores / GPU7680972816384
Tensor Cores / SM4 (4th Gen)4 (4th Gen)4 (4th Gen)
Tensor Cores / GPU240 (4th Gen)304 (4th Gen)512 (4th Gen)
RT Cores60 (3rd Gen)76 (3rd Gen)128 (3rd Gen)
GPU Boost Clock (MHz)261025052520
Peak FP32 TFLOPS (non-Tensor)40.148.782.6
Peak FP16 TFLOPS (non-Tensor)40.148.782.6
Peak BF16 TFLOPS (non-Tensor)40.148.782.6
Peak INT32 TOPS (non-Tensor)10.624.441.3
RT TFLOPS92.7112.7191
Peak FP8 Tensor TFLOPS
with FP16 Accumulate
320.7/641.4389.9/779.8660.6/1321.2
Peak FP8 Tensor TFLOPS
with FP32 Accumulate
320.7/641.4389.9/779.8660.6/1321.2
Peak FP16 Tensor TFLOPS
with FP16 Accumulate
160.4/320.8194.9/389.8330.3/660.6
Peak FP16 Tensor TFLOPS with FP32 Accumulate80.2/160.497.5/195165.2/330.4
Peak BF16 Tensor TFLOPS
with FP32 Accumulate
80.2/160.497.5/195165.2/330.4
Peak TF32 Tensor TFLOPS40.1/80.248.7/97.482.6/165.2
Peak INT8 Tensor TOPS320.7/641.4389.9/779.82660.6/1321.2
Peak INT4 Tensor TOPS641.4/1282.8779.8/1559.61321.2/2642.4
Frame Buffer Memory Size and Type12GB GDDR6X16GB GDDR6X24GB
GDDR6X
Memory Interface192-bit256-bit384-bit
Memory Clock (Data Rate)21 Gbps22.4 Gbps21 Gbps
Memory Bandwidth504 GB/sec716.8 GB/sec1008 GB/sec
ROPs80112176
Pixel Fill-rate (Gigapixels/sec)208.8280.6443.5
Texture Units240304512
Texel Fill-rate (Gigatexels/sec)626.4761.51290.2
L1 Data Cache/SharedMemory7680 KB9728 KB16384 KB
L2 Cache49152 KB65536 KB73728 KB
Register File Size15360 KB19456 KB32768 KB
Video Engines2x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1X NVDEC (Gen 5)
TGP Power285W320W450W
Transistor Count35.8 Billion45.9 Billion76.3 Billion
Die Size294.5mm²378.6mm²608.5mm²
Manufacturing ProcessTSMC 4NTSMC 4NTSMC 4N
PCIe InterfaceGen4Gen4Gen 4

 

發表評論