
GeForce RTX 4070 Ti 顯示卡正式上市,原本 NVIDIA 想命名為 RTX 4080 12GB,結果受到各方強列批評,最終改名為 RTX 4070 Ti、不過規格不變價格一樣,擁有 7,680 個 CUDA Core、60 個 RT Core 及 240 個 Tensor Core、192-bit 12GB GDDR6X,MSRP 定價 US$899 對手將會是 RX 7900 XT,HKEPC 收到 GeForce RTX 4070 Ti 與 RX 7900 XT 進行對比測試。
消失的 RTX 4080 12GB !!
緊接 10 月推出 GeForce RTX 4090 之後,NVIDIA 11 月1再發佈 GeForce RTX 4080 系列,原本這個系列共有 2 個型號,分別是採用 AD103 繪圖核心的 RTX 4080 16GB 與採用 AD104 繪圖核心的 RTX 4080 12GB,雖然同樣叫 RTX 4080 但兩者規格與性能差異頗大,被一眾網民指責型號混亂,最終 NVIDIA 官方取消了 RTX 4080 12GB 的推出計劃,只保留 GeForce RTX 4080 16GB 型號。
▲ 消失的 RTX 4080 12GB
那麼 RTX 4080 12GB 就從此消失嗎 !? 並沒有,NVIDIA 將它改名為 GeForce RTX 4070 Ti 再上市,2023 年 1 月 4 日正式發佈,雖然名字不同了但規格、售價卻完全一樣,基於 AD104 繪圖核心、擁有 7,680 個 CUDA Cores、12GB GDDR6X,MSRP 定價 US$899 定位 2K 光追及 4K 特效全開,性能相較上代 RTX 3070 Ti 提升 1 倍,如果在 DLSS 3 啟動下遊戲性能更可以達至 2 倍,
TSMC 4N 制程、NVIDIA AD104 繪圖核心
NVIDIA AD104 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4070 Ti 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技,術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。
GeForce RTX 4070 Ti 採用 AD104-400 繪圖核心,採用 TSMC 4N NVIDIA Custom 制程,擁有 358 億個電晶體、 Die Size 294.5mm² 與上代 GeForce RTX 3060 的 GA106-300 Die Size 276mm² 相約,完整的 AD104 晶片內建 5 個 GPC 單元、 30 個 TPC 紋理處理群集及 60 個 SM 串流多處理器,具備 7,680 個 CUDA Cores、60 個 RT Cores 及 240 個 Tensor Cores。
核心時脈方面,採用 TSMC 4N 制程令這代 Ada Lovelace 的核心時脈可大幅升,GeForce RTX 4090 預設時脈 2,205MHz、Boost 時脈為 2,505MHz,最高 TDP 為 285W。
▲ NVIDIA AD104-400-A1 繪圖核心
記憶體方面,雖然已經是 70 系 Ti 卡但記憶體介面卻只有 192-bit,搭配 21Gbps GDDR6X 記憶體顆粒,雖然容量提升至 12GB,總記憶體頻寬降至 504GB/s,相較上代 RTX 3070 Ti 的 608GB/s 還要低,不過 Ada Lovelace 其中一個重大改良是 L2 Cache 容量大幅增加,上代 RTX 3080 的 L2 Cache 只有 4096 KB,今代 RTX 4070 Ti 則大幅提升至 49152 KB,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。
NVIDIA GeForce RTX 40 Family Full Specifications
Graphics Card | GeForce RTX 4070 Ti Founders Edition | GeForce RTX 4080 Founders Edition | GeForce RTX 4090 Founders Edition |
GPU Codename | AD104 | AD103 | AD102 |
GPU Architecture | NVIDIA AdaLovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace |
GPCs | 5 | 7 | 11 |
TPCs | 30 | 38 | 64 |
SMs | 60 | 76 | 128 |
CUDA Cores / SM | 128 | 128 | 128 |
CUDA Cores / GPU | 7680 | 9728 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 240 (4th Gen) | 304 (4th Gen) | 512 (4th Gen) |
RT Cores | 60 (3rd Gen) | 76 (3rd Gen) | 128 (3rd Gen) |
GPU Boost Clock (MHz) | 2610 | 2505 | 2520 |
Peak FP32 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak FP16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak BF16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak INT32 TOPS (non-Tensor) | 10.6 | 24.4 | 41.3 |
RT TFLOPS | 92.7 | 112.7 | 191 |
Peak FP8 Tensor TFLOPS with FP16 Accumulate | 320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP8 Tensor TFLOPS with FP32 Accumulate | 320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 160.4/320.8 | 194.9/389.8 | 330.3/660.6 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak TF32 Tensor TFLOPS | 40.1/80.2 | 48.7/97.4 | 82.6/165.2 |
Peak INT8 Tensor TOPS | 320.7/641.4 | 389.9/779.82 | 660.6/1321.2 |
Peak INT4 Tensor TOPS | 641.4/1282.8 | 779.8/1559.6 | 1321.2/2642.4 |
Frame Buffer Memory Size and Type | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
Memory Interface | 192-bit | 256-bit | 384-bit |
Memory Clock (Data Rate) | 21 Gbps | 22.4 Gbps | 21 Gbps |
Memory Bandwidth | 504 GB/sec | 716.8 GB/sec | 1008 GB/sec |
ROPs | 80 | 112 | 176 |
Pixel Fill-rate (Gigapixels/sec) | 208.8 | 280.6 | 443.5 |
Texture Units | 240 | 304 | 512 |
Texel Fill-rate (Gigatexels/sec) | 626.4 | 761.5 | 1290.2 |
L1 Data Cache/SharedMemory | 7680 KB | 9728 KB | 16384 KB |
L2 Cache | 49152 KB | 65536 KB | 73728 KB |
Register File Size | 15360 KB | 19456 KB | 32768 KB |
Video Engines | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1X NVDEC (Gen 5) |
TGP Power | 285W | 320W | 450W |
Transistor Count | 35.8 Billion | 45.9 Billion | 76.3 Billion |
Die Size | 294.5mm² | 378.6mm² | 608.5mm² |
Manufacturing Process | TSMC 4N | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 | Gen4 | Gen 4 |