
NVIDIA GeForce RTX 4060 顯示卡正式上市,採用 AD107-400 繪圖核心、具備 3,072 個 CUDA Core、24 個 RT Core 及 96 個 Texture Core、128bit 8GB GDDR6 記憶體,更只有 115W TGP 相當省電,MSRP 定價 US$299 取代 RTX 3060 沿有定位,HKEPC 編輯部收到 GeForce RTX 4060 樣本與 RTX 3060 / 3060 Ti 及 RX 7600 進行對比測試。
主流級 GeForce RTX 4060 登場
NVIDIA 28 日正式發佈主流級 GeForce RTX 4060 顯示卡,正式將 Ada Lovelace GPU 架構與 DLSS 3 技術帶入 60 系主流玩家市場,MSRP 定價 US$299、約港幣 HK$2,399 取代 RTX 3060 原有地位,根據 Steam 遊戲平台的數據顯示,目前頭 5 位最受遊戲的 GPU 都是 NVIDIA 50/60 系顯示卡,包括 GTX 1650 (6.07%)、GTX 1060 (4.94%)、RTX 3060 (4.90%)、RTX 2060 (4.53%) 及 GTX 1050 Ti (4.35%),77% 的玩家仍在使用 1080p 或更低的解析度進行遊戲,RTX 4060 的出現為 GeForce GTX 10/16 或更舊的主流卡玩家帶來升級好選擇。
NVIDIA GeForce RTX 4060 採用 AD107-400,以往 107 型號的 GPU 都是用於 50 系的產品上,擁有 3,072 個 CUDA Core、128bit 介面與 8GB GDDR6 記憶體,面對上代 RTX 3060 擁有 12GB 容量顯得有點尷尬,定位 1080p 遊戲市場在光追特效全開下,透過 DLSS3 技術加持可達成 60fps+ 性能表現,更重要是整卡功耗降至 115W TGP,性能功耗比更上一層樓。
據 NVIDIA 的官方數據指出,在啟動 RT + DLSS 後 GeForce RTX 4060 性能相較 RTX 3060 快約 1.2x、較 RTX 2060 快約 1.6x、較 GTX 1060 快 8x,如果啟動 RT + DLSS 3 Frame Gen 後,性能提升會進一步拉開至 1.7x、2.3x 及 14x,因此 GeForce RTX 4060 要在遊戲市場要取得更大成功,NVIDIA DLSS 3 技術的普及程度將會成為關鍵。
此外,NVIDIA GeForce RTX 4060 另一個賣點是節能,相較 RTX 3060 需要 170W,RTX 4060 只需要 115W,如果按照一星期 20 小時遊戲,RTX 4060 4 年共省了 249.6 度電,如果以德國電費每度 US$0.53 計算,合計省了 US$132.29 接近卡價一半。
TSMC 4N 制程、NVIDIA AD107-400 繪圖核心
NVIDIA AD107 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4060 或更低階的產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。
▲ NVIDIA AD107-400 Block Diagram
採用 TSMC 4N NVIDIA Custom 制程,擁有 189 億個電晶體、 Die Size 146.0mm² 與上代 GeForce RTX 3060 的 GA106-300 Die Size 276mm² 更細小,完整的 AD107 晶片內建 3 個 GPC 單元、 12 個 TPC 紋理處理群集及 24 個 SM 串流多處理器,具備 3,076 個 CUDA Cores、24 個 RT Cores、96 個 Tensor Cores、96 個 Texture Unit 及 48 個 ROP。
▲ NVIDIA AD107-400 繪圖核心
GeForce RTX 4060 採用 AD107-400 核心單元數目並沒有作出任何刪減,核心時脈方面,採用 TSMC 4N 制程令這代 Ada Lovelace 的核心時脈可大幅升,NVIDIA GeForce RTX 4060 預設時脈 1,830MHz、Boost 時脈為 2,460MHz,較高的 GPU 時脈彌補 CUDA 數目下降,最高 TGP 為 115W 相較上代 RTX 3060 降低了 55W。
值得注意的是,AD107 僅支援 PCIe 4.0 x8 介面,如果使用在 PCIe 3.0 舊平台只能運作於 PCIe 3.0 x8,有機會引致 PCIe 頻寬不足問題令性能略為下降,建議搭配 PCIe 4.0 主機板使用。
僅 128bit 介面真的夠用嗎 ?
相較上代 RTX 3060 擁有 192bit 記憶體,今代 RTX 4060 Ti 竟然劈去 1/3 只有 128bit,因此最高記憶體頻寬由 360GB/s 下降至只有 272GB/s,不過 Ada Lovelace 其中一個重大改良是 L2 Cache 容量大幅增加,上代 RTX 3060 的 L2 Cache 僅 3072 KB (3MB),RTX 4060 Ti 則大幅提升至 24576KB (24MB),據 NVIDIA 指出能大幅提升遊戲 Workload 資料命中率,降低讀取延遲並減少 GDDR6 記憶體頻寬使用。
為何 L2 Cache 增加能減少記憶體頻寬的需求呢 ? 其實在運算過程中,GPU 內部的 SM 單元在運算時會先查找 L1 Cache 的數據,L1 Cache 中找到數據則無需訪問 L2 Cache。如果在 L1 沒有命中則需要在 L2 Cache 中查找。如果 L2 Cache 有就將數據回傳至 L1 Cache,如果 L2 也找不到就需要到 VRAM 中存取了,但這樣會造成很大的 GPU 讀取延,導致 GPU 運算單元需要閒置等待資料載入。
GeForce RTX 40 其中一個改良是增大了 L2 Cache 的緩存容量,相較上代同級產品增加了 10 倍,極大提高了 L2 Cache 緩存命中率,不僅減低了GPU 資料讀取延遲,同時亦減少了需要到 VRAM 中存取的數目。
為免讓消費者誤會記憶體介面大幅下降,NVIDIA 這次也抄了 AMD Infinity Cache 的做法,GeForce RTX 4060 除了標示了 272GB/s 真實記憶體頻寬,同時備注了 453 GB/s 等效記憶體頻寬,意思是 24MB L2 的 272GB/s 記憶體頻寬,效能與 3MB L2 下 453GB /s 記憶體頻寬相若。
NVIDIA GeForce RTX 40 Family Full Specifications
Graphics Card | GeForce RTX 4060 Reference Design | GeForce RTX 4060 Ti Founders Edition | GeForce RTX 4070 Founders Edition | GeForce RTX 4070 Ti Founders Edition | GeForce RTX 4080 Founders Edition | GeForce RTX 4090 Founders Edition |
GPU Codename | AD107 | AD106 | AD104 | AD104 | AD103 | AD102 |
GPU Architecture | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace |
GPCs | 3 | 3 | 4 | 5 | 7 | 11 |
TPCs | 12 | 17 | 23 | 30 | 38 | 64 |
SMs | 24 | 34 | 46 | 60 | 76 | 128 |
CUDA Cores / SM | 128 | 128 | 128 | 128 | 128 | 128 |
CUDA Cores / GPU | 3072 | 4352 | 5888 | 7680 | 9728 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 96 (4th Gen) | 128 (4th Gen) | 184 (4th Gen) | 240 (4th Gen) | 304 (4th Gen) | 512 (4th Gen) |
RT Cores | 24 (3rd Gen) | 34 (3rd Gen) | 46 (3rd Gen) | 60 (3rd Gen) | 76 (3rd Gen) | 128 (3rd Gen) |
Frame Buffer Memory Size and Type | 8GB GDDR6 | 8GB GDDR6 | 12GB GDDR6X | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
Memory Interface | 128-bit | 128-bit | 192-bit | 192-bit | 256-bit | 384-bit |
Memory Clock (Data Rate) | 17 Gbps | 18 Gbps | 21 Gbps | 21 Gbps | 22.4 Gbps | 21 Gbps |
Memory Bandwidth | 272 GB/sec | 288 GB/sec | 504 GB/sec | 504 GB/sec | 716.8 GB/sec | 1008 GB/sec |
ROPs | 48 | 48 | 64 | 80 | 112 | 176 |
L1 Data Cache/SharedMemory | 3072 KB | 4352 KB | 5888 KB | 7680 KB | 9728 KB | 16384 KB |
L2 Cache | 24576 KB | 32768 KB | 36864 KB | 49152 KB | 65536 KB | 73728 KB |
Video Engines | 1x NVENC (Gen 8) 1x NVDEC (Gen 5) | 1x NVENC (Gen 8) 1x NVDEC (Gen 5) | 1x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1X NVDEC (Gen 5) |
TGP Power | 115W | 160W | 200W | 285W | 320W | 450W |
Transistor Count | 18.9 Billion | 22.9 Billion | 35.8 Billion | 35.8 Billion | 45.9 Billion | 76.3 Billion |
Die Size | 146.0mm² | 190.2mm² | 294.5mm² | 294.5mm² | 378.6mm² | 608.5mm² |
Manufacturing Process | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 x8 | Gen4 x8 | Gen4 x16 | Gen4 x16 | Gen4 x16 | Gen4 x16 |