
還記得老黃說定價 US$549 的 RTX 5070 性能等效 RTX 4090 嗎?終於等到 NVIDIA GeForce RTX 5070 正式解禁,採用全新 GB205 繪圖核心,擁有 6,144 個 CUDA Cores、48 個 RT Cores、192 個 Texture Units,部份運算單元數目比 RTX 4070 SUPER 還要少。主要靠 DLSS 4 多幀生成技術加持令 FPS 幀率大幅提升。HKEPC 編輯部找來了 GeForce RTX 5070 FE,與上代 RTX 4070 SUPER 及 Radeon RX 7900 GRE 作多方面效能對比測試。
中階 GeForce RTX 5070 登場 !!
▲ GeForce RTX 5070 (Blackwell GPU)
NVIDIA 於 4 日正式發布第三款基於 Blackwell GPU 架構、核心代號 GB205 的中階 GeForce RTX 5070 顯示卡。還記得今年 1 月於 CES 2025 大會上,老黃宣布 GeForce RTX 5070 售價 US$549、性能等效 RTX 4090,全場歡呼不斷,當時大家都驚訝於「皮褸刀客」怎會突然變成了「大慈善家」,然而老黃說的是基於 DLSS 4 技術的 Multi Frame Gen 功能,原生渲染性能呢 ... !?。
由於摩爾定律逐漸失效,傳統 GPU 設計已無法以原生渲染方式維持理想的遊戲幀率。RTX 5070 相較上代 RTX 4070 / RTX 4070 SUPER,在 CUDA Core 數目方面相差不遠。NVIDIA 改向 Neural Rendering 神經渲染技術發展,將 AI 技術導入遊戲應用中。Microsoft 亦宣布未來的 DirectX 將正式支援向量運算協作,全面解放 Tensor Cores 用於遊戲運算,GPU 硬體與 PC 遊戲界正迎來重大變革。
NVIDIA 新一代 Blackwell GPU 非常著重於 Neural Rendering 神經渲染的性能提升,透過原生傳統渲染的一小部分成本生成絕大多數圖元。配合 DLSS 4 超解析度和 MFG 多幀生成技術,大幅提高遊戲幀率;再透過 DLSS 光線重建 (RR),利用先進的 AI 方法對缺失的細節進行降噪和重建,以更低的運算成本和記憶體佔用達成原生渲染級畫質。
此外,全新 Neural Rendering 神經渲染與 Neural Shaders 神經著色技術,將加速遊戲開發人員對 AI 的應用。例如,即時生成和創建各種地形、物理模擬、更複雜的 NPC 角色行為,甚至即時生成遊戲背景故事等。Blackwell GPU 正在改變整個 PC 遊戲的生態發展。
與 RTX 4070 相比,NVIDIA GeForce RTX 5070 在 Shader Cores 性能提升大約是 5~6%,不過在 RT Core 和 Tensor Core 的全新 FP4 技術支援下,遊戲性能卻實現接近倍數增長,沒錯 !! 就是靠 DLSS 4 充撐場面。以下是 Blackwell GPU 的主要關鍵創新:
◾為神經渲染而生的全新 SM 單元︰大幅增強神經渲染運算能力。與 NVIDIA Ada GPU 相比,NVIDIA RTX Blackwell SM 在每個時鐘週期的整數數學輸送量提高了一倍,這對於提高神經著色中至關重要的位址生成工作負載性能極為有利。
◾全新第 4 代 RT Core︰Blackwell GPU 對 RT Core 架構進行了重大革新,帶來全新的光線追蹤體驗和神經渲染技術,進一步提升圖形性能。
◾全新第 5 代Tensor Core︰引入全新的 FP4 功能,能將 AI 輸送量提升一倍,同時將記憶體需求減半。此外,Blackwell 的數據中心級 GPU 還搭載第二代 FP8 Transformer 引擎,進一步提升處理效能。
◾NVIDIA DLSS 4︰全新 NVIDIA RTX Blackwell 架構支援 AI 多幀生成功能,能將 DLSS 4 的幀速率提升至上一代 DLSS 3/3.5 的兩倍,同時保持甚至超越原生畫質,並確保低系統延遲。
◾RTX 神經著色器︰引入小型神經網路至可程式設計著色器,開啟 GPU 圖形運算的新時代,為遊戲開發者提供更靈活的創作工具。
◾AI 管理處理器(AMP) - AMP 支援多個 AI 模型(包括語音、翻譯、視覺、動畫、行為等)與圖形工作負載同時共用 GPU,提升多任務處理能力。
◾GDDR7 Memory - GDDR7 ︰採用全新的超低電壓 GDDR 顯存標準,並使用 PAM3(脈衝幅度調製)信號技術,實現更高速的顯存子系統,同時進一步提升能效。
◾Mega Geometry 技術︰一種新的 RTX 技術,旨在大幅提升光線追蹤應用中的幾何細節,帶來更逼真的視覺效果。
GeForce RTX 5070 定價 US$549
售價方面,GeForce RTX 5070 官方 MSRP 為 US$549。據聞,由於 RTX 5070 發布時間相對倉促,許多 AIC 無法在發布日準時推出卡,因此建議消費者不要急於購買炒價產品,可以先觀望 AMD Radeon RX 9070 / RX 9070 XT 的表現再作決定。
TSMC 4N 制程、NVIDIA GB205 繪圖核心
GeForce RTX 5070 採用再低一階的 GB205 繪圖核心、同樣基於 Blackwell 微架構,由於今代仍維持採用 TSMC 4N 制程,CUDA Core 運算單元的數目提升幅度相當有限,加上時脈亦相差無幾,因此傳統光柵圖形運算性能只有輕微提升,主要的遊戲性能提升來自於 DLSS 4 的 Multi Frame Gen 技術,所以大家不要對它的遊戲性能成長抱有太大期望。
▲ NVIDIA GB205 Block Diagram
GB205 GPU 晶片尺寸為 263mm²、電晶體數目為 311 億個,數字相較 AD104 略為縮減。完整的 GB205 晶片包含 5 個圖形處理集群 (GPC)、25 個紋理處理集群 (TPC)、50 個串流多處理器 (SM),總計 6,400 個 CUDA Cores、50 個 RT Cores、200 個 Tensor Cores、200 個 Texture Units 及 80 個 ROPs。
GB205 GPU 還包括 100 個 FP64 核心(每個 SM 配備兩個),這些核心並未被描繪在結構圖中。此外,FP64 的 TFLOP 速率為 FP32 操作 TFLOP 速率的 1/64,並包含少量 FP64 核心及極少量的 FP64 Tensor Core,以確保任何包含 FP64 代碼的程式能夠正常運行。
值得注意的是,由於 NVIDIA 在 Blackwell GPU 微架構中刪去舊有 32-bit 作業系統的 CUDA 函式庫支援,當中包括了 32-bit 的 PhysX 支援,部分舊遊戲可能無法運行。儘管舊遊戲可以切換至使用 CPU 進行 PhysX 運算,但其物理運算效果將明顯下降,喜歡玩舊遊戲的玩家需要注意這一點。
GeForce RTX 5070 採用被刪減的 GB205-300 晶片,僅包含 5 個圖形處理集群 (GPC)、24 個紋理處理集群 (TPC)、48 個串流多處理器 (SM),總計 6,144 個 CUDA Cores、48 個 RT Cores、192 個 Tensor Cores、192 個 Texture Units 及 80 個 ROPs。
在核心時脈方面,GeForce RTX 5070 ,預設時脈僅 2,325MHz、Boost 時脈為 2,512MHz,最高 TGP 為 250W,記憶體採用了 28Gbps 的 GDDR7 顆粒,配備 192-bit 記憶體介面、總頻寬為 672GB/s。
GeForce RTX 5070 vs GeForce RTX 4070 / 4070 SUPER vs GeForce RTX 3070 Specs
Graphics Card | GeForce RTX 3070 | GeForce RTX 4070 | GeForce RTX 4070 SUPER | GeForce RTX 5070 |
GPU Codename | GA104 | AD104 | AD104 | GB205 |
GPU Architecture | NVIDIA Ampere | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Blackwell |
GPCs | 6 | 5 | 5 | 5 |
TPCs | 23 | 23 | 28 | 24 |
SMs | 46 | 46 | 56 | 48 |
CUDA Cores / SM | 128 | 128 | 128 | 128 |
CUDA Cores / GPU | 5888 | 5888 | 7168 | 6144 |
Tensor Cores / SM | 4 (3rd Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (5th Gen) |
Tensor Cores / GPU | 184 (3rd Gen) | 184 (4th Gen) | 224 (4th Gen) | 192 (5th Gen) |
RT Cores | 46 (2nd Gen) | 46 (3rd Gen) | 56 (3rd Gen) | 48 (4th Gen) |
GPU Boost Clock (MHz) | 1725 | 2475 | 2475 | 2512 |
Peak FP32 TFLOPS (non-Tensor) | 20.3 | 29.1 | 35.5 | 30.9 |
Peak FP16 TFLOPS (non-Tensor) | 20.3 | 29.1 | 35.5 | 30.9 |
Peak BF16 TFLOPS (non-Tensor) | 20.3 | 29.1 | 35.5 | 30.9 |
Peak INT32 TOPS (non-Tensor) | 10.2 | 14.6 | 17.8 | 30.9 |
RT TFLOPS | 39.7 | 67.4 | 82.1 | 93.6 |
Peak FP4 Tensor TFLOPS with FP32 Accumulate (FP4 AI TOPS) | N/A | N/A | NA | 493.9 / 987.8 |
Peak FP8 Tensor TFLOPS with FP16 Accumulate | N/A | 233.2 / 466.4 | 283.9 / 567.8 | 246.9 / 493.9 |
Peak FP8 Tensor TFLOPS with FP32 Accumulate | N/A | 116.6 / 233.2 | 141.9 / 283.9 | 123.5 / 246.9 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 81.3 / 162.6 | 116.6 / 233.2 | 141.9 / 283.9 | 123.5 / 246.9 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 40.6 / 81.2 | 58.3 / 116.6 | 71.0 / 141.9 | 61.7 / 123.5 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 40.6 / 81.2 | 58.3 / 116.6 | 71.0 / 141.9 | 61.7 / 123.5 |
Peak TF32 Tensor TFLOPS | 20.3 / 40.6 | 29.1 / 58.2 | 35.5 / 71.0 | 30.9 / 61.7 |
Peak INT8 Tensor TOPS | 162.5 / 325 | 233.2 / 466.4 | 283.9 / 567.8 | 246.9 / 493.9 |
Frame Buffer Memory Size and Type | 8 GB GDDR6 | 12 GB GDDR6X | 12 GB GDDR6X | 12 GB GDDR7 |
Memory Interface | 256-bit | 192-bit | 192-bit | 192-bit |
Memory Clock (Data Rate) | 14 Gbps | 21 Gbps | 21 Gbps | 28 Gbps |
Memory Bandwidth | 448 GB/sec | 504 GB/sec | 504 GB/sec | 672 GB/sec |
ROPs | 96 | 64 | 80 | 80 |
Pixel Fill-rate | 165.6 | 158.4 | 198.0 | 201 |
Texture Units | 184 | 184 | 224 | 192 |
Texture Fill-rate | 317.4 | 455.4 | 554.4 | 482.3 |
L1 Data Cache/Shared Memory | 5888 KB | 5888 KB | 7168 KB | 6144 KB |
L2 Cache Size | 4096 KB | 36864 KB | 49152 KB | 49152 KB |
Register File Size | 11776 KB | 11776 KB | 14336 KB | 12288 KB |
Video Engines | 1 x NVENC (7th Gen), 1 x NVDEC (5th Gen) | 1 x NVENC (8th Gen), 1 x NVDEC (5th Gen) | 1 x NVENC (8th Gen), 1 x NVDEC (5th Gen) | 1 x NVENC (9th Gen), 1 x NVDEC (6th Gen) |
TGP (Total Graphics Power) | 220 W | 200 W | 220 W | 250 W |
Transistor Count | 17.4 Billion | 35.8 Billion | 35.8 Billion | 31.1 Billion |
Die Size | 392.5 mm² | 294.5 mm² | 294.5 mm² | 263 mm² |
Manufacturing Process | Samsung 8 nm 8N NVIDIA Custom Process | TSMC 4nm 4N NVIDIA Custom Process | TSMC 4nm 4N NVIDIA Custom Process | TSMC 4nm 4N NVIDIA Custom Process |
PCI Express Interface | Gen 4 | Gen 4 | Gen 4 | Gen 5 |
◾Peak rates are based on GPU Boost Clock
◾Effective TOPS / TFLOPS using the Sparsity Feature