
想要體驗實時光線追蹤為遊戲帶來的改變就需要搭載支援 Ray Tracing 技術的顯示卡,雖然新一代的 AMD Radeon RX6000 系列顯示卡終於加入 DirectX Raytracing (DXR) 的支援性,但是在開啟後的 FPS 表現可說是慘不忍睹。反之,NVIDIA® 的 GeForce RTX™ 30 系列顯示卡就藉著新一代 Ray Tracing 引擎及 DLSS 2.0「黑科技」,為大家帶來真正流暢可玩的光追遊戲體驗。小編今次就借來 GIGABYTE AORUS GeForce RTX™ 3060 ELITE 12G 顯示卡,實際遊玩多款 RTX 遊戲,測試一下在 RTX ON 及 DLSS ON 下的畫面分別及效能表現。
RTX 30 系列對比 RTX 20 升級了什麼?
NVIDIA® GeForce RTX™ 30 系列已經推出超過半年了,但不少讀者可能仍未了解今代對比上代 RTX 20 系列升級了什麼,如果正在使用的是上代的 RTX 顯示卡又有沒有需要升級呢? 就讓筆者先為大家簡單說明一下 GeForce RTX™ 30 系列最主要升級了些甚麼吧!
▲ NVIDIA Ampere Architecture SM
今代 GeForce RTX™ 30 系列顯示卡改用全新 Ampere GPU 微架構,其中一個主要改良就是改動了 SM 串流多處理群的設計。上代 Turing 架構每個 SM 模組內共有 64 個 FP32 CUDA 及 64 個 INT32 運算單元,每個 SM 分區均擁有 1 條 FP 與 1 條 INT 數據路徑,因此每個 Turing SM 每個週期可處理 64 個 FP32 及 64 個 INT32 操作。
▲ 現代遊戲的 FP 與 INT 指令比例平均約為 100:36
由於現代遊戲擁有更廣泛的運算需求,許多工作負載混合使用 FP32 運算指令 (例如 FFMA、FADD 及 FMUL),但同時亦具備簡單的整數指令,例如尋址、加法、浮點比較,以為最大值/最小值等獲取處理結果等工作,現代遊戲的 FP 與 INT 指令比例平均約為 100:36,因此 Ampere GPU 針對兩種運算指令加入更具效率的調度。
▲ 經改良的 Ampere SM 設計
全新 Ampere 架構將 SM 模組改為具備 128 個 FP32 CUDA 運算單元,其中一半兼具 INT32 運算能力,令每個 SM 分區內的 2 組數據路徑能夠同時用於 FP 運算,但其中 1 組可調度用於 INT 運算,因此每個 Ampere SM 每個週期可處理 128 個 FP32 或調整至 64 個 FP32 + 64 個 INT32 工作運算,亦即是 FP32 運算能力提升 1 倍,由於在啟用 Ray Tracing 後會有更多的 FP32 運算操作,因此 Ampere 新架構在實時光線追蹤的性能表現提升明顯。
升級第 2 代 Ray Tracing 引擎 !!
說到 NVIDIA® GeForce RTX™ 系列顯示卡最最最核心的部分,當然就是負責 Ray Tracing 實時光線追蹤運算的 RT Core,能夠逼真地模擬場景及物件的光線,實時以物理方式渲染正確的反射、折射、陰影及間接照明等等,帶來逼真的遊戲場景光線效果。雖然採用 Turing 架構的 RTX 20 系列已經加入了實時的光追引擎,但由於 RT Core 的運算能力有限,在開啟 Ray Tracing 後會帶來嚴重的 FPS 下跌,以上代 RTX 2060 為例,可以說是「中看不中用」,頂多只能用來截個圖發臉書炫耀一下,但在實際遊玩時絕大部分的玩家還是會選擇把光追關掉,相當可惜。
而今代 GeForce RTX™ 30 系列就將 RT Core 引擎升級至第二代,大幅加速 BVH 演算法中的 Bbox 立體踫撞及三角交測運算能力,效能是第一代 RT Core 的 2 倍。而且改善了以往 Turing SM 在 Ray Tracing 運算時不能同時執行其他運算的缺點,今代 Ampere SM 強化了異步運算能力,當執行 Ray Tracing 運算時可同步進行 Graphics 或 Compute 運算,令實時光線追蹤在遊戲執行時的效率大大提升。
而且還加入全新動態模糊硬體加速功能,在執行三角交測運算時導入三線性插值 (Interpolate tri position),讀者可以簡單理解為一個與「時間」相關的參數運算,讓光線追蹤會因應時間推移作出變化,最終渲染成具動態模糊效果的「光追」影像。
全新第 3 代 Tensor Cores 運算單元
NVIDIA® GeForce RTX™ 系列顯示卡另一大重點就是設有 Tensor Core 運算單元,專門用於執行向量及矩陣運算,包括 INT8 及 INT4 精度的函數運算,以及更高精度的 FP16 運算工作,主要用於深度學習神經網絡運算、推理運算、矩陣運算等。
而全新 Ampere GPU 微架構就升級至第 3 代 Tensor Cores 運算單元,加入了更多不同類型的數據運算模式,例如新的稀疏性運算、TF32 及 BFloat 16 等新精度模式,矩陣乘法的速度亦提高了 2 倍。雖然 NVIDIA® 將每個 SM 內的 Tensor Core 數目減少了一半,但每個 Tensor Core 的運算能力卻變得更為強大,提供更為強大的 AI 運算能力。
RTX 2060 (Turing) vs RTX 3060 (Ampere) Tensor Core 對比
TU106 GPU | GA106 GPU | |
GPU Architecture | NVIDIA® Turing | NVIDIA® Ampere |
Tensor Cores per SM | 8 | 4 |
FP16 FMA operations per Tensor Core | 64 | Dense: 128 Sparse: 256 |
Total FP16 FMA operations per SM | 512 | Dense: 512 Sparse: 1024 |
所以 RTX™ 20 系列用家應該換卡嗎?
看完上面的內容可以大概了解 RTX™ 30 系列對比 RTX™ 20 系列有著非常大的進步,官方的數據亦指出今代 RTX™ 3080 對比上代 RTX™ 2080 Super 可以達到接近 2 倍的遊戲效能增長,那正在使用 RTX™ 20 系列顯示卡的用家應該換卡嗎? 又要怎麼換呢?
RTX™ 遊戲解析度 | Turing 架構 | Ampere 架構 |
1080p | RTX™ 2070 (Super) | RTX™ 3060 RTX™ 3060 Ti |
2K | RTX™ 2080 (Super) RTX™ 2080 Ti | RTX™ 3070 |
4K | - | RTX™ 3080 |
8K | - | RTX™ 3090 |
其實讀者可以參考上表根據自己的遊戲需要去選擇顯示卡型號,如果是正在使用 RTX™ 2060 (Super) 的用家,即使只是換成 RTX™ 3060 已經有非常大的效能提升,它算是提供真正 Ray Tracing 遊戲體驗的門檻。但如果是 RTX™ 2070 (Super) 的用家,又想嘗試看看 2K 解析度的光追遊戲體驗,筆者就建議升級至 RTX™ 3070 或以上的型號。至於想要體驗 4K 甚至 8K Ray Tracing 遊戲的讀者,更高階的 NVIDIA® GeForce RTX™ 3080 及 RTX™ 3090 或者是你們的唯一選擇。