新訊

NVIDIA Turing 架構解密, SM單元大改、CUDA效能提升50%

NVIDIA Turing 架構 SM 單元的組成除了原有的 FP32 單精度單元,FP64 雙精度單元全都砍掉了,加入了 INT32 單元以及 Tensor Core,底下新增加了一個相對獨立的 RT Core。Videocardz 還提到 Turing 架構 SM 單元還將共享快取、L1快取、紋理快取引入了統一架構,可以讓L1快取更充分利用資源,這樣的設計可以使得每一個 CUDA 單元獲得50%的效能提升。



TURING_CORE_1.jpg

TURING_CORE_2.jpg

再回到比較大的層面上,看看 RTX 2080 Ti 的 TU102 框架圖,這是相當壯觀的規格。TU102 一共分為6組 GPC 單元,每組 GPC 單元又擁有12個 SM 單元,一共是72個 SM 單元,但 RTX 2080 Ti 也只是用了68個而已。同時按照已經 RTX 2080 Ti 已經公佈的參數,可以計算得出,每個 SM 單元將會配備64個 CUDA、8個 Tensor Core 、1個 RT Core。

TURING_CORE_3.jpg

完整版的 TU106 核心依然是6組 GPC 單元,不過每組 GPC 改為8個 SM 單元,一共是48個,RTX 2080 的 GPU 核心是 TU104-400,只用上了46組,還有預留有2組空缺的。Videocardz 給出的數據是545平方毫米,一共有136億晶體管。

TURING_CORE_4.jpg

原本以為 RTX 2070 依然會是 TU104 核心“閹割”下來,但是VCZ確實是全新的核心型號 TU106,可以將其視作 RTX 2080 Ti 規格砍半,3組 GPC 單元,3×12=36組 SM 單元,經過計算,RTX 2070 是滿血版的 TU104 核心。VCZ給出的數據時454平方毫米,一共有106億晶體管。但是這樣算下來,RTX 2070 規格並不比 GTX 1080 好多少,效能提升堪憂。

TURING_CORE_5.jpg

Turing 顯卡使用了新的記憶體無損壓縮技術,不過VCZ也只是簡單說明了相比於 Pascal 顯卡有50%頻寬增長而已,沒具體說明。

此外 NVLink 可以確認為 RTX 2080 Ti、RTX 2080 獨享,RTX 2070 並不支援。此外新的 Turing 顯卡使用了新的視頻圖像引擎,支援 Displayport 1.4 標準,最高可以輸出8K@60Hz圖像,還可以一次驅動兩台這規格的顯示器。新編解碼引擎,可以編碼 H.265 8k@30FPS視頻,或者解碼 YUV 4:4:4 10/12bit HDR 8K和VP9 10/12bit HDR 視頻。

還有一大堆新的著色技術,比如 Mesh Shading 、Variable Rate Shading (VRS)、Texture-Space Sharing、Multi-View Rendering (MVR) 等。

來源:
https://videocardz.com/77895/the-new-features-of-nvidia-turing-architecture
http://www.expreview.com/64064.html
▌延伸閱讀