新訊

NVIDIA 公開 Volta 顯卡:完整版5376個核心, 能效提升50%

今天 NVIDIA 又公開了 Volta 核心的架構秘密,確認了 Volta 完整版核心是84組SM單元,總計5376個 CUDA 核心,而且SM單元能效比 Pascal 這一代提升50%,而現在的 GV100 大核心只啟用了80組SM單元,5120個CUDA核心,所以後面還會有完整的大殺器。



nvidia_volta_10.jpg

現在 NVIDIA 發布了 Volta 顯卡的架構白皮書( https://www.nvidia.com/object/volta-architecture-whitepaper.html ),NVIDIA 正式確認了完整版 Volta 顯卡是84組SM單元,每個SM單元有64組FP32浮點單元、64組INT32整數單元、32組FP64雙精度浮點單元、8個Tensor單元(用於深度學習、AI的張量處理器)、4個紋理單元,外加8組512bit顯存控制器,每個 HBM 2 堆棧搭配2組記憶體控制器,總計有5376個CUDA核心(FP32、 INT32)、2688個FP64單元、336個紋理單元、672個Tensor單元,還有4096bit等效位寬、16GB HBM 2顯存,帶寬900GB/s。

NVIDIA Volta 完整版擁有84組SM單元

nvidia_volta_11.jpg

Tesla V100加速卡具體規格

nvidia_volta_12.jpg

NVIDIA 的 Volta 顯卡使用了 TSMC 與 NVIDIA 定制的 12nm FFN 製程,而 TSMC 的12nm實際上也是基於目前16nm改良的,主要優化了能耗、核心面積,性能比16nm FFC製程提升10%,但是核心面積可縮減20%。即便如此,GV100 大核心的面積依然從目前的610mm2增加到了815mm2,主要原因就是SM單元數量大增,從60組SM單元增加到了84組。

根據 NVIDIA 的白皮書介紹,Volta 架構的SM單元做了大幅改進,新的SM單元能效比 Pascal 這代提升50%,因此才能在同樣的功耗封裝下大幅提升FP32/FP64計算性能。

Volta架構的SM單元設計

nvidia_volta_13.jpg

當然,NVIDIA 在 Volta 顯卡上的重點除了提升傳統的FP32/FP64計算性能之外,最重要的還是提升深度計算性能,為此增加了專用的計算單元,每組SM單元有8個Tensor單元,總計640個Tensor單元,Tensor性能可達120TFLOPS,是 Pascal 這代的12倍多。

不過現在的 GV100 大核心很有可能跟去年的 GP100 大核心一樣專用於計算市場,真正對遊戲玩家有影響的還是後面的 GV102 核心,NVIDIA 勢必要做些精簡,比如砍掉對遊戲沒用的Tensor單元,減少L2,HBM 2 也沒必要,SM單元很有可能也會重組,可以預見遊戲用的 GV102 核心會進一步降低能耗,不過 CUDA 核心總數相比 Pascal 也會大幅提升,遊戲性能再上一個台階。

此前也有一些 Volta 顯卡在路上的傳聞,不過對 NVIDIA 來說出 Volta 顯卡沒什麼阻礙,只是他們如何選擇的問題,畢竟今年才發布了 GTX 1080 Ti、Titan Xp 以及 GT 1030 顯卡,佈局已經很完整,Volta 顯卡並無緊迫性,除非 AMD 的 RX Vega 顯卡表現驚人,NVIDIA 可能就需要端上新一代產品來壓制。

來源:http://www.expreview.com/55104.html
▌延伸閱讀