Intel 發表獨立 GPU 原型

人氣: 1,897

Intel 去年從 AMD 挖了 RTG 負責人 Raja Koduri，任其為核心與視覺計算集團首席架構師兼高級副總裁。有人認為這個戲劇性的轉移標誌著 Intel 將進入獨立 GPU 市場。恰巧在這時，Intel 在美國舊金山的 ISSCC（IEEE 國際固態電路會議）上發表了一款獨立 GPU 的原型。

不過，這次的原型還沒達到能上市的水平，僅僅是個用來技術驗證的 GPU 罷了。它基於現有 Intel 內顯架構，搭配 IVR（Integrated Voltage Regulator）來驗證功耗和性能控制技術。

過去，Intel 也有過類似的低功耗驗證 GPU 原型：2014年在ISSCC上發布的22nm原型晶片（5.7 A Graphics Execution Core in 22nm CMOS Featuring Adaptive Clocking, Selective Boosting and State-Retentive Sleep」SB Nasir, et al ., ISSCC 2014）。儘管如此，這款原型 GPU 具有完整的功能，做成產品也不是不可能的。

這塊原型的架構為最新的 Intel Gen.9，也就是原本 Intel 的內顯。不過採用的是 Gen.9 LP，也就是 Atom 所用的低功耗內顯，與桌面版的標準單元庫不同。

製程是 Intel 14nm，10金屬層（佈線）。晶片面積為64mm2(8×8），15億晶體管。工作頻率和電壓範圍從50 MHz / 0.51 V到400 MHz / 1.2 V。晶體管這麼多的原因是配備了大量的 SRAM。

Intel推出基於現有集顯架構的新設計

Intel 的 GPU 核心由稱為“EU（執行單元）”的向量核心組成。一個EU有2個4-way向量單元。FP32單元為4-way、128-bit。EU由2個向量單元、7線程通用寄存器（GRF）、取指以及分支單元組成。

原型 GPU 中每個SS（Sub-Slice）裡放了6個EU。除了EU之外，還有取樣器（紋理單元），L1 / L2緩存，線程調度器，數據端口等。

原型 GPU 裡由3個SS構成1個Slice，Slice擁有 GPU 的完整功能，包含顯示固定功能管線、Command streamer和L3快取等。圖中可以看到編號SS0到SS2的3個EU，不過其中只有兩個- SS1和SS2是新的設計。

Intel Gen.9 GPU 架構

也就是說這顆GPU共有1個Slice，3個SS，共計18個EU。向量單元中有144個FP32 ALU。現在低端桌面CPU所用的GT1為96個，GT3e 384個，曾經的GT4e則達到576個。

144個低頻【400MHz】Gen.9 LP EU，效能也就比較低端。而且通常內顯會集成視頻之類的多媒體解碼/編碼單元，這次卻沒提到。

在 ISSCC上發表的這顆GPU不僅包括 GPU 核心，還搭載了包含控制和I/O的System Agent（SA）。記憶體接口在主機那邊，出於這個原因，System Agent 也配有4MB的大容量頁面快取。到主機是通過 FPGA 橋接的。光看這麼個配置就知道它只是個驗證用的原型了。

利用IVR進行細微的電壓/頻率控制

Intel這次的驗證晶片主要特點是使用 IVR 進行細粒度的 V / F（電壓/頻率）控制和功率門控。傳統上，GPU 的V/F控制和省電功能都要比 CPU 弱。因為普遍認為，傳統的圖形負載不是短時間的高負載就是非常輕度的負載，GPU 廠商也就沒在功耗控制投入太多。

然而，Intel 驗證稱，通過在 GPU 內核中引入細粒度功率控制，可以在不同條件下改善能效。利用 Intel CPU 上優秀的功耗控制技術，改進後整合進 GPU 核心。如果在 GPU 上以粒細度運行各種任務，這種功耗控制應該會更有效。

其基本思想是，把 GPU 分為為一塊塊的小塊，來以細粒度控制頻率和電壓，使得必要的模塊以最佳的頻率和功耗運行。與此同時，片上集成的 IVR 實現了高速電壓切換。將空閒模塊的電壓降低至保持電壓 (Vret, 勉強足夠保存SRAM數據的臨界點 )，降低漏電電流。功耗門限（PG）則是通過可靠性更高的喚醒機制- GPU 內部各處的 PG Driver 來控制。

IVR的引入使得對每個單元的電壓控製成為可能

傳統的 Intel 內顯設計是：整個 GPU 由單個電壓（Vgpu）的 IVR 供電。相比之下新設計中，GPU 中計算單元EU以及其他單元由各自獨立的電壓和 IVR 供電。

概念圖

以前的架構裡，當遇到計算密集型任務時，EU的負載會增加，從而導致整個 GPU 電壓升高，同時時鐘用PLL re-lock切換至高頻率。當然除EU以外的其他單元也被提到和EU同樣的電壓、頻率，導致 GPU 整體功耗上升。

老架構的 V/F 控制

如果EU和其他單元的頻率和電壓控制分開，就能夠更加靈活。此時只有EU的電壓會升高，頻率提升至正常的兩倍。通過單獨配置高響應度的 IVR，可以在短時間內提高電壓。

新架構的 V/F 控制

另外把頻率切換到原來的2倍就不需要PLL re-lock了。Intel 稱之為“EU Turbo” – 加速時為預設的兩倍頻率，一般情況下則為加速的一半頻率。可以根據負載快速改變電壓/頻率。

相反，當EU短時間閒置時，會將EU的電壓降至保持電壓Vret，進入切斷時脈的睡眠狀態。以前的話是沒法在時脈門限（Clock Gate）的同時降電壓的，這次改成了獨立IVR就可以盡可能的降低電壓。

此外，通過為每個EU單獨設置 IVR，還可以調整運行最低電壓Vmin的穩定程度。不僅是製程自身的穩定性，還有溫度帶來的波動，有了 IVR 就可以動態調整每個單元的Vmin，設置為各自的最低電壓。

GPU 內集成兩種 IVR

這次原型晶片所集成 IVR 的設計特點：混合了兩種不同類型的 VR。除了以前的“Switched Capacitor VR（SCVR）”以外，還配合了“Digitally Controlled Low Dropout（DLDO）”。兩種類型的 IVR 在更大的電壓範圍內實現高電壓轉換效率。

通常運行時，當輸入和輸出之間的電位差很小時，使用DLDO。比如1.15V的輸入電壓（Vin），輸出電壓（Vout）約為0.785V至1.11V。細粒度控制也基於DLDO。當輸出電壓低至0.3V至0.7V時，使用內置MIM電容器的SCVR。此時輸出相對於輸入的電位變為3:2,2:1,3:1的比率。

在EU內部，SCVR被配置在6個tile中。IVR控制器則位於EU中央，DLDO PG Driver的排列類似於骨髓，延伸出EU各處的DLDO PG。據說DLDO PG有1400個以上。

對於新設計的12個EU而言，在EU負載54％的情況下，EU Turbo的性能將提升最多40％，平均37％。當EU使用率達到100％時，EU Turbo的功耗比基準降低最多32%, 平均29%。而且，通過EU Turbo提升EU的運行頻率，在功耗門控部分EU，可以同時實現提性能和降功耗。

雖然這次的原型 GPU 還沒達到成品等級，不過可以看到省電控制設計的大體方向。Intel 自從 Haswell 引入 IVR，現在不光 CPU，GPU 核心也要引進 IVR。省電控制正是 Intel 不為人所知的強項。

看來和此前預測的一樣，Intel 對於 GPU 的研究在 Raja 跳槽前就進行了很久。進度可能會比預想的要快。

來源：
http://www.moepc.net/?post=4381
https://pc.watch.impress.co.jp/docs/column/kaigai/1107078.html

搜尋

1976

一般般會員

wwchen123

進階會員

84156777

高級會員

vitan

一般般會員

York Wu

一般般會員

wwchen123

進階會員

84156777

高級會員

ken9028

進階會員

rekio

進階會員

相關的主題

GIGABYTE 發表 GeForce RTX 5050 系列顯卡

Steam 6月調查報告, RTX 5090 / 5060 已進榜

RTX 5050 效能評測曝, 輸給 RTX 4060、Arc B580

RTX 5050 開賣調漲300元？台灣售價列表

AMD RX 9070 XT 驅動更新提升 9% , 超越 RTX 5070 Ti

芝奇 CAMM2 DDR5 於 ASUS Z890 實現 DDR5-10000 燒機過測