Intel 去年從 AMD 挖了 RTG 負責人 Raja Koduri,任其為核心與視覺計算集團首席架構師兼高級副總裁。有人認為這個戲劇性的轉移標誌著 Intel 將進入獨立 GPU 市場。恰巧在這時,Intel 在美國舊金山的 ISSCC(IEEE 國際固態電路會議)上發表了一款獨立 GPU 的原型。
不過,這次的原型還沒達到能上市的水平,僅僅是個用來技術驗證的 GPU 罷了。它基於現有 Intel 內顯架構,搭配 IVR(Integrated Voltage Regulator)來驗證功耗和性能控制技術。
過去,Intel 也有過類似的低功耗驗證 GPU 原型:2014年在ISSCC上發布的22nm原型晶片(5.7 A Graphics Execution Core in 22nm CMOS Featuring Adaptive Clocking, Selective Boosting and State-Retentive Sleep」SB Nasir, et al ., ISSCC 2014)。儘管如此,這款原型 GPU 具有完整的功能,做成產品也不是不可能的。
這塊原型的架構為最新的 Intel Gen.9,也就是原本 Intel 的內顯。不過採用的是 Gen.9 LP,也就是 Atom 所用的低功耗內顯,與桌面版的標準單元庫不同。
製程是 Intel 14nm,10金屬層(佈線)。晶片面積為64mm2(8×8),15億晶體管。工作頻率和電壓範圍從50 MHz / 0.51 V到400 MHz / 1.2 V。晶體管這麼多的原因是配備了大量的 SRAM。
Intel推出基於現有集顯架構的新設計
Intel 的 GPU 核心由稱為“EU(執行單元)”的向量核心組成。一個EU有2個4-way向量單元。FP32單元為4-way、128-bit。EU由2個向量單元、7線程通用寄存器(GRF)、取指以及分支單元組成。
原型 GPU 中每個SS(Sub-Slice)裡放了6個EU。除了EU之外,還有取樣器(紋理單元),L1 / L2緩存,線程調度器,數據端口等。
原型 GPU 裡由3個SS構成1個Slice,Slice擁有 GPU 的完整功能,包含顯示固定功能管線、Command streamer和L3快取等。圖中可以看到編號SS0到SS2的3個EU,不過其中只有兩個- SS1和SS2是新的設計。
Intel Gen.9 GPU 架構
也就是說這顆GPU共有1個Slice,3個SS,共計18個EU。向量單元中有144個FP32 ALU。現在低端桌面CPU所用的GT1為96個,GT3e 384個,曾經的GT4e則達到576個。
144個低頻【400MHz】Gen.9 LP EU,效能也就比較低端。而且通常內顯會集成視頻之類的多媒體解碼/編碼單元,這次卻沒提到。
在 ISSCC上 發表的這顆GPU不僅包括 GPU 核心,還搭載了包含控制和I/O的System Agent(SA)。記憶體接口在主機那邊,出於這個原因,System Agent 也配有4MB的大容量頁面快取。到主機是通過 FPGA 橋接的。光看這麼個配置就知道它只是個驗證用的原型了。
利用IVR進行細微的電壓/頻率控制
Intel這次的驗證晶片主要特點是使用 IVR 進行細粒度的 V / F(電壓/頻率)控制和功率門控。傳統上,GPU 的V/F控制和省電功能都要比 CPU 弱。因為普遍認為,傳統的圖形負載不是短時間的高負載就是非常輕度的負載,GPU 廠商也就沒在功耗控制投入太多。
然而,Intel 驗證稱,通過在 GPU 內核中引入細粒度功率控制,可以在不同條件下改善能效。利用 Intel CPU 上優秀的功耗控制技術,改進後整合進 GPU 核心。如果在 GPU 上以粒細度運行各種任務,這種功耗控制應該會更有效。
其基本思想是,把 GPU 分為為一塊塊的小塊,來以細粒度控制頻率和電壓,使得必要的模塊以最佳的頻率和功耗運行。與此同時,片上集成的 IVR 實現了高速電壓切換。將空閒模塊的電壓降低至保持電壓 (Vret, 勉強足夠保存SRAM數據的臨界點 ),降低漏電電流。功耗門限(PG)則是通過可靠性更高的喚醒機制- GPU 內部各處的 PG Driver 來控制。
IVR的引入使得對每個單元的電壓控製成為可能
傳統的 Intel 內顯設計是:整個 GPU 由單個電壓(Vgpu)的 IVR 供電。相比之下新設計中,GPU 中計算單元EU以及其他單元由各自獨立的電壓和 IVR 供電。
概念圖
以前的架構裡,當遇到計算密集型任務時,EU的負載會增加,從而導致整個 GPU 電壓升高,同時時鐘用PLL re-lock切換至高頻率。當然除EU以外的其他單元也被提到和EU同樣的電壓、頻率,導致 GPU 整體功耗上升。
老架構的 V/F 控制
如果EU和其他單元的頻率和電壓控制分開,就能夠更加靈活。此時只有EU的電壓會升高,頻率提升至正常的兩倍。通過單獨配置高響應度的 IVR,可以在短時間內提高電壓。
新架構的 V/F 控制
另外把頻率切換到原來的2倍就不需要PLL re-lock了。Intel 稱之為“EU Turbo” – 加速時為預設的兩倍頻率,一般情況下則為加速的一半頻率。可以根據負載快速改變電壓/頻率。
相反,當EU短時間閒置時,會將EU的電壓降至保持電壓Vret,進入切斷時脈的睡眠狀態。以前的話是沒法在時脈門限(Clock Gate)的同時降電壓的,這次改成了獨立IVR就可以盡可能的降低電壓。
此外,通過為每個EU單獨設置 IVR,還可以調整運行最低電壓Vmin的穩定程度。不僅是製程自身的穩定性,還有溫度帶來的波動,有了 IVR 就可以動態調整每個單元的Vmin,設置為各自的最低電壓。
GPU 內集成兩種 IVR
這次原型晶片所集成 IVR 的設計特點:混合了兩種不同類型的 VR。除了以前的“Switched Capacitor VR(SCVR)”以外,還配合了“Digitally Controlled Low Dropout(DLDO)”。兩種類型的 IVR 在更大的電壓範圍內實現高電壓轉換效率。
通常運行時,當輸入和輸出之間的電位差很小時,使用DLDO。比如1.15V的輸入電壓(Vin),輸出電壓(Vout)約為0.785V至1.11V。細粒度控制也基於DLDO。當輸出電壓低至0.3V至0.7V時,使用內置MIM電容器的SCVR。此時輸出相對於輸入的電位變為3:2,2:1,3:1的比率。
在EU內部,SCVR被配置在6個tile中。IVR控制器則位於EU中央,DLDO PG Driver的排列類似於骨髓,延伸出EU各處的DLDO PG。據說DLDO PG有1400個以上。
對於新設計的12個EU而言,在EU負載54%的情況下,EU Turbo的性能將提升最多40%,平均37%。當EU使用率達到100%時,EU Turbo的功耗比基準降低最多32%, 平均29%。而且,通過EU Turbo提升EU的運行頻率,在功耗門控部分EU,可以同時實現提性能和降功耗。
雖然這次的原型 GPU 還沒達到成品等級,不過可以看到省電控制設計的大體方向。Intel 自從 Haswell 引入 IVR,現在不光 CPU,GPU 核心也要引進 IVR。省電控制正是 Intel 不為人所知的強項。
看來和此前預測的一樣,Intel 對於 GPU 的研究在 Raja 跳槽前就進行了很久。進度可能會比預想的要快。
來源:
http://www.moepc.net/?post=4381
https://pc.watch.impress.co.jp/docs/column/kaigai/1107078.html
不過,這次的原型還沒達到能上市的水平,僅僅是個用來技術驗證的 GPU 罷了。它基於現有 Intel 內顯架構,搭配 IVR(Integrated Voltage Regulator)來驗證功耗和性能控制技術。
過去,Intel 也有過類似的低功耗驗證 GPU 原型:2014年在ISSCC上發布的22nm原型晶片(5.7 A Graphics Execution Core in 22nm CMOS Featuring Adaptive Clocking, Selective Boosting and State-Retentive Sleep」SB Nasir, et al ., ISSCC 2014)。儘管如此,這款原型 GPU 具有完整的功能,做成產品也不是不可能的。
這塊原型的架構為最新的 Intel Gen.9,也就是原本 Intel 的內顯。不過採用的是 Gen.9 LP,也就是 Atom 所用的低功耗內顯,與桌面版的標準單元庫不同。
製程是 Intel 14nm,10金屬層(佈線)。晶片面積為64mm2(8×8),15億晶體管。工作頻率和電壓範圍從50 MHz / 0.51 V到400 MHz / 1.2 V。晶體管這麼多的原因是配備了大量的 SRAM。
Intel推出基於現有集顯架構的新設計
Intel 的 GPU 核心由稱為“EU(執行單元)”的向量核心組成。一個EU有2個4-way向量單元。FP32單元為4-way、128-bit。EU由2個向量單元、7線程通用寄存器(GRF)、取指以及分支單元組成。
原型 GPU 中每個SS(Sub-Slice)裡放了6個EU。除了EU之外,還有取樣器(紋理單元),L1 / L2緩存,線程調度器,數據端口等。
原型 GPU 裡由3個SS構成1個Slice,Slice擁有 GPU 的完整功能,包含顯示固定功能管線、Command streamer和L3快取等。圖中可以看到編號SS0到SS2的3個EU,不過其中只有兩個- SS1和SS2是新的設計。
Intel Gen.9 GPU 架構
也就是說這顆GPU共有1個Slice,3個SS,共計18個EU。向量單元中有144個FP32 ALU。現在低端桌面CPU所用的GT1為96個,GT3e 384個,曾經的GT4e則達到576個。
144個低頻【400MHz】Gen.9 LP EU,效能也就比較低端。而且通常內顯會集成視頻之類的多媒體解碼/編碼單元,這次卻沒提到。
在 ISSCC上 發表的這顆GPU不僅包括 GPU 核心,還搭載了包含控制和I/O的System Agent(SA)。記憶體接口在主機那邊,出於這個原因,System Agent 也配有4MB的大容量頁面快取。到主機是通過 FPGA 橋接的。光看這麼個配置就知道它只是個驗證用的原型了。
利用IVR進行細微的電壓/頻率控制
Intel這次的驗證晶片主要特點是使用 IVR 進行細粒度的 V / F(電壓/頻率)控制和功率門控。傳統上,GPU 的V/F控制和省電功能都要比 CPU 弱。因為普遍認為,傳統的圖形負載不是短時間的高負載就是非常輕度的負載,GPU 廠商也就沒在功耗控制投入太多。
然而,Intel 驗證稱,通過在 GPU 內核中引入細粒度功率控制,可以在不同條件下改善能效。利用 Intel CPU 上優秀的功耗控制技術,改進後整合進 GPU 核心。如果在 GPU 上以粒細度運行各種任務,這種功耗控制應該會更有效。
其基本思想是,把 GPU 分為為一塊塊的小塊,來以細粒度控制頻率和電壓,使得必要的模塊以最佳的頻率和功耗運行。與此同時,片上集成的 IVR 實現了高速電壓切換。將空閒模塊的電壓降低至保持電壓 (Vret, 勉強足夠保存SRAM數據的臨界點 ),降低漏電電流。功耗門限(PG)則是通過可靠性更高的喚醒機制- GPU 內部各處的 PG Driver 來控制。
IVR的引入使得對每個單元的電壓控製成為可能
傳統的 Intel 內顯設計是:整個 GPU 由單個電壓(Vgpu)的 IVR 供電。相比之下新設計中,GPU 中計算單元EU以及其他單元由各自獨立的電壓和 IVR 供電。
概念圖
以前的架構裡,當遇到計算密集型任務時,EU的負載會增加,從而導致整個 GPU 電壓升高,同時時鐘用PLL re-lock切換至高頻率。當然除EU以外的其他單元也被提到和EU同樣的電壓、頻率,導致 GPU 整體功耗上升。
老架構的 V/F 控制
如果EU和其他單元的頻率和電壓控制分開,就能夠更加靈活。此時只有EU的電壓會升高,頻率提升至正常的兩倍。通過單獨配置高響應度的 IVR,可以在短時間內提高電壓。
新架構的 V/F 控制
另外把頻率切換到原來的2倍就不需要PLL re-lock了。Intel 稱之為“EU Turbo” – 加速時為預設的兩倍頻率,一般情況下則為加速的一半頻率。可以根據負載快速改變電壓/頻率。
相反,當EU短時間閒置時,會將EU的電壓降至保持電壓Vret,進入切斷時脈的睡眠狀態。以前的話是沒法在時脈門限(Clock Gate)的同時降電壓的,這次改成了獨立IVR就可以盡可能的降低電壓。
此外,通過為每個EU單獨設置 IVR,還可以調整運行最低電壓Vmin的穩定程度。不僅是製程自身的穩定性,還有溫度帶來的波動,有了 IVR 就可以動態調整每個單元的Vmin,設置為各自的最低電壓。
GPU 內集成兩種 IVR
這次原型晶片所集成 IVR 的設計特點:混合了兩種不同類型的 VR。除了以前的“Switched Capacitor VR(SCVR)”以外,還配合了“Digitally Controlled Low Dropout(DLDO)”。兩種類型的 IVR 在更大的電壓範圍內實現高電壓轉換效率。
通常運行時,當輸入和輸出之間的電位差很小時,使用DLDO。比如1.15V的輸入電壓(Vin),輸出電壓(Vout)約為0.785V至1.11V。細粒度控制也基於DLDO。當輸出電壓低至0.3V至0.7V時,使用內置MIM電容器的SCVR。此時輸出相對於輸入的電位變為3:2,2:1,3:1的比率。
在EU內部,SCVR被配置在6個tile中。IVR控制器則位於EU中央,DLDO PG Driver的排列類似於骨髓,延伸出EU各處的DLDO PG。據說DLDO PG有1400個以上。
對於新設計的12個EU而言,在EU負載54%的情況下,EU Turbo的性能將提升最多40%,平均37%。當EU使用率達到100%時,EU Turbo的功耗比基準降低最多32%, 平均29%。而且,通過EU Turbo提升EU的運行頻率,在功耗門控部分EU,可以同時實現提性能和降功耗。
雖然這次的原型 GPU 還沒達到成品等級,不過可以看到省電控制設計的大體方向。Intel 自從 Haswell 引入 IVR,現在不光 CPU,GPU 核心也要引進 IVR。省電控制正是 Intel 不為人所知的強項。
看來和此前預測的一樣,Intel 對於 GPU 的研究在 Raja 跳槽前就進行了很久。進度可能會比預想的要快。
來源:
http://www.moepc.net/?post=4381
https://pc.watch.impress.co.jp/docs/column/kaigai/1107078.html