AMD(NASDAQ: AMD)發表AMD Radeon Instinct™ MI60與MI50加速器,為全球首款7奈米製程資料中心GPU,旨在滿足新一代深度學習、高效能運算、雲端運算以及渲染等應用所需的運算效能需求。研究人員、科學家以及開發者等運用AMD Radeon Instinct™加速器解決各種嚴峻與矚目的挑戰,包括大規模模擬、氣候變遷、計算生物學與疾病預防等。
AMD Radeon繪圖技術事業群工程部全球資深副總裁David Wang表示,傳統GPU架構限制了IT管理者有效處理對現代雲端資料中心的工作負載進行龐大資料集的持續演進與分析需求。新款AMD Radeon Instinct™加速器結合世界級效能以及靈活架構,加上強大的軟體平台以及業界最頂尖的ROCm開放軟體產業體系,不但提供業界需要的關鍵元件,也解決了現今與未來最艱鉅的雲端運算挑戰。
AMD Radeon Instinct™ MI60與MI50加速器擁有靈活的混合精度運算功能,搭載高效能運算單元,能夠處理更多工作負載類型,如各種HPC與深度學習應用。全新AMD Radeon Instinct™ MI60與MI50加速器專為有效處理眾多工作負載類型而設計。其應用範圍涵蓋訓練複雜的神經網路,為資料中心與部門部署提供更高的浮點運算效能、效率以及各種新功能註1。
AMD Radeon Instinct™ MI60與MI50加速器提供高速的浮點運算效能以及高達1 TB/s的超高速HBM2(第2代高頻寬記憶體),也是首款支援新一代PCIe® 4.0註2互連技術的GPU,比其他x86 CPU到GPU互連技術快出高達2倍註3,並配備AMD Infinity Fabric™ Link GPU互連技術,讓GPU對GPU的通訊比PCIe® Gen 3快出高達6倍註4。
AMD同時宣佈推出用於加速運算的新版ROCm開放軟體平台,支援新款加速器的各項結構功能,包括優化的深度學習作業(DLOPS)以及AMD Infinity Fabric™ Link GPU互連技術。專為擴充設計的ROCm讓客戶在開放環境中部署高效能且環保節能的異質化運算系統。
Google TensorFlow工程部總監Rajat Monga表示,Google相信開放性資源對每位使用者都有益處。我們看到了開源機器學習技術帶來的助益,也很高興看到AMD的支持。在ROCm開放軟體平台的幫助下,TensorFlow用戶將能受益於GPU加速技術以及更強大的開源機器學習產業體系。
AMD Radeon Instinct™ MI60與MI50加速器的特色:
更新ROCm開放軟體平台
AMD同時發佈新版ROCm開放軟體平台,設計旨在加速開發高效能且節省能源的異質化運算系統。除了支援新款Radeon Instinct™加速器,ROCm 2.0版本軟體還針對新DLOPS更新數學函式庫,支援包括CentOS、RHEL以及Ubuntu在內的64位元Linux作業系統。ROCm也將現有元件優化,以及支援最新版本的熱門深度學習框架,包括TensorFlow 1.11、 PyTorch(Caffe2)等。敬請參閱ROCm 2.0軟體。
供應時程
AMD Radeon Instinct™ MI60加速器預計在2018年底開始向資料中心客戶出貨,Radeon Instinct™ MI50則預計在2019年第1季季末前開始供應。ROCm 2.0開放軟體平台將於2018年底推出。
註1:在2018年10月22日。文中提及結果是根據Radeon Instinct MI60,這顆採用Vega 7奈米 FinFET製程的晶片擁有29.5 TFLOPS 半精度 (FP16)、14.8 TFLOPS 單精度 (FP32) 、以及7.4 TFLOPS 倍精度 (FP64) 尖理論浮點運算效能。如此卓越的效能是透過在比前一代MI25 GPU產品還要小且底面積僅有331.46mm2的晶粒內嵌入132億個電晶體,而且功耗還維持在300瓦以內。
文中結果的計算是在Radeon Instinct MI50,這顆採用Vega 7奈米FinFET製程技術的晶片提供26.8 TFLOPS 尖峰半精度(FP16)、13.4 TFLOP
尖峰單精度(FP32)、以及6.7 TFLOPS尖峰倍精度(FP64)浮點運算效能。如此卓越的效能是透過在比前一代MI25 GPU產品還要小且底面積僅有331.46mm2的晶粒內嵌入132億個電晶體,而且功耗還維持在300瓦以內。
文中結果的計算是採用Radeon Instinct MI25,這顆採用 “Vega10”架構的晶片提供24.6 TFLOPS 尖峰半精度(FP16)、12.3 TFLOPS尖峰單精度(FP32)、以及768 GFLOPS尖峰倍精度(FP64)浮點運算效能。如此卓越的效能源自於在底面積僅494.8mm2的晶粒內嵌入125億個電晶體,而且功耗還維持在300瓦以內。
AMD TFLOPS 的計算是根據以下公式,對Radeon Instinct MI25、MI50、以及MI60 GPUs進行計算: FLOPS 的計算是將引擎時脈最高DPM狀態乘以每個GPU內含的xx個CU單元。之後再將結果乘以每個CU單元含有的XX個串流處理器。接著再把結果乘以FP32每個時脈2 FLOPS,以及FP16每個時脈乘以4 FLOPS。在對Vega 7奈米產品MI50與MI60的FP64 TFLOPS速率時,採用1/2的運算速率,而 “Vega 10”架構的MI25則採用1/16的速率。
針對MI50與MI60 GPU的TFLOP計算,詳情可參閱 https://www.amd.com/en/products/professional-graphics/instinct-mi50 以及https://www.amd.com/en/products/professional-graphics/instinct-mi60
業界支援文件/網頁:
http://www.tsmc.com/english/dedicatedFoundry/technology/7nm.htm
https://www.globalfoundries.com/sit…s/product-brief-7lp-7nm-finfet-technology.pdf
AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-2
註2: 待更新
註3:在2018年10月22日,Radeon Instinct™ MI50 與MI60 “Vega 7奈米” 技術加速器支援 PCIe Gen 4.0 規格,在通過PCIe Gen 4.0 x16規格認證的伺服器上,每個GPU繪圖卡能能提供64 GB/s尖峰頻寬。尖峰理論傳輸率指南僅為估算數據,實際數值可能會有異動。前一代Radeon Instinct運算GPU介面卡採用PCIe Gen 3.0規格,提供32 GB/s尖峰理論傳輸率的頻寬效能。
尖峰理論傳輸率效能的計算公式為 鮑率* 位元組單位的寬度* # 傳輸方向數量= GB/s
PCIe Gen 3: 8 * 2 * 2 = 32 GB/s
PCIe Gen 4: 16 * 2 * 2 = 64 GB/s
係指伺服器製造商公布的PCIe Gen 4.0相容性與效能指南,提及特定伺服器機種的潛在尖峰效能。各家伺服器製造商產品組態各異,故測出結果也會有差異。
https://pcisig.com/
https://www.chipestimate.com/PCI-Ex…Big-Data/Cadence/Technical-Article/2014/04/15
https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html
AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-5
註4:在2018年10月22日。Radeon Instinct™ MI50 與MI60 “Vega 7奈米” 技術的加速器採用 PCIe® Gen 4.0* 規格,在通過PCIe Gen 4.0 x16認證的伺服器內,CPU到每個GPU介面卡之間提供64 GB/s尖峰理論傳輸頻寬。
前一代Radeon Instinct 運算GPU介面卡採用PCIe Gen 3.0 規格,提供最高32 GB/s的尖峰理論傳輸率頻寬效能。
尖峰理論傳輸率效能的計算公式為 鮑率* 位元組單位的寬度* # 傳輸方向數量= 每個介面卡的GB/s
PCIe Gen3: 8 * 2 * 2 = 32 GB/s
PCIe Gen4: 16 * 2 * 2 = 64 GB/s
Vega20 對Vega20 xGMI = 25 * 2 * 2 = 100 GB/s * 每個GPU2個鏈路= 200 GB/s
xGMI (亦名為Infinity Fabric Link) 對比PCIe Gen3: 200/32 = 6.25倍
採用 「Vega 7奈米」製程技術的Radeon Instinct™ MI50 與MI60 加速器內含兩個Infinity Fabric™ Links 鏈路,每個GPU介面卡提供200 GB/s尖峰理論GPU對GPU或點對點(P2P)傳輸率頻寬效能。再結合PCIe Gen 4相容性,帶來高達264 GB/s的匯整GPU介面卡I/O尖峰頻寬。
效能指南的資料僅為估算數據,實際數值可能會有異動。前一代Radeon Instinct運算GPU介面卡提供32 GB/s的PCIe Gen 3.0規格尖峰傳輸頻寬效能。
Infinity Fabric™ Link鏈路技術尖峰理論傳輸率效能的計算公式為鮑率* 位元組單位的寬度* # 傳輸方向數量 * 鏈路數量= 每個介面卡的GB/s Infinity Fabric Link鏈路: 25 * 2 * 2 = 100 GB/s
MI50 |MI60 各自擁有兩個鏈路:
100 GB/s * 每個GPU2個鏈路= 200 GB/s
請參閱各家伺服器製造商PCIe Gen 4.0 相容性與效能指南,查閱特定伺服器機種的潛在尖峰效能。各家伺服器製造商產品組態各異,故測出結果也會有差異。
https://pcisig.com/
https://www.chipestimate.com/PCI-Ex…Big-Data/Cadence/Technical-Article/2014/04/15
https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html
AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-4
註5:計算日期為2018年10月22日,Radeon Instinct MI60 GPU擁有7.4 TFLOPS 尖峰理論倍精度浮點運算(FP64)效能。AMD 的TFLOPS計算是採用以下公式: FLOPS計算是採最高DPM狀態的引擎時脈,再乘以每個GPU內含的CU單元數量。接著再乘以每個CU單元內含串流處理器數量xx,得到的結果再乘以FP64每個時脈1/2 FLOPS。MI60的TFLOP計算可參閱
https://www.amd.com/en/products/professional-graphics/instinct-mi60 . 外部對NVidia Tesla V100 (16GB 介面卡) GPU 加速器的評測結果為7 TFLOPS尖峰倍精度(FP64)浮點運算效能。結果數據可參閱:
https://images.nvidia.com/content/technologies/volta/pdf/437317-Volta-V100-DS-NV-US-WEB.pdf . AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。
註6:採用 「Vega 7奈米」技術的第2代Radeon Instinct™ GPU介面卡支援的ECC功能已擴充到全晶片ECC,包括HBM2記憶體以及內部GPU架構。
註7:擴充RAS (可靠性、可用性、可維護性) 屬性已加入到AMD的第二代Radeon Instinct™ Vega 7奈米製程GPU介面卡以及其背後的產業體系,其中包括軟體、韌體、以及系統層級功能。AMD的遠端管理功能採用先進的頻外(out-of-band)線路,不論是GPU當時處於什麼狀態,用戶都可透過I2C監視GPU,讓管理工作更為簡便。有關全系統RAS功能,請參閱系統製造商對於特定系統機種提供的指南。
AMD Radeon繪圖技術事業群工程部全球資深副總裁David Wang表示,傳統GPU架構限制了IT管理者有效處理對現代雲端資料中心的工作負載進行龐大資料集的持續演進與分析需求。新款AMD Radeon Instinct™加速器結合世界級效能以及靈活架構,加上強大的軟體平台以及業界最頂尖的ROCm開放軟體產業體系,不但提供業界需要的關鍵元件,也解決了現今與未來最艱鉅的雲端運算挑戰。
AMD Radeon Instinct™ MI60與MI50加速器擁有靈活的混合精度運算功能,搭載高效能運算單元,能夠處理更多工作負載類型,如各種HPC與深度學習應用。全新AMD Radeon Instinct™ MI60與MI50加速器專為有效處理眾多工作負載類型而設計。其應用範圍涵蓋訓練複雜的神經網路,為資料中心與部門部署提供更高的浮點運算效能、效率以及各種新功能註1。
AMD Radeon Instinct™ MI60與MI50加速器提供高速的浮點運算效能以及高達1 TB/s的超高速HBM2(第2代高頻寬記憶體),也是首款支援新一代PCIe® 4.0註2互連技術的GPU,比其他x86 CPU到GPU互連技術快出高達2倍註3,並配備AMD Infinity Fabric™ Link GPU互連技術,讓GPU對GPU的通訊比PCIe® Gen 3快出高達6倍註4。
AMD同時宣佈推出用於加速運算的新版ROCm開放軟體平台,支援新款加速器的各項結構功能,包括優化的深度學習作業(DLOPS)以及AMD Infinity Fabric™ Link GPU互連技術。專為擴充設計的ROCm讓客戶在開放環境中部署高效能且環保節能的異質化運算系統。
Google TensorFlow工程部總監Rajat Monga表示,Google相信開放性資源對每位使用者都有益處。我們看到了開源機器學習技術帶來的助益,也很高興看到AMD的支持。在ROCm開放軟體平台的幫助下,TensorFlow用戶將能受益於GPU加速技術以及更強大的開源機器學習產業體系。
AMD Radeon Instinct™ MI60與MI50加速器的特色:
- 優化深度學習作業:提供靈活的混合精度FP16、FP32以及INT4/INT8運算功能,滿足瞬息萬變且不斷演化成長的工作負載需求,包括從訓練複雜的神經網路一直到對這些受訓網路執行的推導。
- 全球最快雙精度PCIe®2加速器註5:AMD Radeon Instinct™ MI60加速器是全球最快雙精度PCIe 4.0加速器,提供高達7.4 TFLOPS的尖峰FP64效能註5,讓各產業的科學家與研究人員更有效率地處理各種HPC應用,包括生命科學、能源、金融、汽車、航太、學術、政府機構以及國防等領域。AMD Radeon Instinct™ MI50提供高達6.7 TFLOPS的FP64尖峰效能註1,針對各種深度學習工作負載帶來一個高效率、高性價比的解決方案,同時能在虛擬桌面基礎架構(VDI)、桌面即服務(DaaS)以及各種雲端環境高度重複使用。
- 高達6倍的資料傳輸速度:每個GPU配置2個Infinity Fabric™ Links,點對點傳輸頻寬高達200 GB/s,比PCIe 3.0快達6倍註4,在巢式環形組態下支援4個GPU連結(在8 GPU的伺服器內配置2個巢結構)。
- 超高速HBM2記憶體:AMD Radeon Instinct™ MI60和MI50分別提供32GB及16GB的HBM2錯誤校正碼(ECC)記憶體註6。兩款GPU提供全晶片ECC與可靠、可用、可維護註7技術(RAS)。RAS可為超大規模HPC部署,提供更精準運算結果的關鍵技術。
- 支援安全虛擬化工作負載:AMD MxGPU技術是業界唯一硬體式GPU虛擬化解決方案,採用業界標準SR-IOV(單根I/O虛擬化)技術,使駭客難以從硬體層面發動攻擊,為虛擬雲端部署提供安全防護。
更新ROCm開放軟體平台
AMD同時發佈新版ROCm開放軟體平台,設計旨在加速開發高效能且節省能源的異質化運算系統。除了支援新款Radeon Instinct™加速器,ROCm 2.0版本軟體還針對新DLOPS更新數學函式庫,支援包括CentOS、RHEL以及Ubuntu在內的64位元Linux作業系統。ROCm也將現有元件優化,以及支援最新版本的熱門深度學習框架,包括TensorFlow 1.11、 PyTorch(Caffe2)等。敬請參閱ROCm 2.0軟體。
供應時程
AMD Radeon Instinct™ MI60加速器預計在2018年底開始向資料中心客戶出貨,Radeon Instinct™ MI50則預計在2019年第1季季末前開始供應。ROCm 2.0開放軟體平台將於2018年底推出。
註1:在2018年10月22日。文中提及結果是根據Radeon Instinct MI60,這顆採用Vega 7奈米 FinFET製程的晶片擁有29.5 TFLOPS 半精度 (FP16)、14.8 TFLOPS 單精度 (FP32) 、以及7.4 TFLOPS 倍精度 (FP64) 尖理論浮點運算效能。如此卓越的效能是透過在比前一代MI25 GPU產品還要小且底面積僅有331.46mm2的晶粒內嵌入132億個電晶體,而且功耗還維持在300瓦以內。
文中結果的計算是在Radeon Instinct MI50,這顆採用Vega 7奈米FinFET製程技術的晶片提供26.8 TFLOPS 尖峰半精度(FP16)、13.4 TFLOP
尖峰單精度(FP32)、以及6.7 TFLOPS尖峰倍精度(FP64)浮點運算效能。如此卓越的效能是透過在比前一代MI25 GPU產品還要小且底面積僅有331.46mm2的晶粒內嵌入132億個電晶體,而且功耗還維持在300瓦以內。
文中結果的計算是採用Radeon Instinct MI25,這顆採用 “Vega10”架構的晶片提供24.6 TFLOPS 尖峰半精度(FP16)、12.3 TFLOPS尖峰單精度(FP32)、以及768 GFLOPS尖峰倍精度(FP64)浮點運算效能。如此卓越的效能源自於在底面積僅494.8mm2的晶粒內嵌入125億個電晶體,而且功耗還維持在300瓦以內。
AMD TFLOPS 的計算是根據以下公式,對Radeon Instinct MI25、MI50、以及MI60 GPUs進行計算: FLOPS 的計算是將引擎時脈最高DPM狀態乘以每個GPU內含的xx個CU單元。之後再將結果乘以每個CU單元含有的XX個串流處理器。接著再把結果乘以FP32每個時脈2 FLOPS,以及FP16每個時脈乘以4 FLOPS。在對Vega 7奈米產品MI50與MI60的FP64 TFLOPS速率時,採用1/2的運算速率,而 “Vega 10”架構的MI25則採用1/16的速率。
針對MI50與MI60 GPU的TFLOP計算,詳情可參閱 https://www.amd.com/en/products/professional-graphics/instinct-mi50 以及https://www.amd.com/en/products/professional-graphics/instinct-mi60
業界支援文件/網頁:
http://www.tsmc.com/english/dedicatedFoundry/technology/7nm.htm
https://www.globalfoundries.com/sit…s/product-brief-7lp-7nm-finfet-technology.pdf
AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-2
註2: 待更新
註3:在2018年10月22日,Radeon Instinct™ MI50 與MI60 “Vega 7奈米” 技術加速器支援 PCIe Gen 4.0 規格,在通過PCIe Gen 4.0 x16規格認證的伺服器上,每個GPU繪圖卡能能提供64 GB/s尖峰頻寬。尖峰理論傳輸率指南僅為估算數據,實際數值可能會有異動。前一代Radeon Instinct運算GPU介面卡採用PCIe Gen 3.0規格,提供32 GB/s尖峰理論傳輸率的頻寬效能。
尖峰理論傳輸率效能的計算公式為 鮑率* 位元組單位的寬度* # 傳輸方向數量= GB/s
PCIe Gen 3: 8 * 2 * 2 = 32 GB/s
PCIe Gen 4: 16 * 2 * 2 = 64 GB/s
係指伺服器製造商公布的PCIe Gen 4.0相容性與效能指南,提及特定伺服器機種的潛在尖峰效能。各家伺服器製造商產品組態各異,故測出結果也會有差異。
https://pcisig.com/
https://www.chipestimate.com/PCI-Ex…Big-Data/Cadence/Technical-Article/2014/04/15
https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html
AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-5
註4:在2018年10月22日。Radeon Instinct™ MI50 與MI60 “Vega 7奈米” 技術的加速器採用 PCIe® Gen 4.0* 規格,在通過PCIe Gen 4.0 x16認證的伺服器內,CPU到每個GPU介面卡之間提供64 GB/s尖峰理論傳輸頻寬。
前一代Radeon Instinct 運算GPU介面卡採用PCIe Gen 3.0 規格,提供最高32 GB/s的尖峰理論傳輸率頻寬效能。
尖峰理論傳輸率效能的計算公式為 鮑率* 位元組單位的寬度* # 傳輸方向數量= 每個介面卡的GB/s
PCIe Gen3: 8 * 2 * 2 = 32 GB/s
PCIe Gen4: 16 * 2 * 2 = 64 GB/s
Vega20 對Vega20 xGMI = 25 * 2 * 2 = 100 GB/s * 每個GPU2個鏈路= 200 GB/s
xGMI (亦名為Infinity Fabric Link) 對比PCIe Gen3: 200/32 = 6.25倍
採用 「Vega 7奈米」製程技術的Radeon Instinct™ MI50 與MI60 加速器內含兩個Infinity Fabric™ Links 鏈路,每個GPU介面卡提供200 GB/s尖峰理論GPU對GPU或點對點(P2P)傳輸率頻寬效能。再結合PCIe Gen 4相容性,帶來高達264 GB/s的匯整GPU介面卡I/O尖峰頻寬。
效能指南的資料僅為估算數據,實際數值可能會有異動。前一代Radeon Instinct運算GPU介面卡提供32 GB/s的PCIe Gen 3.0規格尖峰傳輸頻寬效能。
Infinity Fabric™ Link鏈路技術尖峰理論傳輸率效能的計算公式為鮑率* 位元組單位的寬度* # 傳輸方向數量 * 鏈路數量= 每個介面卡的GB/s Infinity Fabric Link鏈路: 25 * 2 * 2 = 100 GB/s
MI50 |MI60 各自擁有兩個鏈路:
100 GB/s * 每個GPU2個鏈路= 200 GB/s
請參閱各家伺服器製造商PCIe Gen 4.0 相容性與效能指南,查閱特定伺服器機種的潛在尖峰效能。各家伺服器製造商產品組態各異,故測出結果也會有差異。
https://pcisig.com/
https://www.chipestimate.com/PCI-Ex…Big-Data/Cadence/Technical-Article/2014/04/15
https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html
AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-4
註5:計算日期為2018年10月22日,Radeon Instinct MI60 GPU擁有7.4 TFLOPS 尖峰理論倍精度浮點運算(FP64)效能。AMD 的TFLOPS計算是採用以下公式: FLOPS計算是採最高DPM狀態的引擎時脈,再乘以每個GPU內含的CU單元數量。接著再乘以每個CU單元內含串流處理器數量xx,得到的結果再乘以FP64每個時脈1/2 FLOPS。MI60的TFLOP計算可參閱
https://www.amd.com/en/products/professional-graphics/instinct-mi60 . 外部對NVidia Tesla V100 (16GB 介面卡) GPU 加速器的評測結果為7 TFLOPS尖峰倍精度(FP64)浮點運算效能。結果數據可參閱:
https://images.nvidia.com/content/technologies/volta/pdf/437317-Volta-V100-DS-NV-US-WEB.pdf . AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。
註6:採用 「Vega 7奈米」技術的第2代Radeon Instinct™ GPU介面卡支援的ECC功能已擴充到全晶片ECC,包括HBM2記憶體以及內部GPU架構。
註7:擴充RAS (可靠性、可用性、可維護性) 屬性已加入到AMD的第二代Radeon Instinct™ Vega 7奈米製程GPU介面卡以及其背後的產業體系,其中包括軟體、韌體、以及系統層級功能。AMD的遠端管理功能採用先進的頻外(out-of-band)線路,不論是GPU當時處於什麼狀態,用戶都可透過I2C監視GPU,讓管理工作更為簡便。有關全系統RAS功能,請參閱系統製造商對於特定系統機種提供的指南。