AI 應用新聞處理器

最新 MLCommons 測試結果 突顯 Intel 在 AI 領域取得重大進展



Habana Gaudi2和第4代Intel Xeon可擴充處理器
在AI訓練方面提供領先的效能和最佳的成本​

MLCommons於美國當地時間本月27日公布業界AI效能基準測試MLPerf Traning 3.0的結果,其中Habana® Gaudi®2深度學習加速器和第4代Intel® Xeon®可擴充處理器,均取得優異的訓練結果。

「MLCommons所公布的最新MLPerf結果,驗證了Intel Xeon處理器和Intel Gaudi深度學習加速器在AI領域帶給客戶的TCO(Total Cost of Ownership)價值。Xeon內建加速器是在通用處理器上執行大量AI工作負載的理想解決方案,Gaudi則在大型語言模型和生成式AI方面提供具競爭力的效能。英特爾的可擴展系統搭配最佳化、易於程式設計的開放式軟體,降低了客戶和合作夥伴於資料中心部署各類雲端到智慧邊緣AI解決方案的門檻。」

-Sandra Rivera,英特爾執行副總裁暨資料中心與AI事業群總經理

為何重要:業界傳聞生成式AI和大型語言模型(LLM)僅能在NVIDIA GPU上執行。新資料顯示,英特爾的AI解決方案產品組合,為希望擺脫限制效率和規模的封閉生態系的客戶,提供極具競爭力的選項。

最新的MLPerf Traning 3.0結果,突顯出英特爾產品在一系列深度學習模型上的效能。以Gaudi2為基礎的軟體和系統,其訓練成熟度在大型語言模型GPT-3上獲得大規模的證實。在僅有兩款提交GPT-3 LLM訓練基準測試效能結果的半導體解決方案當中,Gaudi2是其中之一。

Gaudi也為客戶提供極具競爭力的伺服器和系統成本優勢。該加速器在GPT-3、電腦視覺和自然語言模型上經過MLPerf驗證的效能,加上即將推出的軟體進展,讓Gaudi2相對於NVIDIA H100而言,在性價比上成為極具吸引力的選擇。



intel_06292.jpg

在CPU方面,搭載英特爾AI引擎的第4代Xeon處理器所展現出的深度學習訓練效能,讓客戶可以使用Xeon伺服器建構單一通用AI系統,用以資料預處理、模型訓練和部署,藉此提供AI效能、效率、準確性和可擴展性的正確組合。

Habana Gaudi2結果:訓練生成式AI和大型語言模型需要伺服器叢集來滿足大規模的運算需求,GPT-3是款具備1750億個參數的嚴苛模型,MLPerf結果確切驗證了Habana Gaudi2在GPT-3上的出色效能和高效擴展性。

成果亮點:


  • Gaudi2在GPT-31上達成令人印象深刻的訓練時間:384個加速器的訓練時間為311分鐘。

  • 在GPT-3模型上,從256個加速器增加至384個加速器的效能提升比例接近線性95%。

  • 電腦視覺-ResNet-50 8個加速器、Unet3D 8個加速器、自然語言處理-BERT 8個和64個加速器均取得優異的訓練結果。

  • 與去年11月提交的資料相較之下,BERT和ResNet模型的效能分別提升10%和4%,證明Gaudi2軟體日益成熟。

  • Gaudi2採用「開箱即用」的方式提交結果,意味著客戶在本地或是雲端部署Gaudi2時,均可獲得相當的效能結果。


Gaudi2軟體成熟度:Gaudi平台的軟體支援日益成熟,並與流行、越來越多的生成式AI和LLM需求保持同步。


  • Gaudi2的GPT-3提交結果使用PyTorch,並採用流行的DeepSpeed最佳化函式庫(大規模Microsoft AI的其中一部分),而非客製化軟體。DeepSpeed能夠同時支援3D並行(資料、張量、管線),進一步最佳化LLM的擴展效能效率。

  • Gaudi2的3.0基準測試提交結果使用BF16資料類型。預計於2023年第三季推出FP8軟體支援和新功能時,Gaudi2的效能將有顯著提升。


第4代Xeon處理器結果:作為眾多替代解決方案中唯一提交結果的CPU,MLPerf的結果證明Intel Xeon處理器為企業提供開箱即用的能力,讓企業可以在通用系統上部署AI,並避免導入專用AI系統的成本與複雜性。

intel_06291.jpg

對於少數從頭開始間歇性訓練大型模型的客戶而言,他們可以使用通用CPU進行訓練,且往往是透過已部署於日常業務營運的英特爾伺服器。然而,大多數人將使用預先訓練好的模型,並使用他們自己的小型資料集進行微調。英特爾先前發表的結果表示,透過英特爾AI軟體和標準業界開放原始碼軟體,這種微調作業能夠在短短幾分鐘內完成。

MLPerf成果亮點:


  • 在封閉分區,第4代Xeon可以分別在不到50分鐘(47.93分鐘)和不到90分鐘(88.17分鐘)的時間內,訓練BERT和ResNet-50模型。

  • 對於開放分區的BERT,當擴展至16個節點時,結果顯示Xeon能夠在大約30分鐘(31.06分鐘)的時間訓練模型。

  • 對於較大的RetinaNet模型,在16個節點上,Xeon能以232分鐘訓練完成,讓客戶可以靈活地在非尖峰時段運用Xeon訓練他們的模型,例如一個上午、午餐時間或是過夜進行。

  • 具備Intel® Advanced Matrix Extensions(Intel® AMX)的第4代Xeon,提供顯著的開箱即用效能提升,並涵蓋多個框架、端到端資料科學工具和廣泛的智慧解決方案生態系。


MLPerf被普遍認為是最具信譽的AI效能基準測試,能夠在各款解決方案之間進行公平且可重現的效能比較。此外,英特爾已達成突破百次提交結果的里程碑,且仍然是唯一透過業界標準深度學習生態系軟體來提交公開CPU結果的供應商。

這些結果還另外突顯出,當使用具成本效益和容易取得的Intel Ethernet 800系列網路介面卡時,能夠達成優秀的擴展效能;這些網路介面卡使用以Intel oneAPI為基礎的開源Intel® Ethernet Fabric Suite Software。

更多內容:MLPerf v3.0訓練的效能指標(基準測試結果)| MLCommons宣布
▌延伸閱讀