新聞電子科技

NVIDIA 為永續與高效能的運算推出液體冷卻式 A100 GPU



液體冷卻式 NVIDIA A100 PCIe GPU 是主流伺服器系列 GPU 中的首款液冷式產品

滿足客戶對高效能、碳中和資料中心的需求




全球各地盡一切努力遏止氣候變遷所帶來的影響,Zac Smith 盡己所長投身其中,協助打造兼具高效能及高能源使用效率的資料中心。



nvidia_a100_h100_liquid_1.jpg

圖一_NVIDIA 推出液體冷卻式 GPU

他是全球服務供應商 Equinix 的邊緣基礎設施部門負責人,該公司管理超過 240 個資料中心,致力於成為業界首間達到氣候中和的公司。

因 2000 年初為紐約市的同行音樂家夥伴建立網站而進入科技領域的茱莉亞音樂學院 (The Juilliard School) 畢業生 Smith 表示:「我們擁有 10,000 名客戶希望我們能協助他們完成這趟旅程。他們需要更多的資料與更多的智慧導入,通常是伴隨人工智慧 (AI) 的使用,而且他們希望以永續發展為目標的方式進行。」。

大幅改善效率表現

截至今年四月,Equinix 已發行 49 億美元的綠色債券。Equinix 將利用這項投資債券,以最佳化的電源使用效率 (Power Usage Effectiveness;PUE) 方式來減少對環境的影響,PUE 是衡量資料中心直接用於處理運算作業之能源使用量的產業指標。

資料中心營運商正試著將這個比例向下調整到接近 1.0 PUE 的理想值。如今,Equinix 設備的平均 PUE 為 1.48,其表現最佳的全新資料中心 PUE 數字則低於 1.2。

nvidia_a100_h100_liquid_2.jpg

圖二_依照 PUE 的測量結果,Equinix 正穩定地逐步改善其資料中心的能源使用效率

Equinix 在一月時成立專門提升能源使用效率的場域,在這方面又往前邁進了一步。液體冷卻 (液冷) 技術為該場域的工作重點之一。

問世於大型主機時代的液冷技術,在 AI 時代日趨成熟。液冷技術亦稱直接晶片 (direct-chip) 冷卻技術,廣泛用於世界上最快的超級電腦中。

液冷技術是 NVIDIA GPU 加速運算技術發展的下一步,它在 AI 推論和高效能運算的效能表現較 CPU 高出 20 倍。

透過加速以提高效率

若將所有全球運行 AI 及高效能運算的純 CPU 伺服器轉換成 GPU 加速系統,每年將可省下高達 11 兆瓦特小時的能源,相當於省下一年 150 萬個家庭所消耗的能源。

NVIDIA 今天發表首款採用直接晶片冷卻技術的資料中心 PCIe GPU,將進一步推動永續發展。

Equinix 正在對 A100 80GB PCIe 液冷式 GPU 進行資格認證,以便用於該公司的資料中心,並作為永續冷卻和熱捕獲綜合方法的一部分。NVIDIA 現正提供該 GPU 的樣品給客戶,預計將於今年夏季正式上市。

節水省電

Smith 表示:「這象徵著我們的實驗室將引進首款液冷式 GPU,這令我們非常期待,因為我們的客戶一直希望能以符合永續發展的方式使用 AI。」

資料中心營運商的目標是淘汰冷水機的使用,冷水機每年以蒸發數百萬加侖水的方式來冷卻資料中心內的空氣。液冷系統卻可在封閉系統中循環少量液體,將重點著重於排除關鍵的熱點。

Smith 補充:「我們將把廢棄物變成資產。」

使用更少的能源,達到相同的效能

Equinix 與 NVIDIA 在個別的測試中都發現,使用液冷技術與使用氣冷技術的資料中心相比,兩者可以執行相同的作業負載,但前者的能源消耗減少約 30%。NVIDIA 預估使用液冷技術資料中心的 PUE 值可以達到 1.15,遠低於使用氣冷技術資料中心的 1.6 PUE 值。

使用液冷技術的資料中心也能在相同的空間處理兩倍的運算量,原因在於液冷式 A100 GPU 只用了一個 PCIe 插槽,而氣冷式 A100 GPU 則使用兩個 PCIe 插槽。

nvidia_a100_h100_liquid_3.jpg

圖三_NVIDIA 觀察到液冷技術具有省電及提高密度的優勢

至少有超過十家系統製造商計畫於今年下半年將這些 GPU 導入至旗下產品線。這些製造商包括華碩 (ASUS)、永擎電子 (ASRock Rack)、富士康工業互聯網 (Foxconn Industrial Internet)、技嘉科技 (GIGABYTE)、杭州華三通信技術 (H3C)、浪潮 (Inspur)、英業達 (Inventec)、Nettrix、雲達科技 (QCT)、美超微 (Supermicro)、緯穎科技 (Wiwynn)與 xFusion。

全球趨勢

亞洲、歐洲和美國正在制定能源效率標準的法規,這也促使銀行和其他大型資料中心營運商開始評估液冷技術。

液冷技術並不限於資料中心的使用,汽車和其他系統同樣需要用它來冷卻嵌入在密閉空間內的高效能系統。

邁向永續發展的道路

Smith 在談到液冷主流 GPU 的首次亮相時表示:「這是旅程的起點。」

我們計畫在 A100 PCIe 卡的基礎上,於明年推出採用基於 NVIDIA Hopper 架構H100 Tensor 核心 GPU 版本。NVIDIA 計畫在可預見的未來,於高效能資料中心 GPU 和 NVIDIA HGX 平台上支援液冷技術。

當前的液冷 GPU 可以提供相同的效能表現,但能源消耗卻更低,而這將有助於業界加速採用液冷 GPU。NVIDIA 預期這些 GPU 將為用戶帶來在相同的能源消耗下,獲得更多效能的選擇,而這也是用戶一直以來想要的方案。

Smith 表示:「只單測量瓦特數是沒有意義的,你所獲得的碳影響效能才是我們要推動的目標。」

欲了解更多相關資訊,請參考 A100 PCIe 液冷式 GPU
▌延伸閱讀