NVIDIA Research 人工智慧模型, 虛擬世界中增添 3D 物件和人物角色

在 NVIDIA Research 開發出全新人工智慧 (AI) 模型後，越來越多公司及創作者可以將各種 3D 建築物、車輛和人物角色置入他們打造的龐大虛擬世界中。

NVIDIA GET3D 單純使用 2D 影像進行訓練，便能產生出極為逼真的紋理和具複雜幾何細節的 3D 形狀。用戶使用與熱門繪圖軟體應用程式一樣的格式來建立這些 3D 物件，可以立即把這些形狀匯入 3D 渲染器和遊戲引擎中，進行後續編輯工作。

產生出的物件可用來呈現出 3D 形狀的建築物、戶外空間或整個城市，供遊戲、機器人、建築和社群媒體等業界使用。

GET3D 可以按照用來訓練它的資料產生出不限數量的 3D 形狀。就像藝術家精緻細膩的雕塑黏土一樣，GET3D 模型將數字轉變成複雜的 3D 形狀。

像是使用 2D 汽車圖片的資料集來訓練 GET3D 模型，它會建立出 3D 形狀的轎車、卡車、賽車及小貨卡等車輛。使用 2D 動物圖片來進行訓練時，它就會產生諸如 3D 形狀的狐狸、犀牛、馬和熊等動物。而使用 2D 椅子圖片進行訓練時，它則會產生各種 3D 形狀的轉椅、餐椅和舒適的躺椅。

NVIDIA AI 研究部門副總裁 Sanja Fidler 表示：「GET3D 模型讓我們更離大眾化使用 AI 來創作 3D 內容更近了一步。它能夠即時產出帶有紋理的 3D 形狀，這對開發人員來說或許會顛覆過去的遊戲規則，協助他們快速在虛擬世界中加入各種有趣的物件。」Sanja Fidler 同時也是 NVIDIA 位於多倫多的 AI 研究實驗室的主管，這項工具就是由該實驗室所開發。

11 月 26 日至 12 月 4 日在紐奧良與線上舉行的神經訊息處理系統大會 (NeurIPS) 上，NVIDIA 將發表超過 20 篇論文並舉行多場研討會，GET3D 便是其中之一。

虛擬世界需要搭配 AI 來創造

現實世界具豐富樣貌，街道兩旁是獨一無二的建築，各種車輛呼嘯而過，形形色色的人群穿梭其中。用人工方式模擬出一個能反映這些特色的 3D 虛擬世界須花費不少時間，而難以在此數位環境中添加各種細節。

AI 模型在建立 3D 虛擬世界時雖然比過去用人工的方法更快，但仍不夠精細。就算最新的逆向渲染法也只能根據從不同角度拍攝的 2D 影像來產生出 3D 物件，開發人員一次只能建立一個 3D 形狀。

GET3D 就不同了，在一個 NVIDIA GPU 上進行推論時，一秒鐘大概能產生 20 個形狀，其運作方式就像是用於產生 2D 影像的生成對抗網路，同時產生 3D 物件。使用規模愈大、內容越多樣化的資料集來訓練它，便能輸出更多元精細的內容。

NVIDIA 的研究人員使用從攝影機不同角度拍攝 3D 形狀的 2D 圖片合成資料來訓練 GET3D 模型，他們在 NVIDIA A100 Tensor 核心 GPU 上處理 100 萬張圖片，僅用了兩天時間就完成訓練工作。

使創作者能夠修改形狀、紋理和材質

GET3D 的名稱源自於其能生成清晰紋理 3D（Generate Explicit Textured 3D）網格，意味著用三角網格來建立各種形狀，就像是混凝紙漿模型上面覆蓋著紋理材料。這讓使用者可以輕鬆把物件匯入遊戲引擎、3D 建模器和電影渲染器中並進行編輯。

創作者把 GET3D 產出的形狀匯出至繪圖應用程式，便能在物體於場景中移動或轉動時加上逼真的照明效果。開發人員將 GET3D 搭配 NVIDIA Research 的另一項 AI 工具 StyleGAN-NADA，就可以用文字描述替影像加上特定風格，例如將渲染出的汽車變成燒毀的汽車或計程車，或是把正常的房子變成鬼屋。

研究人員指出日後的 GET3D 版本可使用攝影機姿勢預估技術，讓開發人員能使用真實環境的資料 (而非合成資料) 來訓練模型。研究人員還將改進 GET3D 模型以支援通用生成技術，開發人員便能一次使用各種 3D 形狀來訓練GET3D，而非一次用一種物件類別來進行訓練。

敬請觀看 NVIDIA 創辦人暨執行長黃仁勳在 GTC 大會的主題演講重播，以取得 NVIDIA AI 研究成果的最新動態。