顯示卡 CPU、GPU及工藝三重升級，Kaveri APU詳解

wu999 · 7/5/13

　　雖然AMD每年都在升級CPU或者APU產品，但是不論是Richland APU還是Vishera FX處理器都是架構優化，制程工藝也沒有升級。即便是Jaguar架構的Kabini、Temash APU也只是工藝升級，架構升級只是從K10精簡變成了推土機精簡而已，AMD要想給大家新的希望，就必須拿出更有分量的產品。

　　這個產品就是Kaveri APU，它身上有很多第一：第一個支持HSA異構運算的APU、第一個真正使用GCN架構GPU核心的APU、第一個使用Steamroller架構CPU核心的APU，而且Kaveri APU也會升級28nm工藝。至少在這些表面的光環加持下，Kaveri APU要比AMD其他產品更值得期待。

　　之前我們已經有過太多的Kaveri APU爆料了，從架構、工藝升級再到FM2+插槽、A88X晶片組等皆有涉及。日本PCWatch專欄作者後藤弘茂日前又對Kaveri APU的架構做了深入分析，其中也談到了Steamroller架構以及與Intel處理器的一些對比，來看一下。

Kaveri APU工藝進化：32nm SOI到28nm Bulk

　　介紹架構之前，首先來看Kaveri APU的工藝變化，大家知道的是Kaveri會從AMD萬年不變的32nm升級到28nm，但是準確來說這是從32nm SOI工藝到28nm Bulk工藝的變化，不僅僅是制程變化。

　　從SOI轉向Bulk工藝是AMD早前就已經定下的，去年的WSA晶圓供貨會議上AMD就有此表態。他們從130nm節點就開始跟IBM聯合開發SOI（絕緣體上矽）技術，不過在32nm SOI階段，從AMD分離出去的Globalfounderies遇到了困難，第一代Llano APU就遇到了大坑，或許這也是AMD放棄SOI轉向更普遍的Bulk工藝的原因之一。

　　後藤弘茂稱轉向28nm bulk工藝之後，電晶體的性能沒有什麼損失，制程從32nm升級到28nm之後還可以提升電晶體密度，相比前幾代APU，這一次制程工藝升級這對APU來說也是一個跳躍。

隨電晶體增長而變化的GPU規模

　　制程工藝升級之後電晶體密度更大，Kaveri APU上可以容納的電路單元更多，所以其電路規模也顯著擴張。Trinity/Richland APU使用的Piledriver打樁機核心只是推土機架構的小改款，而Steamroller壓路機則是推土機的大改。

　　Kaveri中的GPU核心也是如此，從之前的VLIW 5/4體系提升到更高效的GCN架構，流處理器單元更多，緩存更大。舉例來說，之前的APU中流處理器單元最多384個，而Kaveri APU的流處理器單元是512個（從之前的Berlin APU推測而來），提升了33%。

Steamroller架構改進：改進雙路並行解碼單元

　　Kaveri APU使用的CPU核心是Steamroller，這是繼推土機Bulldozer、打樁機Piledriver之後的第三代模組化架構，之前我們已經有文章詳細介紹過了Steamroller架構的改進，詳情可以參考：推土機三世能否翻身，Steamroller聚焦性能提升。

　　後藤弘茂原文也提到了一些Steamroller架構的改進，簡單來說下。之前的Bulldozer推土機架構使用的模組化設計，每個模組內由2個整數單元和1個彈性浮點單元組成，不過這兩個整數單元使用的一個解碼器，雖然降低了設計難度，但是這種前端設計在應付兩個執行緒時是有問題的。

　　Steamroller的改變就是設計了兩個並行的解碼器，每個整數單元都有自己的解碼單元，這樣一來每週期內每個執行緒可執行的整數指令提升了25%，此外Steamroller架構的存儲系統也做了增強，提升了IPC（每週期指令）性能。

前端設計改進

單核執行單元性能提升

Steamroller架構要點：提升每瓦性能比

推土機架構與Steamroller架構對比

GPU架構改進：512個GCN流處理器單元

　　再來看Kaveri AP中的GPU核心的變化。雖然之前AMD已經在Richland APU中把整合的集顯升級到了HD 8000系列，但他們說起來都是VLIW 5/4架構的馬甲，Kaveri APU中的GPU才是真正的GCN架構。

　　Kaveri APU中的MAD（乘積加）單元是512個，因為GCN架構中64個MAD單元為一組CU計算單元，所以Kaveri APU使用的是8組CU單元，512個流處理器單元。此前Lllano APU中有320個流處理器單元，Trnity/Richland最多384個，不過他們都是VLIW體系的，Llano的320個流處理器單元只相當於80個1D單元，與Kaveri APU的512個不可同日而語。

　　512個GCN流處理器元的Kaveri APU理論上大約能帶來1TFLOPS的性能。此外，Kavri APU的GPU不僅僅是33%的數量增長，與VLIW體系相比，GCN架構的性能也會更強。

　　這張表格是AMD 40nm和28nm工藝下的不同GPU核心的規模，可以對比下Kaveri APU所出的位置。
　　另外，Kaveri APU有512個流處理器單元，這個數量大約是PS4所用的、1152個流處理器單元的APU的一半，PS4的浮點性能為1.8TFLOPS，不過Kaveri還在使用DDR3記憶體，受頻寬所限，所以其性能是達不到PS4一半的水準的。

Kaveri的內部匯流排變化

目前的Trinity APU的內部匯流排系統

　　Kaveri APU之前的APU都有兩條內部匯流排，一條是Radeon Memory Bus（代號Garlic大蒜），它主要用於獨顯與集顯GPU連接。另外一條匯流排是Fusion Compute Link（代號Onion洋蔥），它主要用於集顯與CPU連接，在PS4上使用的匯流排系統也是這兩條匯流排的擴展版。

　　在Kaveri APU上這一切都改變了，因為Kaveri支持AMD的hHMA異構統一定址技術，CPU和GPU可以通過虛擬的統一定址空間共用資料，因此Garlic和Onion匯流排都被淘汰了。

　　AMD CTO以及高級GPU架構師也對這種高度集成的匯流排表示了讚賞，認為這樣的設計要比之前的雙匯流排設計更高效，資料共用更容易，程式設計開發更簡單。

與IVB、Haswell的比較

　　Kaveri雖然升級到了28nm工藝，但是與Intel的22nm 3D電晶體工藝相比依然處於弱勢，這裡就對比了三代APU以及Intel最近三代CPU的工藝及核心面積情況。

　　在32nm節點，Intel SNB架構的4核+GT2處理器核心面積在216mm2，AMD的Llano 4核大約是228mm2，雙方相差不大。到了22nm 3D電晶體時代，Intel的IVB 4核+GT2處理器的核心面積降低到了160mm2，而且GPU性能幾乎翻倍，而Hasewll時代4核+GT2核顯的面積約為177mm2，而且GPU性能更強，相比32nm時代其核心面積只有原來的74-82%。

　　Kaveri APU的核心面積沒有官方資料，不過根據下圖的Kaveri APU實物測量，核心面積大約在240mm2以內，與32nm工藝的Llano/Trinity持平，這是AMD不佔優勢的地方，不過與Intel性能最好的4核Haswell+GT3e處理器的260mm2相比還算可以了。

拆開外殼之後測量的Kaveri APU核心面積

預測的AMD未來CPU核心面積

　　編者注：對Kaveri APU來說，這應該是AMD近年來首次同時升級架構及工藝，在Haswell特別是在GPU性能上快速逼近的情況下，Kaveri將擔當起AMD未來一兩年阻擊Intel的關鍵重任，反正AMD對高端FX處理器也是意興闌珊了，Steamroller架構都沒有首先應用在FX處理器上。

　　Kaveri APU會集成512個GCN架構的流處理器單元，規模相當於HD 7750了，當然最終的性能受限於DDR3的頻寬，肯定不能跟HD 7750相比，但是這樣大的提升也是值得期待的，入門級獨顯市場越來越危險啊。

　　原文談的都是一些架構上的改進，對於Kaveri APU我們現在還沒見到實物，發佈上市還得等到年底，所以其意義如何還得看實際表現，現在還無法作出評價。

資料來源

rinoalove2586 · 7/5/13

APU永遠不可能比中階的獨顯還強只能贏過2000元以下的低階顯示卡

HD7850 HD7770 GTX650TI GTX660等中階卡都比不過@@

要單機遊戲特效全開玩遊戲基本上就是需要一張中階顯示卡........APU永遠跑不順

除非是要組文書機不然玩遊戲桌機還是需要4000~6000元的中階獨顯

kme6833290 · 7/5/13

下一代的APU可以LOL 1920X1080特效全開能在會戰有45以上的水準的話

那應該是組機的好選擇

不是人人都要獨顯

MEDALCL · 7/5/13

全是規格說實在有看沒有懂
反正測試報告出來就見真章了

至於贏過中階獨顯..確實是作夢比較快
定價擺在那裡了,它還需要照顧自家顯卡市埸
我們不能期待三四千元的 APU 效能比得上當代四千以上獨顯

這方面的突破該期待 intel 有沒有這個意願

ga66728 · 7/5/13

APU這個餅可以做多大?
看看PS4 或是次世代主機
規格
8核心+GPU(特製化APU 當然跟上面所說的異質端運算完全不一樣)
也就是ALL IN ONE
全機一體包含功耗(遊戲主機完全沒有桌上型TDP功耗限制或是受限制於主機板上用料)
就連INTEL增強內顯
都會連帶TDP與功耗增加

或許桌上型定義是如此:APU永遠不可能比中階的獨顯還強(因為高階顯示卡完全賣不出去但它的定義是可以玩只是特效要關最低)

如此這樣你還會認定APU 只能作簡單的事情

當然大家期待不只是融合後的APU
而是28製程(至少INTEL的22製程表現對於超頻來說完全看不出製程的優點)

rinoalove2586 · 7/5/13

想要完BF3 BF4 刺客教條3 CRYSIS3 1080P特效全開那樣爽度才夠

但是APU做不到6000元的獨顯才做得到...........

ga66728 · 7/5/13

維基百科說
通常1080p的畫面解析度為1920×1080
只要水平掃描線超過1080條就能稱之為1080p

就像是我常說的
手機捨本逐末的強調性能而不是"使用時間" 更不是待機時間

往往強調特效全開的傢伙(當然不是指你)
他花的絕對不是只有顯示卡6000元而已
而是以上(就像是我常說的CPU強但GPU弱只有中庸才是王道)
一般人哪知道螢幕才是1080P的關鍵點

APU 算是普及了顯示卡最低標準應用層級
我不知道那些對於普及了應用層級東西不屑一顧的表情是?
就像是我對於平價的定義
我也不會如此反感兩極
那是一件好事不是嗎?

FreedomJustice · 7/5/13

等APU能做到內建7970等級的獨顯等級我再考慮買APU好了

然就算APU內顯再好都不可能特效全開跑單機大作~那買CPU比較實際點

不過組文書機APU真是好選擇

ga66728 · 7/5/13

等APU能做到內建7970等級的獨顯等級我再考慮買APU好了
這口氣就如同
等INTEL單核心CPUMARK99破1000 我再考慮買INTEL 處理器好了
反正多工處理器程式難寫
既然多核心不能發揮多工效能
完全依賴單核心效能
是不是只追求滿足單核心效能就夠了!?
那永遠都不用買了(至少依照目前製程來看即使是超頻也難以達成嘿嘿)

Godzillas · 7/5/13

這間同時擁有CPU'和GPU的大公司，快快加油，趕上英特爾吧

搜尋

顯示卡 CPU、GPU及工藝三重升級，Kaveri APU詳解

wu999

榮譽會員

rinoalove2586

初級會員

kme6833290

一般般會員

MEDALCL

進階會員

ga66728

我愛APU

rinoalove2586

初級會員

ga66728

我愛APU

FreedomJustice

初級會員

ga66728

我愛APU

Godzillas

榮譽會員

相關的主題