顯示卡 AMD顯卡: AMD險勝冠壓群芳 第二季度顯卡市場大比拼

xiztmoddii

一般般會員
已加入
4/8/12
訊息
166
互動分數
0
點數
0
APU要等到下一代的Kaveri核心才會有CPU和GPU的統一定址功能,目前的產品還沒有架構上的整合。


Intel的內顯通常只有跑分好看而已,Intel GPU每次看起來都進步很多,是因為原本內顯太爛了。

至於融合程度,就我的理解是這樣,有錯誤請指教。

AMD的統一循址是基於ISA架構實現,CPU GPU有共同的記憶體位置,CPU GPU可以隨時互相訪問。

Haswell網路上是說採用跟SNB Ivy一樣的環型總線,有看到Intel多加了InstantAccess。
類似像AMD的zero copy,不過AMD 2011 Llano就有類似的東西了。

http://amddevcentral.com/afds/assets/presentations/1004_final.pdf

http://www.anandtech.com/show/6863/...access-two-new-directx-extensions-for-haswell

論CPU GPU整合上,我認為AMD在進程上比Intel還要快速。

s_371959326a734981bb863fd6c0142221.jpg
 

pxhome

一般般會員
已加入
10/16/09
訊息
124
互動分數
1
點數
16
互相訪問代表快取必須同時存放兩樣東西, 就好比CFX時, 兩張顯示卡的記憶體容量不是加總,而是存放一模一樣的東西

那你認為AMD的L2的容量有多大? 學intel靠製程優勢打造海量的快取嗎? 傳統的獨立顯示卡是每個核心64KB, 而APU是512KB,而且兩個Core共用一個L3快取

L3的頻寬有多大呢? 以目前AMD的能力預設無法超越3930K的四通道DDR3

再說資料大到凡事都要往返DRAM,以NV CUDA的例子來說走外部PCIE3.0 X16 16GB/s 會比在GPU內的快取衰減20倍,這是指透過PCIE到DRAM存取資料的效能

如果GCN可以透過CrossBar使用CPU的記憶體那還是會卡在MC跟APU快取之間的傳輸,AMD稱為HyperTransport (以前intel跟AMD在傳輸技術上有尬過,跟PCIE比算是不相上下的東西)
HyperTransport 3.1頻寬25.6 GB/s也只比PCIE3.0高一些,但不超過下一代PCIE4.0 X16 32GB/s(預計2014~2105之間推出)

如果AMD不學Intel Haswell額外增加一層高速緩衝記憶體(比如說GDDR5或者更高成本的eDRAM),那也只能說改善有限。

所以AMD的PPT看看就好,實際上還是要等最終產品評測是怎麼樣

後PC時代 節能 越來越受到重視,如果X86不夠省電那也只能眼巴巴看著ARM陣營在撈錢
 

xiztmoddii

一般般會員
已加入
4/8/12
訊息
166
互動分數
0
點數
0
所以AMD的統一尋址是用ISA架構實現,不需要再次複製,CPU GPU可以直接共享尋址列表...
所有資源可以直接互相存取。
 

pxhome

一般般會員
已加入
10/16/09
訊息
124
互動分數
1
點數
16
所以AMD的統一尋址是用ISA架構實現,不需要再次複製,CPU GPU可以直接共享尋址列表...
所有資源可以直接互相存取。

200547r0k0ii869z8v788q.jpg


統一定址的好處是,不需要使用大量的旗標來指定位址

因為動態記憶體的特性是會一直改變位址, 資料每次存放的地方會不一樣,
如果需要做通用運算時必須配合排程(排隊等候上車)

hUMA設計的主要特點有:
1.雙向一致性記憶體(Bi-Directional Coherent Memory),不論是GPU還是CPU在處理器過程中對記憶體中的數據做了什麼改變,另外一方總是能立即看到更改後的數據。
2.可調頁記憶體(Pageable Memory),GPU可以處理(take)頁面錯誤,不再受頁面鎖定記憶體的限制。
3.完整記憶體空間(Entire Memory Spac),GPU和CPU可以動態分配整個記憶體空間。

主要是解決 UMA架構預先占用記憶體,如果用不到就浪費,分配不足效能低落(以往改善的做法是用驅動控制,利用API去跟系統要記憶體)

但hUMA這種異構系統GPU跟CPU的快取資料是非同步的

不需要再次複製資料的部份僅限於記憶體
 

wei4294967296

一般般會員
已加入
11/15/07
訊息
137
互動分數
0
點數
0
200547r0k0ii869z8v788q.jpg


統一定址的好處是,不需要使用大量的旗標來指定位址

因為動態記憶體的特性是會一直改變位址, 資料每次存放的地方會不一樣,
如果需要做通用運算時必須配合排程(排隊等候上車)

hUMA設計的主要特點有:
1.雙向一致性記憶體(Bi-Directional Coherent Memory),不論是GPU還是CPU在處理器過程中對記憶體中的數據做了什麼改變,另外一方總是能立即看到更改後的數據。
2.可調頁記憶體(Pageable Memory),GPU可以處理(take)頁面錯誤,不再受頁面鎖定記憶體的限制。
3.完整記憶體空間(Entire Memory Spac),GPU和CPU可以動態分配整個記憶體空間。

主要是解決 UMA架構預先占用記憶體,如果用不到就浪費,分配不足效能低落(以往改善的做法是用驅動控制,利用API去跟系統要記憶體)

但hUMA這種異構系統GPU跟CPU的快取資料是非同步的

不需要再次複製資料的部份僅限於記憶體

其實簡單的說就是要做到GPU的核心和CPU的核心是同等地位的,
目前的作法是將主記憶體分出一部分的容量給整合GPU使用,像是獨立GPU自己帶有記憶體一樣的意思,
其他部分的記憶體就是CPU使用,兩邊不能相通,若想存取對方的記憶體內容就必須繞道,
若做到了統一定址之後,兩者皆共用相同的記憶體內容,GPU在架構中的地位就和CPU一樣了,等於是另一種型態的CPU。
 
▌延伸閱讀