HT真的有增進多工效能嗎?未必..(P4 3.0E測試)

dauzone

Ride with kaze
已加入
5/25/04
訊息
1,330
互動分數
0
點數
0
年齡
46
過短的pipeline stage

短雖短也是有好處的歐,傳輸時間變的比較短阿.

Intel每年在行銷預算砸下大筆費用,現在宣傳預算大都移植到Laptop上去了<Centrino>,藉由廣告洗腦讓世人普遍接受只有Intel可以提供無線、強大的運算能力,就連我的長輩也都指明要Intel產品,可見其行銷手法對於一般消費者還是有用的。 B)

不過PCI-E和SATA不應該只是配合Intel而出的,目前的PCI在頻寬上實在不夠用,PATA的能力也達到一定的程度,在CPU和RAM等產品不斷改造出新的現在,年紀已有的PCI和PATA也應該換一下.
 

Sander

高級會員
已加入
1/26/04
訊息
673
互動分數
0
點數
0
年齡
45
網站
造訪網站
Originally posted by toshiba530@Aug 9 2004, 05:58 PM
我想摸著良心說

這兩家其實都是公司

兩個都是以賺錢為目地

讓消費者掏出錢來購買商品

有的是以廣告包裝 有的是做口碑

所以當自己要花錢時最好弄清楚自己要什麼

品牌知名度的虛榮 還是你所追求的效能

就像喜歡運動的你去買了一條阿曼尼的西裝褲來打球

這遠不如買條耐吉的運動褲...
哈哈..
說的好!!!
我只能說
我不能再同意你更多了!!!
 

Sander

高級會員
已加入
1/26/04
訊息
673
互動分數
0
點數
0
年齡
45
網站
造訪網站
Originally posted by funyelin@Aug 9 2004, 06:05 PM
好 Pro 的學問 , 大大的見識真的讓在下佩服 . 當年 RAMBUS 宣稱擁有 SDRAM 和 DDR SDRAM
的技術權在下雖略有耳聞 , 但整個過程卻不若大大這麼清楚 . 這些事實充分說明 : 只擁有技術是
不夠的 ! 還必需要有商業道德才行 , RAMBUS 因野心太大才會輸的這麼慘 . 良性競爭才是進步的
原動力 , 不要盡是靠一些小手段 ( 如打侵權官司 , Intel 最常用這招... ) 排擠對手的話 ! 自然會
被市場接受 , 像 SDRAM 過渡到 DDR SDRAM 就是一個很好的例子 ! RAMBUS 的技術之高真的
沒話講 , 但改革手段太激烈 -- 再加上過高的授權金 ! 當年 RDRAM 會慘敗可由此看出一些端倪 .
P4 本身就貴了 , 還綁在一起賣的話.... 售價大概跟黃金相差不遠 ! 再加上當時的 API 普遍都沒
有用到 P4 本身的優勢 ( 就是最佳化 ) , 還有最現實的一點 : S423 的 P4 一年後就被 S478 取代
! 請問一下聰明的各位會不會去買一組價格兩萬起跳壽命卻只有一年的產品..... 可見 Intel 的政
策轉彎程度有多離譜 ! P3 時代就變三種腳位 , PPGA --> FCPGA -- FCPGA2 ( Tualatin ) 這
三種腳位搞的主機板 RD 人員人仰馬翻 , 消費者也很容易混淆到底 P3 有哪幾款產品.... 一搞錯
可是連主機板都得更換的 ! FCPGA 算是比較長壽的一組 , 一般 P3 板子不是 PPGA 和 FCPGA 兩
種可用 , 就是 FCPGA 和 Tualatin 兩種 ! 唉 ! Intel 高層到底在想什麼 , 恐怕只有他們自己最清
楚吧 ? P4 目前最欠缺的 , 大概就是那要命的耗電量吧 ? 其餘的多半都已經改善釵h , 第三季的
266 外頻 ( FSB 1066 ) 的 P4 即將問世 , 加上 HT 和 EMT64 和 Dual Channel 還有PCI-E
這幾項輔助 , P4 才具備與 K8 相抗衡的實力吧 ? :)
別這麼說..呵呵..大家討論討論 :D:
小弟的知識在這麼多版友裡還只是才疏學淺啦

Intel在平台的轉換上似乎真的是多了一點
這也是為什麼你我都會選擇AMD呀!
 

Sander

高級會員
已加入
1/26/04
訊息
673
互動分數
0
點數
0
年齡
45
網站
造訪網站
Originally posted by dauzone@Aug 9 2004, 06:26 PM
過短的pipeline stage

短雖短也是有好處的歐,傳輸時間變的比較短阿.
嗯嗯...其實講"過短"是不太對的
記得以前有看過一篇研究
說是以最常使用到的一些x86指令來做模擬
在可以做到的分支預測準確度之下
最適合的Stage深度應該是在8個stage左右

不過以現在的半導體製程可以看到
利用超大的cache來提高命中率並不是難事
可以使很長的管線一樣保持不錯的執行效率

短的管線深度
最明顯的好處便是在發生hazard的時候
比如說是塞在同一個pipeline裡的兩個指令同時對記憶體做存取
這樣便會發生hazard
其實有很多的研究都在想辦法避免hazard的發生..
或是在hazard發生之後用一些方法去recover
但是這些都太過複雜
以我所知
目前不論是Intel或是AMD的處理器都是倚賴分支預測的準確度
儘量去schedule出沒有dependency的順序來執行
這也就是x86的superscalar處理器中OOO(Out-Of-Order)的精華所在
萬一不幸還是發生了hazard
惟一的方法就是只能把塞在管線中的指令全部清掉重新再來

想想看如果已經塞到最裡面的那一道指令出了問題
Prescott就得清掉31條指令
Northwood就得清掉20條指令
K7則只會清掉12(10?)條指令
長管線的處理器會受到比較大的效能損失
短管線的處理器相對之下就比較有優勢

但短的管線也並非都沒有壞處
壞處就是工作沒有像長管線處理器那樣分的那麼細
每一個stage需要做比較多的事情
如果沒有製程提升的幫忙
可以到的頻率就沒有長管線那麼高

可以看的出來
長管線處理器的分支預測準確度對其效能非常重要
而分支預測需要大量的cache來儲存Prediction的history
這也就是為什麼Intel的Willamate(L2=256KB?128KB?)轉到Northwood(L2=512KB)的時候
效能可以有明顯的大躍進
但是AMD的T-bred(L2=256KB)轉到Barton(L2=512KB)的時候
卻沒有那麼明顯的差異

以上是小弟的一些見解跟大家拿出來討論討論
如果有說錯請各位版友不吝指正!
 

forum

榮譽會員
已加入
10/17/03
訊息
1,983
互動分數
0
點數
0
Originally posted by Sander@Aug 9 2004, 04:13 PM
看到大大的測試又來為HT抱不平了 :lkl:

HT是很好的行銷手段
用"花一顆CPU的錢得到兩顆CPU"真的很吸引人
不過也有點誤導消費者的傾向

想想看
一個CPU內部的執行單元並沒有變多
怎麼可能一顆變兩顆
只是program counter多了一個啊

是因為P4的時脈如此之高
研究發現很多時候..內部執行單元是閒置的
如果能儘量塞滿這些執行單元..效能不就提高了?

但問題發生了..
HT只有在多工的時候有效
因為要在"執行多個不同類型的程式"時才有用
因為如果執行的程式都必須用到同樣的執行單元
那些閒置的執行單元還是不能夠利用
HT開啟的話反而會因為多做了一些無謂的scheduling而讓效能下降
這點在HT問世的時候就有人提過了

為什麼要做Scheduling?因為兩個thread不能夠互相衝突
因此在搶執行單元的時候也必須有機制來安排
才不會讓兩個thread都crash掉

看到大大的測試
我想可能是因為沒有開太多"不同類型"的程式
所以讓HT沒有發揮其效能所致

以上是小弟一些拙見
若有說錯請大大指正
P4 HT 用Round Robin 來玩
 

chinjim

榮譽會員
已加入
10/31/03
訊息
1,102
互動分數
0
點數
0
Originally posted by Sander@Aug 9 2004, 04:00 PM
個人覺得funyelin大講的很多是對的
不過我認為AMD在0.13製程之下生不出更高的CPU是可以預料的事
AMD的0.13製程可以說是一點也不差
甚至可以說比Intel的還好
AMD的半導體製程本來就很不錯
0.18使用銅製程...0.13使用SOI
T-bred B版甚至還用到9 Layer Metal..
並不是AMD製程不好啊!
應該說是CPU架構的問題

因為Intel和AMD兩家公司所走的路是分道揚鏢的
個人認為這是一種trade off
想要CPU的效率高,時脈也高
在不增加execution pipelines和同樣的製程下
可以說是很困難的
所以AMD選擇了以高效率彌補低時脈的不足
Intel則選擇了以高頻率來彌補低效率

雖然自己也是AMD Fans
不過每次看到有人說同時脈下P4被K7巴假的
還是會替P4抱不平
P4本來就是要設計拉高時脈來補足效能的
20 stage的pipeline在產生hazard的時候
overhead可是非常大的
因此才要高頻率來彌補
反觀K7...印象中才10或12個stage
良好的架構使其效能強勁
不過過短的pipeline stage卻使其拉不高時脈
所以才可以看到K7拉到2.2GHz後已是極限了

P3 Tualatin註定是要被淘汰的
以P6架構想要再拉時脈是很難的
可以看到即使從0.18轉進0.13
Tualatin也只能到1.5GHz左右
剛轉進P4的效能當然很差
但是這只是過渡期
當P4時脈可以拉起來的時候
才是P4大放光芒的時候

這次Prescott就做的非常漂亮
雖然pipeline再增加到31個stage
不過利用更大的Cache和SSE3來彌補其不足
讓同時脈的Prescott"在很多效能測試軟體中"不會輸Northwood太多
但如果看看舊一點的測試軟體..像是沒有支援SSE3的CPUMark99
就可以看的出來..Prescott的效能沒有想像中強勁

不過這次Intel是失誤了
沒有想到90nm就已經遇到嚴重的leakage current問題
所以自知再提升時脈下去是一條死路
因為leakage current的高熱量再加上高時脈
die又繼續小下去
以這樣的energy density大概往後沒有東西可以穩定的散熱了
因此Tejas計畫的取消可以看出Intel的路線慢慢回歸"提高效率"一路了
雙核心是一個不錯的路..AMD和Intel這點又一致了

我只是想說
"新產品效能卻開倒車"這樣的情況
也只有改朝換代的時候會短暫的出現
以現在P4的效能..也不會有人取笑它了
以同樣時脈去比較P4和K7是不太公平的

以上是小弟的一些拙見
若有說錯請各位大大不吝指正!
我記得K7 是12個stage,而P3才是10個stage,如果沒有記錯的話啦!!
我覺得K7不將時脈繼續向上拉,應該也是碰到製程上的問題吧!要不然AMD怎麼可能
在K8還沒有出現之前,讓FSB800+HT 的Northwood蠶食鯨吞以前ATHLON所吃下來的市場咧!我也不贊成用同一時脈來比較,架構不同,比較好像沒有什麼意義咧!!
 

Sander

高級會員
已加入
1/26/04
訊息
673
互動分數
0
點數
0
年齡
45
網站
造訪網站
Originally posted by forum@Aug 9 2004, 08:01 PM
P4 HT 用Round Robin 來玩
Wow..是真的嗎?
所以P4的HT還真的是簡單就是美啊!
 

Sander

高級會員
已加入
1/26/04
訊息
673
互動分數
0
點數
0
年齡
45
網站
造訪網站
Originally posted by chinjim@Aug 9 2004, 09:21 PM
我記得K7 是12個stage,而P3才是10個stage,如果沒有記錯的話啦!!
我覺得K7不將時脈繼續向上拉,應該也是碰到製程上的問題吧!要不然AMD怎麼可能
在K8還沒有出現之前,讓FSB800+HT 的Northwood蠶食鯨吞以前ATHLON所吃下來的市場咧!我也不贊成用同一時脈來比較,架構不同,比較好像沒有什麼意義咧!!
嗯...剛開始的T-bred A版
應該是碰到了Layout的問題
本來用的7層Metal不夠用
所以又重新layout了一顆T-bred B版
用到了9層Metal

要知道連prescott都沒用到9層Metal啊
所以說T-bred B版可以ㄍㄧㄥ到2.xGHz的時脈
已經可以說是K7的極限了
 

dauzone

Ride with kaze
已加入
5/25/04
訊息
1,330
互動分數
0
點數
0
年齡
46
這一篇討論非常有深度... :QQQ: 沒有爭論只有討論..很棒歐.
我認為藉由提升時脈下去提升效能不如從架構上去調整來的有效,不過通常調整架構所需的成本實在是太大了.所以廠商通常會把一個架構利用好幾個世代才做改變.
從AMD K6-2到K7加入Alpha的技術後就可以知道CPU架構對於效能影響之大. :sun:
Intel如果願意把Dothan搞成桌上型的CPU(價格、Socket形式)那我真的很期待歐.
 

chinjim

榮譽會員
已加入
10/31/03
訊息
1,102
互動分數
0
點數
0
Originally posted by dauzone@Aug 10 2004, 09:53 AM
這一篇討論非常有深度... :QQQ: 沒有爭論只有討論..很棒歐.
我認為藉由提升時脈下去提升效能不如從架構上去調整來的有效,不過通常調整架構所需的成本實在是太大了.所以廠商通常會把一個架構利用好幾個世代才做改變.
從AMD K6-2到K7加入Alpha的技術後就可以知道CPU架構對於效能影響之大. :sun:
Intel如果願意把Dothan搞成桌上型的CPU(價格、Socket形式)那我真的很期待歐.
我個人覺得效能的增加是其次,耗電量我是覺得是兩大廠商要努力的目標。
希望兩大廠商可以做出小於50W的桌上型CPU,這樣對於能源的利用也比較好 :)
 
▌延伸閱讀