[更新]C1 家族之Intel Pentium D processor 測試

coolaler

FANGBING LO (Robinson Lo)
已加入
9/17/03
訊息
53,114
互動分數
632
點數
113
位置
Taichung
網站
www.coolaler.com
D960尊容

1.JPG


2.JPG
 

coolaler

FANGBING LO (Robinson Lo)
已加入
9/17/03
訊息
53,114
互動分數
632
點數
113
位置
Taichung
網站
www.coolaler.com
12KUOP????
 

coolaler

FANGBING LO (Robinson Lo)
已加入
9/17/03
訊息
53,114
互動分數
632
點數
113
位置
Taichung
網站
www.coolaler.com
coolaler 說:

1.gif


Cache 存在的原因是基於程式碼有所謂的時間局部性 (Temporal Locality)與空間局部性 (Spatial Locality),而其中的時間局部性意指在短時間內相同的程式碼被執行的機率是很高的(例p loop )。傳統的 Level 1 Instruction Cache ,乃是存放尚未解碼的的原始機械碼 (machine code) ,然而 Trace Cache 卻是存放已解碼 (decoded) 過的微指令 (micro operation, uop),以供分配單元 (dispatch unit) 分派給對應的執行單元 (execution unit) ,例如獨立存在的邏輯算數、浮點運算、記憶體存取執行單元。

指令解碼器的數量,是影響同時執行指令個數的前端關卡,因為指令解碼器越多,代表越多的 uop 會被產生,可由 dispatch unit 分派給對應的 execution unit。然而不同於固定長度指令的處理器, x86 的可變長度指令會造成指令解碼器的電路複雜度與耗電量比前者來得高,需要更多的時間,不利於拉高時脈。 Intel 據此採用Trace Cache 的設計,減少 decoder 數量,以維持效能、達到易於提升時脈、減少電路複雜度及耗電量的目的。

前代 P6 核心,自 PentiumPRO 至 PentiumIII,採用 4-1-1 的解碼器架構(一個複雜指令解碼器,兩個簡單指令解碼器),亦即在一個時脈週期 (clock cycle) 最多可以對三個連續的 machine code 解碼,其中兩個解碼器只能解碼出只含一個 uop 的 machine code ,另一個則可對含有四個以下 uop 的 machine code 做解碼動作,但要是遇到含有超過四個 uop 的complex machine code ,則需要更多時脈被解碼。而 Pentium4 只有一個複雜指令解碼器針對 Trace Cache miss 的情況下由 Level 2 Cache 擷取指令做解碼動作再將 uop 送至 Trace Cache 存放。接著,兩者對uop 均會由 dispatcher 負責分派 uop 至相對應的 execution unit。

出處
 

coolaler

FANGBING LO (Robinson Lo)
已加入
9/17/03
訊息
53,114
互動分數
632
點數
113
位置
Taichung
網站
www.coolaler.com
雙Superpi32M測試 :)

2.gif
 

Jee

榮譽會員
已加入
10/25/05
訊息
3,528
互動分數
0
點數
36
年齡
41
顆顆上4.5G..!!
顆顆溫度40左右..!!
期待D 960 C1的表現~~
 

hardballqq

高級會員
已加入
9/28/05
訊息
831
互動分數
0
點數
0
coolaler 說:
1.gif


Cache 存在的原因是基於程式碼有所謂的時間局部性 (Temporal Locality)與空間局部性 (Spatial Locality),而其中的時間局部性意指在短時間內相同的程式碼被執行的機率是很高的(例如 loop )。傳統的 Level 1 Instruction Cache ,乃是存放尚未解碼的的原始機械碼 (machine code) ,然而 Trace Cache 卻是存放已解碼 (decoded) 過的微指令 (micro operation, uop),以供分配單元 (dispatch unit) 分派給對應的執行單元 (execution unit) ,例如獨立存在的邏輯算數、浮點運算、記憶體存取執行單元。

指令解碼器的數量,是影響同時執行指令個數的前端關卡,因為指令解碼器越多,代表越多的 uop 會被產生,可由 dispatch unit 分派給對應的 execution unit。然而不同於固定長度指令的處理器, x86 的可變長度指令會造成指令解碼器的電路複雜度與耗電量比前者來得高,需要更多的時間,不利於拉高時脈。 Intel 據此採用Trace Cache 的設計,減少 decoder 數量,以維持效能、達到易於提升時脈、減少電路複雜度及耗電量的目的。

前代 P6 核心,自 PentiumPRO 至 PentiumIII,採用 4-1-1 的解碼器架構(一個複雜指令解碼器,兩個簡單指令解碼器),亦即在一個時脈週期 (clock cycle) 最多可以對三個連續的 machine code 解碼,其中兩個解碼器只能解碼出只含一個 uop 的 machine code ,另一個則可對含有四個以下 uop 的 machine code 做解碼動作,但要是遇到含有超過四個 uop 的complex machine code ,則需要更多時脈被解碼。而 Pentium4 只有一個複雜指令解碼器針對 Trace Cache miss 的情況下由 Level 2 Cache 擷取指令做解碼動作再將 uop 送至 Trace Cache 存放。接著,兩者對uop 均會由 dispatcher 負責分派 uop 至相對應的 execution unit。

出處
原來uop指的是微指令阿 ;em03;
感謝C大的詳細解說!
 

coolaler

FANGBING LO (Robinson Lo)
已加入
9/17/03
訊息
53,114
互動分數
632
點數
113
位置
Taichung
網站
www.coolaler.com
4.7G雙Superpi32M測試 :)

3.gif
 

alim628

初級會員
已加入
3/2/04
訊息
40
互動分數
0
點數
0
目前市面上都是B1的耶....
啥時C1會上市ㄚ?
有點忍不住要下手了...^^..
 

59410tsc

進階會員
已加入
9/23/03
訊息
433
互動分數
0
點數
0
不在意保固~主機板又可以跑300外頻的話
目前上市的這批930 C1 ES真是超值首選5500元左右
比940 C1 ES強
尤其這批可以耐高外頻
我的P5LD2原來可以衝上333.之前配6x1及9x0到307就了不起了
配這930 C1 ES 跑1.4625v+mod 可以333*15=5G進bios
可惜CQ8壓不不住了
進WINDOWS約4850~4900
實用約在4.7G~可以雙PI 32M OK SP2004*2半小時
夏天到了電費要漲了~平常應該跑4.5G
3.0G超4.5G就很爽了

940 C1同平台只能到4850進BIOS
唯一的優勢是多1倍頻
 

hardballqq

高級會員
已加入
9/28/05
訊息
831
互動分數
0
點數
0
樓上之意
是說這一批930 C1 ES
體質很棒囉?
 
▌延伸閱讀