根據微軟(Microsoft)內部一份不公開的白皮書指出,桌上型和筆記型電腦可能需要採用錯誤修正程式碼(error-correcting code,ECC)記憶體,以解決單位元(single-bit)記憶體錯誤這樣的日益增加的系統當機問題。該公司也在其WinHEC會議的座談會上提出了這個問題,不過指出其有關系統故障的資料仍不明確。
微軟約花了4年的時間透過其線上當機分析(Online Crash Analysis,OCA)工具收集數據,這些資料向微軟的網站報告了系統所出現的當機現象。大約18個月以前,微軟開始跟系統和晶片製造商分享OCA資料和上述的白皮書。而有消息指出,該白皮書的研究顯示在DRAM中的single-bit錯誤率是造成系統當機的10大原因之一。
不過微軟強調其有關系統當機的資料不能做為定論,因為OCA並沒有針對出現當機的系統類型、以及些系統所採用的記憶體類型提供足夠的數據。而為了增強OCA工具的性能,微軟正要求OEM協助提供更多的資料,並考慮在桌上型電腦和筆記型電腦中採用ECC記憶體。
目前ECC記憶體廣泛被用於個人電腦伺服器,但迄今為止,桌上型電腦、筆記型電腦和許多晶片製造商都在抵制ECC記憶體,因為它會在模組上增加額外DRAM晶片,因而增加成本,並且要升級晶片組中的記憶體控制器。
在WinHEC上,座談會聽眾中的一些系統製造商表示支援採用ECC記憶體的行動,但DRAM製造商則在座談會中仍抱持懷疑態度。
「我認為問題很嚴重,」惠普(HP)的x86伺服器部門工程師Jeff Galloway表示,微軟已經向他展示了在HP電腦上系統當機的資料,看來就是源於single-bit DRAM錯誤;而且他補充指出,這些當機的狀況是發生在不執行Windows Server作業系統的電腦上。
Galloway還表示:「整個產業要對此有所作為。微軟透過Windows Server標誌的認證,將ECC記憶體應用到伺服器之中,我認為現在也應該針對桌上型電腦和筆記型電腦採用相同的策略。」「像這樣的座談會是我們讓OEM參與我們將來要做的工作的方式之一,」主持座談會的微軟Windows Server部門首席程式經理Son VoBa表示:「ECC可能是解決問題的唯一途徑。」
single-bit錯誤的原因通常可以追溯到中子輻射(neutron radiation)的影響,這種宇宙射線(cosmic rays)會衝擊DRAM中的每一個電容器,因而改變它們的電荷狀態。不過DRAM製造商表示,那種影響實際上已經隨著時間的推移而逐漸減少,並且錯誤可能來自包括晶片組在內的各種各樣干擾源。
「在過去的幾代製程技術中,我們已經看到了軟錯率(soft error rates)的下降,」記憶體供應商美光(Micron)的市場開發副總裁Dean Klein表示。此外,包括三星(Samsung)和奇夢達(Qimonda)在內的DRAM製造商還指出SDRAM和DDR1記憶體,提供了筆記型和桌上型電腦不需要的ECC性能,因此當針對目前的DDR2記憶體來設定標準時,工程師也省略了ECC記憶體以節省成本。
一家記憶體製造商建議,較好的方式可能是在正在訂定中的DDR4介面標準中,建置一種重試機制(retry facility)。一位三星的發言人透露,DDR4工作小組已經初步討論了一種監測記憶體I/O介面的功能。
美國一家研究機構Envisioneering的分析師Peter Glaskowsky則表示,微軟早在1990年代中期就說服OEM採用ECC來克服軟錯,但卻被拒絕了,因OEM不願意為此負擔成本,也造成由Windows故障造成的系統當機比由DRAM軟錯造成的系統當機案例要多。
Glaskowsky補充,目前Windows作業系統越來越穩定,因此微軟重提上述議題確實有其意義所在。然而這次還不清楚軟錯問題是否已重要到足以讓OEM做出改變。
(參考原文:Microsoft says PCs may need DRAM upgrade)
(Rick Merritt)
微軟約花了4年的時間透過其線上當機分析(Online Crash Analysis,OCA)工具收集數據,這些資料向微軟的網站報告了系統所出現的當機現象。大約18個月以前,微軟開始跟系統和晶片製造商分享OCA資料和上述的白皮書。而有消息指出,該白皮書的研究顯示在DRAM中的single-bit錯誤率是造成系統當機的10大原因之一。
不過微軟強調其有關系統當機的資料不能做為定論,因為OCA並沒有針對出現當機的系統類型、以及些系統所採用的記憶體類型提供足夠的數據。而為了增強OCA工具的性能,微軟正要求OEM協助提供更多的資料,並考慮在桌上型電腦和筆記型電腦中採用ECC記憶體。
目前ECC記憶體廣泛被用於個人電腦伺服器,但迄今為止,桌上型電腦、筆記型電腦和許多晶片製造商都在抵制ECC記憶體,因為它會在模組上增加額外DRAM晶片,因而增加成本,並且要升級晶片組中的記憶體控制器。
在WinHEC上,座談會聽眾中的一些系統製造商表示支援採用ECC記憶體的行動,但DRAM製造商則在座談會中仍抱持懷疑態度。
「我認為問題很嚴重,」惠普(HP)的x86伺服器部門工程師Jeff Galloway表示,微軟已經向他展示了在HP電腦上系統當機的資料,看來就是源於single-bit DRAM錯誤;而且他補充指出,這些當機的狀況是發生在不執行Windows Server作業系統的電腦上。
Galloway還表示:「整個產業要對此有所作為。微軟透過Windows Server標誌的認證,將ECC記憶體應用到伺服器之中,我認為現在也應該針對桌上型電腦和筆記型電腦採用相同的策略。」「像這樣的座談會是我們讓OEM參與我們將來要做的工作的方式之一,」主持座談會的微軟Windows Server部門首席程式經理Son VoBa表示:「ECC可能是解決問題的唯一途徑。」
single-bit錯誤的原因通常可以追溯到中子輻射(neutron radiation)的影響,這種宇宙射線(cosmic rays)會衝擊DRAM中的每一個電容器,因而改變它們的電荷狀態。不過DRAM製造商表示,那種影響實際上已經隨著時間的推移而逐漸減少,並且錯誤可能來自包括晶片組在內的各種各樣干擾源。
「在過去的幾代製程技術中,我們已經看到了軟錯率(soft error rates)的下降,」記憶體供應商美光(Micron)的市場開發副總裁Dean Klein表示。此外,包括三星(Samsung)和奇夢達(Qimonda)在內的DRAM製造商還指出SDRAM和DDR1記憶體,提供了筆記型和桌上型電腦不需要的ECC性能,因此當針對目前的DDR2記憶體來設定標準時,工程師也省略了ECC記憶體以節省成本。
一家記憶體製造商建議,較好的方式可能是在正在訂定中的DDR4介面標準中,建置一種重試機制(retry facility)。一位三星的發言人透露,DDR4工作小組已經初步討論了一種監測記憶體I/O介面的功能。
美國一家研究機構Envisioneering的分析師Peter Glaskowsky則表示,微軟早在1990年代中期就說服OEM採用ECC來克服軟錯,但卻被拒絕了,因OEM不願意為此負擔成本,也造成由Windows故障造成的系統當機比由DRAM軟錯造成的系統當機案例要多。
Glaskowsky補充,目前Windows作業系統越來越穩定,因此微軟重提上述議題確實有其意義所在。然而這次還不清楚軟錯問題是否已重要到足以讓OEM做出改變。
(參考原文:Microsoft says PCs may need DRAM upgrade)
(Rick Merritt)