機房出現異常的時候該怎麼做?

根據錯誤碼確定是什麼硬體出了故障,對系統來講,原則上必須業務切換使得損壞伺服器離線不影響用戶使用的情況下,然後修復故障機器,恢復系統。

一、機房環境

1.溫度與濕度: 最佳工作溫度:20-25攝氏度 極限工作溫度:10-40攝氏度 濕度: 8-80%(在23攝氏度條件下)。

2.同時機房要保證伺服器清潔. 機房應保持伺服器清潔,若空氣灰塵過多,很容易造成資源讀寫錯誤及磁碟機中磁碟或讀寫磁頭毀損。定時使用皮老虎、刷子清除伺服器灰塵。

載入超時,點擊重試

二、電源

電壓:要求電壓穩定, 尖峰電壓會損壞設備

電壓範圍:220V +/- 10%, 即200-240V, 50-60Hz

電源功率:視機器類型和系統配置而定

電源線:標準的零, 地, 火三相電, 其中零, 地電壓不得超過3.0V.

電源接駁:用符合電流要求的空氣開關或其他設備和主機電源線接駁,保證計算機系統的可靠工作應使用穩壓電源和UPS,對於冗於電源的接入,採用兩路單獨輸入.

三、硬體檢查

檢查伺服器、磁陣的安裝、電源線主機接線符合要求。

伺服器狀態檢查:

1.當伺服器處於啟動和正常工作狀態時,其前面板上的液晶顯示屏上應無信息顯示。

2.當液晶顯示器上出現帶數字和字母的信息時,說明有硬體告警。可以通過查詢相關機型的面板報警數字信息查到相應告警原因,情況嚴重的,則要立即通知伺服器廠商進行問題排查。

3.當伺服器的狀態燈出現橙黃色時,說明有硬體告警,此時要檢查磁櫃的電源、接線、硬碟等。如果有硬體故障則立即進行更換和更正,如果查不出具體問題,則需要聯繫相關廠商進一步診斷。

4.當硬碟工作正常時,與各硬碟對應的硬碟燈會呈綠色,如無讀寫,則綠燈一直亮,如該硬碟有讀寫操作,則綠燈會不規則閃爍,當硬碟損壞時或RAID出現問題時,則硬碟狀態燈將熄滅,或者呈閃爍狀態:以1~3秒的頻率有規律地、不停地閃爍。

四、系統日常維護流程

(一)系統啟動

系統啟動正常順序如下: 首先對外設(磁碟陣列、磁帶庫等)加電。 待所有外設加電自檢完成後,主機加電正常起機。主機加電後,才能按POWER鍵起機.

(二)系統關閉 伺服器系統關閉時,需要確認伺服器的服務是否對現網業務有影響,同時需要對關閉的伺服器運行中的程序進程確認,明確軟體安全的關閉步驟,在進行關機操作。

2.3系統與數據備份

有效及時的系統備份是系統管理的非常重要的一環。當系統出現故障時,特別是文件系統被嚴重損壞或硬碟損壞時,常需要使用系統備份來恢復系統。在以下情況下應做系統備份:

1.新裝機。在硬體及系統軟體安裝完成後,應做系統備份。

2.軟體改動。系統軟體或應用軟體有改動時,應做系統備份。

3.定期備份。對系統進行定期備份,最好每三個月做一次備份

2.4 系統恢復

當系統發生比較嚴重的故障以致採取一般性維護手段不能在短期內恢復原系統,與上級確認後,可將最近一次的系統備份倒回機器內以全面恢復系統到最近一次做備份時的系統環境,然後可將當日的數據備份再倒回系統內。至此,系統可恢復正常運行。此後,應當廠商再進行整個事件的全面分析與回顧,以期找到故障發生的原因,並採取相應措施以杜絕類似事件再次發生。

(三)安全工作守則

a.統定期進行系統備份。

b.當有系統變更或進行操作系統補丁安裝的時候,必須作一次系統備份。

c.在發現有硬碟故障的時候,注意當天的數據備份。在更換硬碟的時候,請確認當天數據備份已經完成。

d.在更換敏感的電子元件,時候一定要防靜電。

e.在插拔外圍設備的時候,請把外圍設備下電。

f.在進行文件刪除的時候,請留意當前路徑是否正確。

g.在進行文件解壓縮的時候,請留意參數和路徑。

五、類、故障定位、故障排除

根據實際運行的系統中碰到問題,總結出了以下幾種常見故障及其定位方式和解決方法。

1.硬體故障

硬體故障有很多種,對系統產生的影響也不一樣,這裡按其故障對系統的影響程度分:致命影響的硬體故障和隻影響功能的硬體故障兩類進行硬體分類:

其損壞對系統產生致命影響(將使機器宕機或無法啟動)的硬體包括:

主板、CPU、RAID卡、電源模塊、風扇、本地硬碟、內存損壞等等

這些設備的損壞等將使系統無法完成自檢、引導和啟動,液晶顯示屏上都將有錯誤信息,可根據液晶顯示屏上的錯誤碼對照錯誤原因,如果是工作狀態下出現這些硬體損壞,則系統將被掛起或宕機。

其損壞對僅對系統產生功能影響(機器不會宕機並能正常啟動)的硬體包括:

網卡、本地硬碟有壞塊、顯卡、和其他外圍設備 這些設備的損壞隻影響特定功能,如網路功能、顯示功能、訪問磁陣的功能等,對於本地硬碟有壞塊的情況,則要看壞塊中是否包含了重要的系統文件,如果不是重要系統文件,則系統功能不受影響,但也建議立即更換該硬碟。

故障定位和排除: 液晶屏上的錯誤碼

根據錯誤碼確定是什麼硬體出了故障,對系統來講,原則上必須業務切換使得損壞伺服器離線不影響用戶使用的情況下,然後修復故障機器,恢復系統。

2.磁陣故障

磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據不完全統計,其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環節包括:

磁陣硬碟、主機上的RAID卡、與主機相連的SAS線、硬碟的位置和接線方式、以及盤櫃使用的電壓及周圍磁場、磁陣/硬碟/RAID卡等都可能造成異常。

磁陣的問題是最複雜的,一般有物理損壞的原因也有環境原因,這是主因,如接線、插盤位置不符合要求、未及時查看系統告警等造成系統中斷等輔因。按照經驗,不管是什麼硬體故障導致故障,系統都會產生告警,如果能及時發現問題並採取措施,如果存在硬體故障時,可從狀態燈上觀察到:

當單塊硬碟出現故障或未被使用時,其面板上的硬碟狀態燈會不亮 陣列的狀態燈黃燈會亮 伺服器的磁陣所配置的RAID卡一般都帶有一塊充電電池,該電池用於在突然停電的情況下。