當前位置:首頁 > 文章

文章

機房監控新理念

長城機房  | 2012年02月19日 | 閱讀:

為了減少因環境和人為失誤造成的損失,用戶需要擁有一套先進、可靠的機房環境監控與預防系統來確保設備的安全運行。

計算機機房和數據中心支撐著各類企事業單位現代化生產體系的正常運行,一些機房甚至已成為無人值守型。在這種情況下,任何一個由于環境因素和人為失誤造成的意外系統中斷和設備損壞都會給企事業單位帶來巨大的損失。為了減少這種損失,用戶需要有一套先進、可靠的機房環境監控與預警系統來確保設備的安全運行。該系統必須能夠隨時隨地觀察到機房的情況、必須能及時地發出預防性報警、通知有關人員、采取措施、防止事故發生。

可以說,完善的機房監控系統應該具備三大特點:能夠實現從設備運行情況到機柜微環境再到機房整體環境這樣多層次的監控;能夠有豐富的閾值設置以監測出危機的存在,并能有豐富的預警方式和預警流程保證相關人員能夠收到警訊,達到預警的目的;具備網絡化、智能化,能夠隨時隨地通過網絡查看機房內的情況。

然而,傳統機房環境監控是把重點放在對機房整體環境、空調及配電柜的監控上,而忽視了對設備內部的監控。另外,傳統機房環境監控系統也缺少豐富的閾值、預警方式和預警流程設置,不能在真正意義上實現預警功能。針對傳統機房環境監控的現狀,需要引入三大新理念加以改善。

 

新理念一 對設備內部進行監控
      
機房監控的目的在于保護機房內IT系統的正常、有效運行,在事故發生之前偵測出潛在危機,并通過各種方式將警情信息發送給相關人員及時進行處理。因此,機房監控的核心應該是對IT系統運行狀態的監控,而最直接有效的監控應該是直接對IT設備運行狀態進行監控。
       IT
設備內部的運行環境,例如服務器內風扇轉速與CPU溫度等是最直接、最迅速影響IT設備正常運行的因素。有時候即使機房內空調運轉正常,機房整體環境參數值也在預設范圍內,但某服務器卻因為某種原因出現服務器內風扇的轉速不正常、CPU過熱。如果只監控機房整體環境,此時機房的管理人員是不會得到這種危險信息的,整個系統就會因為該服務器潛在危機沒有得到及時處理而意外癱瘓。
 
新理念二 多層次的機房監控
      
完善的機房監控系統應該是能夠實現對從設備運行情況到機柜微環境再到機房整體環境這樣多層次的監控,并能重點實現對設備內部的監控。
      
我們都知道,機柜內的微環境是設備正常運行所需要的物理環境。機柜微環境參數最能體現設備所處的實際運行物理環境的情況,所以實現對機柜內微環境的監控也相當重要。

機房各個點的環境參數值是不同的,因此機房內整體環境監測的參數不能體現各機柜微環境參數,更不能體現重要設備內部的環境。也就是說,即使機房整體環境參數正常,IT設備所在處的環境也不一定正常。所以說機房的整體環境監控的重要性次于對設備的監控和對機柜內微環境的監控。
      
空調機的運行是為了降低機房內的溫度,使機房內的整體溫濕度保持在一個合適的范圍內,機房各個點的溫度參數值是不同的??照{機出風口的溫度值不能說明機房的整體溫度和機柜微環境溫度,空調的正常運行不能說明設備就能正常運行。因此對空調的監控不能代表甚至取代對設備的監控。
      
漏水監測系統是為了監測機房內是否有漏水,以防止因漏水影響設備的正常運行。線式探測器是成線型布置在機房可能漏水的最低處,而實際上點式漏水探測器同樣可以反映機房的漏水情況且比線式探測器經濟實惠、安裝方便、維護簡單。
      
機房內設備由于非常重要,一般都是采用UPS供電,并且UPS是雙供電,只要對UPS進行監控就能確保設備正常供電并且能反映市電的情況。因此,對電源的有效監控是在不增加任何投資的情況下通過協議實現對UPS的監控,通過監控其電壓、電流、電池使用情況、市電情況來確保設備的正常運行。

新理念三 機房監控的預警功能 
      
報警(alarm)是報告事件的發生,是在故障或危害發生之后向管理人員發送警訊,及時地發送警訊可以縮短故障修復時間(MTTR),最大程度地保障系統運行。但故障還是不可避免地發生了,影響了系統的正常運行。
      
預警(alert)則是在故障或危害發生之前向管理人員報告潛在危機,提示相關人員進行處理,是事前的,可以防止事故的發生。有效的預警可以增加系統平均無故障工作時間(MTBF),并可以根據危機情況自動延伸到報警。
      
預警與報警的區別就在于它是事前預防性報警,機房監控系統只有具有良好的預警功能才能偵測出潛在危機并分層次逐步擴大警訊發送范圍,有效地防止事故的發生,將損失降低到最小。越來越多的機房管理人員也開始意識到預警的重要性,因此機房監控系統必須有預警功能。
      
那么,機房監控該如何實現預警功能呢?首先,可以通過靈活的閾值設置多種偵測方式,確保能及時地發現潛在危機;其次,通過設置多種預警的方式,確保所有相關人員無論在何時何地都能收到警訊;再次,設置多個預警流程,確保不同的相關人員在不同時間接收到不同程度的警訊。
      
這樣,一旦有危機出現,立刻將信息發送給相關人員直至危機得到有效處理,實現真正意義的預警功能,最大程度地保護系統的運行。

 

  上一篇: 已到達記錄末端 下一篇云計算下的數據中心機房規劃特點