当前位置:首页 > 文章

文章

机房监控新理念

长城机房  | 2012年02月19日 | 阅读:

为了减少因环境和人为失误造成的损失,用户需要拥有一套先进、可靠的机房环境监控与预防系统来确保设备的安全运行。

计算机机房和数据中心支撑着各类企事业单位现代化生产体系的正常运行,一些机房甚至已成为无人值守型。在这种情况下,任何一个由于环境因素和人为失误造成的意外系统中断和设备损坏都会给企事业单位带来巨大的损失。为了减少这种损失,用户需要有一套先进、可靠的机房环境监控与预警系统来确保设备的安全运行。该系统必须能够随时随地观察到机房的情况、必须能及时地发出预防性报警、通知有关人员、采取措施、防止事故发生。

可以说,完善的机房监控系统应该具备三大特点:能够实现从设备运行情况到机柜微环境再到机房整体环境这样多层次的监控;能够有丰富的阈值设置以监测出危机的存在,并能有丰富的预警方式和预警流程保证相关人员能够收到警讯,达到预警的目的;具备网络化、智能化,能够随时随地通过网络查看机房内的情况。

然而,传统机房环境监控是把重点放在对机房整体环境、空调及配电柜的监控上,而忽视了对设备内部的监控。另外,传统机房环境监控系统也缺少丰富的阈值、预警方式和预警流程设置,不能在真正意义上实现预警功能。针对传统机房环境监控的现状,需要引入三大新理念加以改善。

 

新理念一 对设备内部进行监控
      
机房监控的目的在于保护机房内IT系统的正常、有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将警情信息发送给相关人员及时进行处理。因此,机房监控的核心应该是对IT系统运行状态的监控,而最直接有效的监控应该是直接对IT设备运行状态进行监控。
       IT
设备内部的运行环境,例如服务器内风扇转速与CPU温度等是最直接、最迅速影响IT设备正常运行的因素。有时候即使机房内空调运转正常,机房整体环境参数值也在预设范围内,但某服务器却因为某种原因出现服务器内风扇的转速不正常、CPU过热。如果只监控机房整体环境,此时机房的管理人员是不会得到这种危险信息的,整个系统就会因为该服务器潜在危机没有得到及时处理而意外瘫痪。
 
新理念二 多层次的机房监控
      
完善的机房监控系统应该是能够实现对从设备运行情况到机柜微环境再到机房整体环境这样多层次的监控,并能重点实现对设备内部的监控。
      
我们都知道,机柜内的微环境是设备正常运行所需要的物理环境。机柜微环境参数最能体现设备所处的实际运行物理环境的情况,所以实现对机柜内微环境的监控也相当重要。

机房各个点的环境参数值是不同的,因此机房内整体环境监测的参数不能体现各机柜微环境参数,更不能体现重要设备内部的环境。也就是说,即使机房整体环境参数正常,IT设备所在处的环境也不一定正常。所以说机房的整体环境监控的重要性次于对设备的监控和对机柜内微环境的监控。
      
空调机的运行是为了降低机房内的温度,使机房内的整体温湿度保持在一个合适的范围内,机房各个点的温度参数值是不同的。空调机出风口的温度值不能说明机房的整体温度和机柜微环境温度,空调的正常运行不能说明设备就能正常运行。因此对空调的监控不能代表甚至取代对设备的监控。
      
漏水监测系统是为了监测机房内是否有漏水,以防止因漏水影响设备的正常运行。线式探测器是成线型布置在机房可能漏水的最低处,而实际上点式漏水探测器同样可以反映机房的漏水情况且比线式探测器经济实惠、安装方便、维护简单。
      
机房内设备由于非常重要,一般都是采用UPS供电,并且UPS是双供电,只要对UPS进行监控就能确保设备正常供电并且能反映市电的情况。因此,对电源的有效监控是在不增加任何投资的情况下通过协议实现对UPS的监控,通过监控其电压、电流、电池使用情况、市电情况来确保设备的正常运行。

新理念三 机房监控的预警功能 
      
报警(alarm)是报告事件的发生,是在故障或危害发生之后向管理人员发送警讯,及时地发送警讯可以缩短故障修复时间(MTTR),最大程度地保障系统运行。但故障还是不可避免地发生了,影响了系统的正常运行。
      
预警(alert)则是在故障或危害发生之前向管理人员报告潜在危机,提示相关人员进行处理,是事前的,可以防止事故的发生。有效的预警可以增加系统平均无故障工作时间(MTBF),并可以根据危机情况自动延伸到报警。
      
预警与报警的区别就在于它是事前预防性报警,机房监控系统只有具有良好的预警功能才能侦测出潜在危机并分层次逐步扩大警讯发送范围,有效地防止事故的发生,将损失降低到最小。越来越多的机房管理人员也开始意识到预警的重要性,因此机房监控系统必须有预警功能。
      
那么,机房监控该如何实现预警功能呢?首先,可以通过灵活的阈值设置多种侦测方式,确保能及时地发现潜在危机;其次,通过设置多种预警的方式,确保所有相关人员无论在何时何地都能收到警讯;再次,设置多个预警流程,确保不同的相关人员在不同时间接收到不同程度的警讯。
      
这样,一旦有危机出现,立刻将信息发送给相关人员直至危机得到有效处理,实现真正意义的预警功能,最大程度地保护系统的运行。

 

  上一篇: 已到达记录末端 下一篇云计算下的数据中心机房规划特点