起订量:
免费会员
机房运维方案及巡检
1.1 定期巡检
每年巡检4次/年,1次/季度
1.2、巡检地点
计算机机房、精密空调、UPS
1.3、巡检目的
进行机房检查,对机房设备及供电系统、UPS系统、精密空调系统、录像系统等设备进行检查,及时发现设备隐患,排除故障。
1.4、巡检要求
1.4. 1.巡检期间,进行状态检查,若发现问题,如计算机机房物理环境异常、精密空调异常、UPS及配电系统异常等,应按照应急预案及操作流程进行处理。
(1)电源、UPS:检查机房供电状况,UPS工作情况、指示状态。检查UPS蓄电池使用状态,确保蓄电池无松动。并使用温度枪进行检测物理温度。确保配电柜及UPS、蓄电池无温度过高现象。
(2)机房环境:检查机房卫生状况及物理环境。
(3)机房温度:检查温湿度,将温湿度控制在一定范围内。温度:22℃±5℃,湿度 ≤60%.
(4)机房空调:空调运行状态、空调内部有无漏水现象、空调噪音、空调风量等。
(5)机房照明:机房照明系统是否正常,有无异常状况。
(6)机房PDU:PDU市电或UPS是否正常,使用温度枪进行检测外部物理温度。
(7)机房整体:检查机房其余设备运行状态,有无报警及指示灯异常状态。
1.4. 2.如果故障按恢复规程无法有效恢复,特别是当发生机房环境(动力、空调)故障、关键的设备、网络、系统、服务如无法及时恢复时,应立即通知甲方相关,由相关协调资源进行故障处理。
1.4.3.故障处理过程必须在机房日常巡检表的备注栏中详细记录,以备查阅。
1.5、计算机机房现场管理要求
1.除工作人员外,其他工作人员进出机房,需签字后方可进入,同时计算机机房人员要在现场,检查监督其人员工作,避免其他人员未经擅自接触机房物理设备。
2.机房的机柜、线缆、设备等的标签管理;
3.机房环境清理。
1.6每次检查内容列表
2、现场故障维修
每次巡检过程中,如有发现设备及环境系统有故障状态,需进行记录并恢复故障状态。如不能立即恢复故障状态,则需进行应急预案处理。具体如下:
2.1 环境故障:卫生、温湿度、照明。(四级故障)
2.2 交换机故障:交换机蜂鸣,交换机启动不正常,指示灯异常。(三级故障)
2.3 空调故障:空调压缩机故障、空调冷凝水故障、空调漏水故障、空调制冷故障、空调加湿器故障等。(二级故障
2.4 UPS故障:UPS逆变故障、UPS旁路、UPS蓄电池温度、UPS蓄电池外观鼓包现象、UPS蜂鸣报警等(一级故障)
2.5 配电柜故障:配电柜内温度过高、配电柜打火现象等。(一级故障)
在解决故障时,更大限度做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于30分钟内解决故障,应立即提出应急方案,确保业务系统的运行。故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。故障类型、级别及相应标准列表:
3、后台故障维修
后台故障状态维修,需要在甲方允许的情况下,对设备进行维护及维修。
3.1 质保期内的设备由我方查找故障原因并填写故障申请单,交由甲方进行协调处理,并协助甲方进行故障排除及维修。如需联系厂商,则由我方负责。
3.2 三级及四级故障状态,我方可自行进行维护和维修的设备,报由甲方同意后,我方自行进行设备维修,更换零配件部件等,并将维修记录保存文档交由甲方及我方双方管理。
3.3 质保期外的设备出现故障,则由我方统一进行维修,费用由我方负责。并将维修记录报由甲方确认并存档。
3.4设备更换
对于无法修复的设备,在合同有效期内,经甲方审核,由乙方负责整体更换同型号或类似型号的产品,无法维修的设备交由甲方。更换单个备品备件费用大于等于500元时,报甲方审核同意,备品备件费用由甲方承担; 更换单个备品备件小于500元时,备品备件费用由乙方承担,质保期内由供货商(厂商)进行更换的除外。
4、资产管理
4.1对硬件设备型号、数量、版本等信息统计记录
4.2对软件产品型号、版本和补丁等信息统计记录
4.3 对机房设施设备连接统计记录
4.4 对综合布线系统结构图的绘制
4.5 对机房更换设备连接统计记录
4.6每月向甲方上报低值易耗品记录,包括仓库存储情况、耗材使用情况。
4.7 机房更新及更换设备的统计
4.8 机房维护设备及备品备件的管理及记录
5、应急处理
随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到更低,确保员工安全,特制定本应急处置预案。
本预案共分为应用系统故障应急流程和机房突发事件应急流程
系统故障应急流程
一、系统故障应急流程说明
1、故障发生
系统运维服务小组可从以下途径得知故障的发生:
1.1、运维服务中心通过网管告警发现故障
1.2、维护站点通过维护巡检发现故障
1.3、用户发现故障,报给呼叫中心
1.4、驻场工程师发现故障
2、报障受理
监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。
3、信息研判
运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。
4、预案启动
如需启动应急预案,则立刻通知系统突发故障应急小组,由小组启动应急预案,对系统突发故障应急事件进行充分管控处理。
5、资源确认
系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:
我公司技术支持人员;
相关厂家技术支持人员;
我公司聘请的技术专家
6、预案执行
按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急小组汇报。
7、预案终止
预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急小组决定。
8、结果上报
预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急小组。
二、 系统故障应急处理流程图