关于21日断网事故关注问题解答
- 来源:中国安防展览网 作者:客服中心
- 2012/12/22 23:17:354005
非常感谢您对本网的支持和理解,对于2012年12月21日的断网事故,影响了广大客户的工作,我们感到非常抱歉!针对部分客户反馈过来表示关注的问题,我们作如下回复:
问:这次造成中断的原因是什么?
答:电信IDC数据中心机房因电路改造不慎,导致我们多台核心交换机同时出现硬件故障,而备用设备不够支撑,导致中断后不能马上恢复。
问:你们说自己是B2B电子商务领域国内*位,怎么要这么久才恢复?
答:整个IDC中心的上千台设备中,大面积同时出现故障的概率极低,公司成立9年来出现如此大面积设备故障是次发生。临时需要采购多台这样的设备,就近的供应商都没有备这么多,因此,在设备采购方面搁了太长时间。今后将通过设备冗余,分布式架构等技术手段,做到避免类似故障的出现。
此次事件我们的处理过程:
10:20监控系统发现所有服务器失去响应。
10:25网络维护部接到报告后,联系机房值班人员,查清通信网络故障位置,隔离故障区域。
10:30网络维护部组织相关技术人员检测故障区域,同时启动备用线路及应急方案。
10:40确认多台核心交换机故障,备用交换机不够。
11:00联系供应商并协商好新设备采购。
14:00新设备到位,逐步恢复故障区与服务器的网络联接,以及逐步恢复网站服务(由于就近供应商缺货,加上现在五机房都搬在郊区离市中心较远,这个设备到位时间太长了)。
问:像你们这样的上规模公司,难道就没有应急机制吗?
答:有的
1、IDC中心设施:我们的IDC中心建设符合国标GB2887-89《计算机站场地技术条件》、GB9361-88《计算站场地安全要求》的相关要求,是电信五IDC中心。
2、数据安全方面:我们通过全部数据实时备份容灾、所有数据远程异地备份、重要数据每15分钟会差异备份导出到远程服务器三项备份措施,确保数据的安全,即便发生IDC中心服务器毁灭性损坏,也可确保客户数据的安全。
3、网络安全方面:架设大流量抗攻击防火墙,7*24小时自动监控系统监控所有对服务器不利影响的因素,并通过邮件及短信形式实时报警。
4、运行安全方面:在服务器和系统出现故障的情况下,数据服务器仅需10秒自动故障转移,WEB网站服务器可实现实时自动切换。
这次由于多台核心交换机故障,核心交换机故障只能通过人工更换交换机,无法实现自动转移。
问:像这样的情况以后还会发生吗?
答:此次事件,给我们敲响了一记警钟,虽然我们已经做了这么多的防范机制,但在出现大面积的网络线路故障时,仍然会出现网站中断,对此我们将在春节前后,客户放假期间,对机房硬件架构进行彻底改造,通过分散应用、分布式协同服务、云计算等方案来进一步改善,避免再次发生这样的情况。
IDC中心
网络维护部正在紧张地处理
网络工程师事后巡查中
后,本网全体工作人员再一次对一直以来关心和支持我们的用户表示深深的歉意和由衷的谢意,我们将以更的服务来回报大家。