防范未然让世界早有准备 “数据库被删了、勒索病毒原来这么厉害、英航空大面积延误、鹿晗微博过热导致服务器宕掉了2017年,媒体公开报道的IT宕机事件原因各异,有传统的病毒攻击,也有明星热度引发的宕机、甚至还有前所未闻的前员工删库跑路事件” 下面,我们甄选了十大国内外IT宕机事件防范未然,让世界早有准备! 事件1:今日头条服务器宕机 影响评级: 时间:2017。1。6 原因:服务器故障。 持续时间:此后长达30分钟时间内仍未解决。 影响范围:不少用户发现今日头条出现宕机情况,页面刷新不显示,头条号的编辑后台亦无法进入。 警示:做好服务器系统的业务连续性建设。 新闻来源:网易财经 money。163。com17010618CA47UE85002580S6。html 事件2:Gitlab误删数据库 影响评级: 时间:2017。1。31 原因:Gitlab遭受DDoS攻击,导致数据库写入锁定,网站出现不稳定和宕机,在阻止了恶意邮件发送者之后,运维人员开始修复数据库不同步的问题,在修复过程中,错误的在生产环境上执行了数据库目录删除命令,导致300GB数据被删除,Gitlab被迫下线。 持续时间:18小时的服务中断 影响范围:丢失用户近6小时的数据 警示:加强IT审计,备份和恢复测试 新闻来源:钛媒体 www。tmtpost。com2565002。html 事件3:Instapaper宕机 影响评级: 时间:2017。2。9 原因:数据故障是由2014年4月之前创建的RDS实例的2TB文件大小限制造成的,而2014年4月以后创建的实例由ext4文件系统支持,并受6TB文件大小限制。失败的关键系统是我们的MySQL数据库,该数据库作为托管解决方案在Amazon的关系数据库服务(RDS)上运行。 持续时间:2月14日服务才全面恢复 影响范围:用户无法正常访问页面 警示:每月测试MySQL备份,强化应急中断工程团队建设 新闻来源:搜狐CSDN www。sohu。coma154636981115128 事件4:百度搜索移动端故障 影响评级: 时间:2017。2。28 原因:未给出原因。 持续时间:20:5021:25。 影响范围:用户用百度移动端APP无法搜索内容。 警示:需要强化快速恢复服务的能力。 新闻来源:新浪科技 tech。sina。com。cni20170302docifyazwha3499407。shtml 事件5:微软Azure云服务全球大面积故障 影响评级: 时间:2017。3。16 原因:Storage存储问题,一个微软工程团队确认原因为断电导致的存储集群不可用。 持续时间:3月16日6:4215:37。 影响范围:微软分布在全球各地的28个数据中心里,26个出现了存储故障。部分地区使用Storage服务的用户在执行服务管理运营操作(比如创建、更新、删除)时,可能会收到报错提醒。其他使用Storage的服务可能也会受到影响。 警示:加强防止大规模数据中心故障发生的制度性工作。 新闻来源:36氪 36kr。comp5067104。html 事件6:DigitalOcean删库宕机 影响评级: 时间:2017。4。5 原因:主数据库被删除了。 持续时间:4小时56分钟。 影响范围:这次故障导致其控制面板和API失灵,因而害得客户无法创建新的虚拟服务器(即所谓的“Droplet”)。 警示:除了对主数据库的访问进行新的限制外,还对网络进行了升级,加快数据库服务器连接的速度。 新闻来源:搜狐云头条 www。sohu。coma133370872465914 事件7:全球多地爆发“WannaCry”系列勒索病毒 影响评级: 时间:2017。5。13 原因:WannaCry利用Windows操作系统445端口存在的漏洞进行传播,并具有自我复制、主动传播的特性。 持续时间:影响一周时间,并有变种病毒。 影响范围:英国、中国、俄罗斯等99个国家在医疗、教育、企业、电信等机构受到影响严重,受感染服务器的关键数据丢失,业务中断。 警示:及时修订系统漏洞,做好关键数据的CDP持续保护。 新闻来源:腾讯科技 tech。qq。coma20170513005824。htm 事件8:英国航空航班大面积延误 影响评级: 时间:2017。5。27 原因:可能是由于将网络系统外包给印度公司造成。 持续时间:超过2天时间。 影响范围:英航在全世界的值机系统和飞行系统都受到影响,呼叫中心和官方网站也无法正常运行,导致航班无法起飞,大量乘客滞留机场,很多人的行李也无法拿到。 警示:机场等重要交通场所需要建立可靠、可控的备份系统,并及时启用备用系统。 新闻来源:界面新闻 www。jiemian。comarticle1357415。html 事件9:荷兰海牙云主机商verelox前员工删库 影响评级: 时间:2017。6。10 原因:一名前任管理员删光了该公司所有客户的数据,并且擦除了大多数服务器上面的内容,客户数据恢复希望渺茫。 持续时间:一周内恢复正常。 影响范围:暂时将verelox网络下线。verelox一直在努力恢复数据,但是这个方法可能恢复不了已丢失的所有数据。 警示:建议更改所有服务器密码,建立数据防删机制。 新闻来源:IDC评述网 https:www。idcps。comnews2017061095173。html 事件10:微博因鹿晗微博热度过高宕机 影响评级: 时间:2017。10。8 原因:由于鹿晗微博热度过高,访问量太大。 持续时间:当天下午2点。 影响范围:微博出现罕见的宕机导致微博客户端访问缓慢。 警示:备份更多的服务器以应对高并发海量访问需求。 新闻来源:IT之家 https:www。ithome。comhtmlit329034。htm 总结 IT系统宕机,已经从2015年的责任追究,到2016年的全民认知提升,到今年勒索病毒导致数据丢失的众所周知,全行业对信息系统的安全性的关切提升到新的高度。 与此同时,我们也欣喜看到,除了个别事件由于遭受恶意删库无法恢复,与“2016年国内外宕机事件盘点”相比,2017年的系统宕机事件的恢复时间都有了很大的提升,表明事件故障机构对系统恢复的能力有显著的提高。 防范未然,让世界早有准备!所有信息化浪潮下的组织机构,建立专业、可靠的数据灾备和业务连续性体系不仅仅是规范企业自身的IT建设需求,更是用户在产品质量信得过以外,企业服务信得过方面的又一重要诉求。 为此,我们依旧建议: 建设专业的灾备系统,不要有侥幸心理 信息系统属于企业重要的信息基础设施,其安全问题涉及到核心数据资产,关乎企业生存与发展,涉及个人生存与生活,甚至触及国家和社会的稳定。中华人民共和国国民经济和社会发展第十三个五年规划纲要》中明确指出要:强化信息安全保障,包括强化重要信息系统和数据资源保护,加强数据资源在采集、存储、应用和开放等环节的安全保护,加强各类公共数据资源在公开共享等环节的安全评估与保护等。而对于信息安全、数据安全,灾备是最基础的技术需求,几乎所有的信息资产都需要灾备保护,以确保在任何意外故障情况下,信息系统的正常运转。 2017年6月1日,《中华人民共和国网络安全法》正式实施。该法从保障网络产品和服务安全,保障网络运行安全,保障网络数据安全,保障网络信息安全等方面进行了具体的制度设计。该法第二十一条、三十四条明确规定关键信息基础设施的运营者应当履行对重要系统和数据库进行容灾备份的保护义务,并在其他条文中规定了相应的处罚细则。 业务连续性管理应该是“老板工程” 信息系统环境中的风险点和威胁点往往不是单一的,也不是静态的,简单的安全产品堆砌已被证明不是有效的解决途径。信息系统安全是涉及到技术、人员、组织、环境、法律及管理等多方面因素的系统性问题,应该采用信息保障的原理、技术和方法,以全局的、动态的眼光来研究、设计、实施与维护信息系统安全工作。这需要企业机构的负责人高度的重视,以第一责任人的安全意识规划统筹业务连续性管理的工作。