那一次机房消防系统“误报”之后…

戴尔易安信解决方案 2018-04-25

戴尔易安信解决方案

微信号 DellEMC_Enterprise
功能介绍 戴尔易安信解决方案专注于数字化转型中的前沿技术和解决方案,内容涵盖现代化基础架构、云计算、大数据、物联网及AI等,并通过对全球,特别是中国用户的成功实践案例分析和前沿技术解读,助力企业数字化转型,快人一步!


点击“戴尔企业级解决方案”快速订阅


有这样一个真实的故事......


上海某数据中心由于机房消防系统误报,气体灭火自动启动,瞬间喷出大量绝燃气体。这里需要解释一下,机房灭火系统禁止采用水、泡沫及粉末灭火剂,而通常采用绝燃气体灭火,如二氧化碳。

 

我想大多数人都不会想象到大量绝燃气体瞬间爆出的威力:机房天花板开裂,气体爆发伴随着巨大爆破声和震动;同时大量的绝燃气体导致IT设备无法即时散热,进而温度过高。结果,机房中的多台服务器遭受了无妄之灾。

 

其中,大量系统硬盘损坏,其中有些甚至所有本地硬盘损坏。另外,两家国际品牌存储产品都有大量硬盘故障,需要更换。这次事故直接导致POS系统、路演、监控等核心业务暂停,给用户带来了巨大的不便和损失。同时,硬盘损坏导致大量数据丢失,给该客户带来了巨大的损失。

 

然而万幸的是,有一家厂商的服务器却经受住了这次意外的灾难——戴尔。


在商场、写字楼或者酒店,我们经常能看到天花板上的自动消防系统,如烟感探测器和灭火系统,我想没有人希望看到它真正工作的一天,譬如发生火灾。


在数据中心机房,自动消防系统也是必不可少的基础设施,由于数据中心运行和存储的都是关键数据,一旦发生火灾将给企业带来重大损失,而配备一套能够准确迅速报警和灭火的自动消防系统则能够将数据中心的火灾风险降到最低。


所以,自动消防系统堪称数据中心的“保护神”,有它的存在,数据中心就有了更加安全的保障。但这位“保护神”也会有犯错的时候,“好心办坏事”,给数据中心带来意外事故。




面对灾难

数据无一丢失


在这次事故中,有三台用于监控系统的戴尔PowerEdge R720xd服务器由于过热保护停机。后来通过服务器RAID卡信息重建,在1分钟内迅速恢复了监控数据,且没有数据丢失。而用于该用户的私有云平台以及其他系统的戴尔服务器均正常运行,无硬件故障。


换句话说,存储在戴尔服务器之上的数据,无一丢失。


在为该客户感到无比惋惜的同时,我们不免会思考,经历同样的事故,缘何唯有戴尔服务器能够坚挺?为此,申斯基采访了在事故现场的戴尔技术工程师,发现了一些戴尔服务器的过人之处。


新风冷却技术

戴尔服务器的设计可以说是“从客户中来”。以戴尔13G服务器为例,其设计过程就有全球22个国家和5个大洲的8100多名客户参与其中。如服务器的细分要与全球3000位客户进行会谈;通过与全球1600多位客户进行会谈,戴尔服务器确定了10大需要优先考虑的事项。


戴尔服务器在设计中融入了大量客户的反馈,从而真正满足客户的需求,并将其优势惠及更加广泛的用户。


以这次上海某客户机房事故为例,戴尔服务器能够保持坚挺的一个重要原因是采用了新风冷却技术。


2011年8月,戴尔发布了新风冷却解决方案,其服务器、存储和网络设备经过测试和验证,保证能够在ASHRAE(美国采暖、制冷和空调工程师协会)所规定的最高温度和湿度标准下运行,短时间内最高温度极限为113 华氏度 (45 摄氏度)(允许偏差),而对当时的大多数IT设备来说,所允许的最高温度为 95 华氏度 (35 摄氏度)。


当时的一项测试结果表明,在104 华氏度 (40 摄氏度) 和 113 华氏度 (45 摄氏度) 这两个温度条件下,戴尔这些产品每年可运行的时间最多分别为 900 个小时和 90 个小时。


而今,戴尔新风冷却技术发展到2.0,让特定硬件配置的戴尔服务器甚至能够在较高温度和湿度的室外空气中操作,这让客户构建无冷却设备的数据中心成为可能。


其实戴尔已经这样做了。在德克萨斯州朗德罗克的戴尔总部外面,夏天温度通常高达40°C/104°F,戴尔在此创建了采用新风冷却解决方案的机房——没有空气调节系统,没有湿度控制却可以整年运行。


戴尔新风冷却技术所带来的好处是明显的,其一是散热成本节省,让数据中心能够运行在更高的温度,甚至在某些特定区域,完全可以无冷却设备;其二是更耐高温,面对类似上海某客户机房的这种意外状况能够更加稳定可靠,保障客户的业务和数据安全。


上海某客户机房的例子并不鲜见。曾经Uber位于美国硅谷圣克拉拉的数据中心意外出现了空调失灵的情况,导致数据中心的温度极速飙升至46摄氏度。结果,一个机架又一个机架的服务器宕机,但倒下的服务器没有一台是来自戴尔的。(“Racks and racks of Servers went down,but not one single Dell Server”。)



天灾人祸,我们并不能保障数据中心机房环境万无一失,而采用更耐高温的戴尔服务器,无疑增加了更多的安全筹码。


当然,戴尔服务器的优势并不仅限于新风冷却技术和耐高温,戴尔服务器全系列都采用了大量RAS设计,支持冗余、容错、内存镜像、内存备用、热插拔硬盘和冗余电源等功能,这些特性让服务器能够在突发状况中保持出色的连续性和一致性。


持续的、大量的创新

此外,戴尔服务器拥有着业内最为丰富的产品序列,从机架、塔式、刀片、高密度服务器到融合、超融合产品,能够满足几乎所有应用负载的需求。同时,戴尔服务器每一代产品升级都会融入大量的创新,以符合客户最新的业务变化。



例如,在戴尔13G服务器发布的时候,闪存处于数据中心刚刚兴起,云计算和大数据市场愈演愈烈,数据中心客户需要更加自动化的管理能力的情况下。为此,戴尔13G服务器针对闪存进行优化,让数据更加靠近计算机,帮助客户实现软件定义;同时简化管理,以流水线式的自动化管理帮助客户降低总体拥有成本。


近期发布的戴尔全新第14代PowerEdge服务器性能优异,为客户带来能够满足各种负载需求并易于管理的平台。

灵活性和可扩展性: 得益于全新的至强处理器和创新设计,以及针对软件定义数据中心优化的可扩展业务架构,戴尔第14代PowerEdge服务器最多可将数据库IOPS提高12倍。实测表明,PowerEdge R740产品可在每个服务器上支持多50%的VDI用户 ,并为Hadoop分析增加50%的GPU加速器支持;PowerEdge R940最多可节省600,000美元的Oracle许可成本,并可在SAP SD Sybase环境下将速度提升44%

智能自动化管理: 戴尔第14代PowerEdge通过扩展的API和全新OpenManage™ Enterprise控制台实现智能自动化,提升IT部门效率。iDRAC9的性能最多可提高四倍,通过QuickSync 2设置iDRAC将所需步骤减少了30%

集成安全性: 新一代PowerEdge还集成了安全功能,为端到端保护提供了网络弹性架构和安全稳定的供应链。行业首发的“信任链”功能,从出厂到操作系统启动的每个环节都在控制之中。非法、恶意、被篡改的BIOS,固件都无法升级到系统。非法OS也会被禁止启动,让服务器终身免疫。




戴尔服务器于1994年诞生,如今已经有二十余年历史,已经经受住了市场的考验。而验证产品优劣与否,市场数据则是最好的试金石。戴尔服务器无论在全球市场还是中国市场一直位居前列,多次占据出货量榜首。Gartner 2017年第一季度服务器市场报告显示,戴尔服务器出货量再夺冠军,戴尔也是前五大供应商中唯一保持增长的厂商。



应对灾难

其实还有另外的思路


客观来说,如果该客户的数据中心采用另一种方式来保存数据,在遭遇意外时候可能损失就会小得多。


据了解,该客户的大量数据都是通过服务器内部硬盘来进行存储,我们知道,虽然通过RAID级别可以有效的保护数据,但是面对这种“全盘阵亡”的惨烈境况,仅靠RAID来做数据保护还明显不够。


面对类似该客户数据中心的事故,其实可以换一些思路,采用云灾备的方式,或者采用独立的企业级存储系统,结果可能会好很多。云灾备可以在灾难发生后快速准确的恢复客户的业务数据和关键应用系统,减少系统宕机时间,保障客户业务的连续运行。但很多行业对于数据都有着严格的监管和合规要求,云灾备的方式并不是在每个场景都适用。


而如果采用独立的企业级存储并建立容灾机制,则能够获得更大的安全系数。


戴尔不仅具有完善的服务器产品线,同样具备齐全的存储解决方案,包括Dell Storage NX系列NAS设备、Dell Storage XC系列软件定义存储、Dell PowerVault MD3系列、Dell Storage PS系列(EqualLogic)、Dell Storage SC系列闪存阵列(Compellent)等。


以SC系列为例,戴尔已经具备面向小规模业务的SCVC2000、面向中规模业务部署的SC4020、面向中大规模业务处理的SC5020、面向大型综合业务处理的SC7020以及面向超大规模业务的旗舰级产品SC9000,能够覆盖几乎所有业务类型。


面对类似数据中心的事故,戴尔SC系列存储有两个非常强大的能力,帮助客户度过难关:

 

其一是强大的数据保护机制。戴尔SC系列存储具有防误删/篡改/版本保护、历史可追溯能力的多版本数据保护功能,能够每10分钟保留一个数据版本,保留288个后自动循环覆盖;在任何数据变更前保留三个数据版本;显然,多版本数据保护能够有效防止数据丢失。此外,每个版本保护只保留数据增量,而无需额外的存储容量投入,保护数据的同时兼顾经济性。

 

其二是便捷而可靠的容灾能力。戴尔SC系列闪存能够轻松构建双活系统,而无需联通交换机或者仲裁设备,也不需要额外安装软件。结合内置的灾难恢复/业务连续性解决方案Live Volume,可在出现故障时实现自动故障迁移,RPO/RTO为0。此外,通过Live Volume,企业还能够进一步将双活拓展为远程灾备或两地三中心灾备方案,让客户的业务和数据安全无虞。

 

当然,和服务器产品一样,戴尔存储同样有着新风冷却技术,在面对高温高湿恶劣环境时能够拥有更好的表现。



找对方法

刻不容缓立即行动



在激烈的市场竞争中,数据是企业最宝贵的财富,服务质量则是企业赖以生存的资本。所以,企业需要一套坚如磐石的IT基础架构来为数据和业务做支撑,唯有如此,企业才能安心于产品创新,提升服务质量。


IT世界每一天都在发生着灾难,灾难固然可怕,但有了合适的方法和工具,我们就能够将损失降到最低,甚至防患于未然。


所以,是时候该行动起来了!