神秘失踪的硬盘

戴尔易安信解决方案 2017-04-19

戴尔易安信解决方案

微信号 DellEMC_Enterprise
功能介绍 戴尔易安信解决方案专注于数字化转型中的前沿技术和解决方案,内容涵盖现代化基础架构、云计算、大数据、物联网及AI等,并通过对全球,特别是中国用户的成功实践案例分析和前沿技术解读,助力企业数字化转型,快人一步!


点击“戴尔易安信解决方案”快速订阅

一块硬盘告警,处于“只读”状态…

什么?管理员又告知,硬盘神秘失踪了!

硬盘,去哪儿了?

悲催的故事还在上演,请继续往下看…


这家公司目前一共有3套DIY的开源的软件定义存储(以下简称SDS)在同时运行,3个节点/5个节点/25个节点各一套,3节点和5节点的SDS均是采用利旧的服务器,为开发测试平台提供服务。25节点的SDS中有一半是利旧的服务器,一半是新购的服务器,为OA、影音文件管理等平台服务。SDS软件是我公司运维人员安装部署的。



最初出现问题的是5节点的那套,业务系统在使用过程中,监控提示错误信息,经诊断,是一个节点上的一块硬盘告警,硬盘处于只读状态,虽然SDS的多节点容错架构并没有影响应用的正常运行,但硬盘是数据的根本,一定要找到是什么原因造成的。就在大家开会讨论对策和诊断方案的时候,管理员又告知,在SDS下的这块硬盘不见了。。。神秘失踪?赶紧报修硬盘,800迅速介入,收日志,检查系统错误,没坏啊,硬盘好好的闪烁着绿灯,奇怪了,硬盘去哪了?排查了架构里每一个环节,居然都显示正常,但硬盘就是不见了......最终万般无奈的情况下,重新启动了一下这个节点,居然回来了,硬盘又识别到了。


故事似乎真的还在继续,就在我们还在思考这个问题的根源所在时,25节点的集群居然真的出现了类似问题,先是一块硬盘只读,还没等到重启接连第二块硬盘也告警,在SDS集群里两个硬盘神秘消失。这可不是那5个节点的测试系统了,由于OA运行在这套SDS集群上,公司内部流程没办法通过系统造成,各个部门的人都跳出来让运维部门尽快解决问题。于是我们想按照之前成功的办法试着尝试重启节点,但问题比我们想象的还严重,重启后不但SAS盘没找到,作为缓存的SSD其中有2块也不见了。这着实惊到了客户,马上开Case让原厂后台介入,查找问题所在。但问题又来了,这套SDS系统是客户自己搭建的,服务的真没有。。。


此时,秉着对客户负责的心态,Dell EMC通过内部资源,找来各路SDS的大牛们,积极帮客户找到问题所在,避免后期使用再出现问题。经过各路高人的诊断,我们发现了一个有趣的问题,出现问题的SAS盘和SSD盘都是后期用户自己购买添加的,他们磁盘类型在SDS的兼容表里,而其Firmware版本却不在,而原来第一次部署的各个节点的磁盘Firmware是和SDS完全匹配的,所以也没出现这样的问题。



经历了这样一个惨痛的经历,我们已经意识到,虽然开源的DIY SDS采用节点集群作为容错,但整体架构还是有安全隐患的。于是经过讨论后,我们放弃原全部开源的想法,重新考量了Dell EMC公司推荐的全商用的VxRail超融合架构和半开源半商用的vSphere+VSAN方式,最终选择了vSphere+VSAN+RP4VM+存储的解决方案,具体如下图所示。



 方案特点1:



  • 虚拟机方式,部署快速、简单;

  • 专为虚拟化环境设计;

  • 与vCenter无缝集成;

  • 录像一样记录VM IO变化;

  • VM任意时间点恢复;

  • 一致性组保证应用一致性;

  • 存储无关、网络无关;

  • 支持同步和异步保护;

  • 支持本地和远程容灾。


 方案特点2:


通过vCenter Plug-In在vSphere Web Client界面管理。



搭建完毕后,我们在这套系统上做了大量的实践演练,通过CDP刻录机一样的恢复颗粒度,能够找到最近的时间点,并且在灾备的SCv3000上可以直接启动虚拟机,业务也可以成功切换到存储上,几乎没有数据的损失。


总结,无论是开源还是商用的SDS,其兼容性要求都很高,部署前需要检查各种硬件的型号和Firmware(包含磁盘、1Gb网卡、10Gb网卡、Raid卡等),如果不经过严格的兼容测试,会有很多意想不到问题出现。所以客户如果想使用SDS来承载关键业务,建议选择由各大厂家提供的各种超融合或融合架构,并且通过有效的保护方式进行灾备。