岂止高性能 数据“花样”恢复指南(上)

戴尔易安信解决方案 2019-02-20

戴尔易安信解决方案

微信号 DellEMC_Enterprise
功能介绍 戴尔易安信解决方案专注于数字化转型中的前沿技术和解决方案,内容涵盖现代化基础架构、云计算、大数据、物联网及AI等,并通过对全球,特别是中国用户的成功实践案例分析和前沿技术解读,助力企业数字化转型,快人一步!


对于绝大多数企业而言,数据库绝对是最核心的应用之一,对于核心数据库数据的保护基本都是最高等级,我们对这套存储系统在支撑核心数据库应用方面的性能表现进行了测试。其测试架构如下▼:


利用Oracle公司推出的12c数据库作为本次测试的关键业务应用,承载平台为具有高RAS特性的Dell EMC PowerEdge R840四路服务器,每个数据中心部署一台R840服务器,其中生产中心与同城灾备中心部署Oracle RAC集群,使用主备模式,当生产中心出现故障后,可以自动切换到同城灾备中心继续提供数据库服务。

生产中心存储使用SC7020全闪存存储系统,配备12片800GB的写密集型SSD和6片480GB读密集型SSD;同城灾备中心使用SCv3020全闪存存储系统,配置与SC7020相同。采用英特尔® 至强® E5-2660v4处理器的SC7020与采用英特尔®至强® E5-2603v4处理器的SCv3020,通过各放置数据中心内的VPLEX实现数据同步。同时,在生产中心与远程灾备中心通过RecoverPoint设备将数据异步复制到VNX7600存储系统中。

在这里,SC存储采用的英特尔®至强®处理器,该处理器针对SC存储提供必要性能和高级安全技术,能够提高数据中心的效率和可靠性。

PowerEdge R840各使用两条16Gb/s FC链路作为数据网络,使用两条10GbE作为心跳网络和服务网络。额外的一台PowerEdge R730作为压力客户端对Oracle数据库下发压力,以测试Oracle数据库性能:

在针对SC7020存储的Oracle数据库性能测试中,获得了平均114万TPM,即每分钟可处理114万笔事务,每秒事务处理量接近2万笔(19139),每笔事务处理的平均响应时间约为3ms左右,单笔事务处理的突发最大响应时间仅为21ms,上图中显示实时响应时间为8ms。在获得如此高的数据库性能时,R840四路服务器的CPU占用率仅为48%,仍有余力处理更多事务。

在这一测试环节,我们验证了基于PowerEdge R840四路服务器+ SC7020全闪存储系统为Oracle数据库应用提供较高的计算性能与存储性能,能够满足大多数企业的业务需求。但仅有性能还不够,作为企业IT系统中的核心应用,其数据必须得到完善的保护。


模拟突发故障

数据和应用这样保障

为了验证这套数据中心级存储系统是否能够如预期那样提升企业的业务连续性水平,我们设计了3种突发故障情况,其主要分为两大类:

▐ 非人为故障导致的生产中心停机,无法提供服务

如数据中心掉电、自然灾害以及其他因素导致的生产中心故障。主要验证生产中心Oracle数据库应用及其数据是否能够顺利切换到同城灾备中心继续提供服务;同时在生产中心故障修复并重新上线之后,Oracle数据库应用及其数据是否能够顺利回切到生产中心。

▐ 人为因素导致的生产中心数据不可用

人为因素可以分为两▼:

一是由于误操作或者其他因素导致得Oracle数据库文件被删除,无法正常提供服务,需要从同城灾备中心进行数据恢复。

二是由于非法入侵导致的数据库数据被篡改,同时生产中心与同城灾备中心网络故障,需要从远程灾备中心恢复指定时间点数据。


生产存储突发故障

业务自动切换

在第一个测试环节中,启动Oracle数据库,并使用额外的一台服务器作为压力客户端,利用Swingbench软件对Oracle数据库下发压力,在稳定运行10分钟后,人为切断站点A中PowerEdge R840(Oracle数据库)与SC7020存储之间的数据映射,模拟SC7020存储突发故障,无法提供数据服务。

在DSM中(Dell EMC Storage Manager,存储管理)中删除SC7020到R840服务器的映射,模拟SC7020存储突发故障,无法提供数据服务。

当模拟SC7020存储突发故障后,VPLEX成功将Oracle应用从站点A切换至站点B,由SCv3020接替SC7020提供数据服务,整个过程17秒短暂超时。如上图所示,在切换过程中,Oracle数据库经历短暂的等待时间,切换完成后,数据库性能恢复正常。

同时,VPLEX发出报警,在管理界面中,展现SC7020出现故障,无法提供正常服务▼:

在VPLEX管理界面拓扑中,集群1(即主站点A)中的SC7020存储出现故障,无法访问。一致性组RAC_SC的状态为”OK”, 即在位于站点A的VPLEX cluster-1和位于站点B的cluster-2上均可以访问这个一致性组,能够为Oracle数据库应用提供正常的数据服务。

与此同时,RecoverPoint对站点C的数据复制暂停,RecoverPoint可以恢复数据复制暂停之前时间点的数据。其需要等站点A的后端存储恢复访问后,VPLEX将站点B的数据同步到站点A后,RecoverPoint再自动恢复站点C的数据复制。

测试证明,在站点A与站点B组成的双活/主备站点架构下,主生产站点A存储在突发故障下,VPLEX能够顺利实现存储切换,Oracle数据库集群(Oracle RAC)也能实现自动切换,虽然会经历17秒的数据库响应超时,但切换完成后,Oracle数据库应用能够继续运行,没有出现数据丢失情况。

Dell EMC业务连续行解决方案是从IT基础架构层、系统架构层、数据架构层、应用架构层的有效构建,本次通过性能测试和非人为故障模拟,可以看出Dell EMC的连续行方案可以保障不对企业业务带来影响,让核心业务可以稳定、高效、可靠的运行,让企业的数据、应用双重保护。