单机百万TPM!用得起的iOe?

戴尔解决方案2018-04-27

戴尔解决方案

微信号Dell_Enterprise
功能介绍 戴尔解决方案专注于数字化转型中的前沿技术和解决方案,内容涵盖现代化基础架构、云计算、大数据、物联网及AI等,并通过对全球,特别是中国用户的成功实践案例分析和前沿技术解读,助力企业数字化转型,快人一步!

点击“戴尔企业级解决方案”快速订阅


双11那一晚,何止是妹子们的疯狂夜!

1800万TPM的天量指标

上万台服务器布网火力阵线……

技术咖们再次将性能峰值推向下一个极致

拜科技发展所赐

现在,只要一台单机就可获得百万级TPM

企事录的小黑屋为您揭秘

集百万级TPM、高可用性于一身

爆款“全能王”戴尔PowerEdge R930


在这个世界上,没有哪家的交易量能比得上中国的双11狂欢节了,即便是刚刚在北美结束的黑五,较双11的成交量和成交金额都成了一个不起眼的数字,无他,中国人多,上网剁手也方便。

 

那一晚,我们说IT

仅仅在双11的最开始30分钟,天猫每秒交易峰值17.5万笔,相当于17.5万的峰值TPS;每秒支付峰值12万笔则相当于12万峰值TPS。这两者加起来差不多需要接近30万TPS性能,简单换算,不考虑其他因素影响,差不多达到了1800万TPM的天量指标,这对于这个星球上的绝大多数数据库系统来说,都是一个无法跨越的高山。先不说谁家数据库技术能满足天猫双11的交易和支付性能需求(登录、浏览等操作不在此列),单说阿里为了应对“双11”,应该部署了上万台服务器来满足如此天量的并发需求。


虽然用1800万TPM的性能估算天猫的峰值性能并不科学,毕竟“双11”是全球最大规模的“购物狂欢”,而分布式的系统架构也是天猫能承载如此应用的关键。在常规环境中,绝对大多数企业没有这么天量的需求,也没有必要维护如此庞大的系统。


【名词解释:TPM是Transactions Per Minute的简称,即数据库在分钟内可以处理的事务数。TPM是用来衡量数据库性能的一个关键指标。】



那么在开放的x86平台上,就只能用数量换取性能和可靠性吗?答案很明显——不是。


企事录经过差不多两年时间的等待,当然,除了我们在储备自己的技术积累外,还是在等一个外部的机会,那就是新一代的高端x86服务器和颠覆存储的新一代SSD。

从IOE到iOe,两大技术进步

成就爆款“全能王”

时光机开启——回退十年!十年之前,属于你,属于我……属于小机、属于SAN的年代,那时候大家还都在IOE的怀抱里,好温暖、好舒服,因为他们都是价格巨高、运维巨简单的设备(买服务就好,反正出了问题运维搞不定,也不敢搞),连阿里巴巴都在用。如果一个项目需要部署单机百万TPM的数据系统,那么需要准备什么呢?


哦,性能要求太高,搞不定!


再次乘坐时光机——回到5年前!一个项目需要部署一套单机百万TPM的数据库系统,那么CIO需要考虑什么呢?计算性能是首先要考虑的,百万TPM起码需要8路小机来提供计算支持;存储也是非常重要的环节,要提供百万TPM,需要接近百万IOps的存储设备,那么一套几千块硬盘的高端磁盘阵列(SAN)就是必须购买的,FC交换机等网络设备林林总总的也不老少,一套这样的系统,……需要千万级别的投入!?每年光电费就要几十万!?这不可能!没那么多钱……


于是项目就流产了……

 

时间来到了2016年底,在企事录的小黑屋(机房)里,我们只花费了区区几十万,就得到了一个百万TPM性能的系统,只占用4U的机架空间,工作时的功耗竟然只有380瓦。

 

预算从千万级别掉到几十万,购置一套性能相同的设备只需要花掉十年前的电费钱?这样的落差会让绝大多数用户感到难以理解,凭什么啊?

就凭技术的发展!主要总结为两条线:


✔   x86的进步让单机的计算性能超越了小机,一台4路的至强E7 v4服务器可以提供多达192核,12TB内存的强悍性能;


✔  新一代的PCIe NVMe SSD可以轻松获得50W IOps以上的I/O性能,直接PK掉传统SAN存储;


双线并行,百万TPM不是梦!


当然,企业级数据库系统仍然首选Oracle,不过已经进化到12c版本。O还是那个O,IE已经不是那个IE——IBM换成了intel,EMC换成了NVMe——嗯,是ie,或者说,iOe!

 

小黑屋里爆发出一阵欢呼“技术才是时代最强音!宇宙无敌的砍价高手啊~~~从千万砍到几十万,剩下的钱都够在北京买房了!”

 

嗯,打住,我们还是回来看看为什么以前的百万TPM那么的贵吧。

 

众所周知,作为企业IT核心的数据库系统主要是由服务器+数据库+存储系统三大块构成。其中,数据库系统通常是Oracle数据库,但Oracle数据库这么多年来依然是关系型数据库领域的霸主,价格一直坚挺,所以价格大幅跳水跟数据库没什么关系。

 

服务器这块倒是有显著变化:五年前Unix服务器还是比较“傲娇”的,企业在搭建数据库这种核心IT系统时首选的是小型机,然而,随着x86服务器的性能、可靠性以及可用性的突飞猛进,x86服务器+Oracle数据库的组合变得越来越常见——更不要说,Oracle自己推出的Exadata数据库一体机采用的就是x86服务器。当然,x86服务器比Unix服务器价格的确便宜不少,但即便搭配新款小型机的价格也不像以往那么坚挺了,所以从小机迁到x86服务器,这只是单机百万TPM数据库系统价格跳水的一个因素

 

其实价格跳水的主要大头在存储系统。企事录评测“砖家”曾智强表示,在过去要配备一套超高性能的数据库系统,存储方面的支出就是大头,因为基于机械硬盘的存储很难获得较好的Oracle数据库性能。

 

“先不说百万TPM,就说说百万IOps需要多少块硬盘——不加队列深度的情况下,一块15000PRM的SAS 硬盘IOps约为200,也就是说如果要达到百万IOPS就需要5000块性能最好的硬盘,所以在传统SAN时代,最大的高端存储设备标称可以支持5000+块硬盘,也就是一百万IOps出头。”曾智强说。

 

5000块硬盘什么概念?按一个2U机箱插24块盘来算,需要占整整八个机柜,一块硬盘6.8W的功耗,百万IOps就需要34KW的供电,怪不得电费一年就几十万。


不“傲娇”的全能王

在企事录的小黑屋里,戴尔的PowerEdge R930服务器上,我们的工程师在一台配备了两块PCie SSD的戴尔四路服务器上跑Oracle数据库就跑出了百万TPM的好成绩。


戴尔PowerEdge R930是一台4U高度的4路高端x86服务器,它安装了4颗至强E7 v3 8880处理器,这个18核36线程的处理器在4路配置时,具有144颗逻辑处理器,当然,现在可以无缝支持至强 E7 v4处理器了,可以提供最多192颗逻辑处理器,性能更上一层楼。



看看系统里这么多的核,想想都激动。

 

E7 v3 8880的主频为2.3GHz,但是睿频后能达到3.1GHz,单颗处理器的TDP 150W,能满足绝大多数用户对计算性能的需求。适合云计算主机、大型虚拟化应用环境和企业关键业务数据等环境的使用。



而且PowerEdge R930最大支持12TB DDR4-2133内存(单条128GB内存),意味着即便是内存型数据库也都可以轻松运行。而且支持内存镜像、热备等多种先进的内存工作特性,具备了媲美小机的可靠性。

 

内存搞这么大,性能飙那么高,三天两头宕机也吃不消啊!对于高端服务器来说,有一个关键的指标叫做RAS特性,要满足服务器99.9%以上的可用性,不是一句话能说明白的,而RAS特性则很好地诠释了高端x86服务器是如何提供高可用性的。


RAS——Reliability, Availability and Serviceability(可靠性、可用性、可扩展性)


可靠性Reliability


可靠性是降低硬件故障的几率,除了采用高可靠性的部件,还可以改善硬件的工作环境;通过增加局部的冗余延长整体的平均故障间隔时间。


戴尔R930在内存板、CPU散热片和扩展卡上大量使用热管技术,能显著降低系统关键部件的工作温度,提升可靠性;R930的背部提供左右两组4路热交换电源,支持双路电源供电;


12厘米大口径风扇2*3设计,营造了良好的散热风道环境,全冗余设计也保证了极端情况下的服务器散热


可用性Availability


可用性是在出现无法纠正的错误时,系统和应用程序的运行不会中断。


戴尔Poweredge R930 基于至强E7 v3计算平台,在内存的可靠性上提供3种硬件层的内存可靠性选择。这些功能是基于E7 v3处理器实现的功能, CPU是直接通过主板的内存通道/接口连接内存板的。支持内存镜像、热备和数据转移等功能,虽然镜像和热备功能会损失最多一半的内存容量,但是能大幅增加内存部分的可靠性。


易维护性Serviceability


易维护性是在正常运行状态下对系统进行维护。


戴尔R930前部提供了iDRAC8 显示屏,能显示系统重要参数和信息。通过浏览器远程访问iDRAC8能够完整监控和管理R930的方方面面,增强维护便利性,方便用户。


内存板和风扇都可以全免工具维护,它们安装在一个坚固的框架中,在易维护和可靠性上做到了高平衡。戴尔R930机箱带有把手便于搬运。


总结

正是因为戴尔 R930的超强计算性能,附以丰富、先进的RAS特性,支持新一代的企业级存储、网络设备,才让以往百万TPM能够在我们简单的机房环境中,通过一个普通的市电插座就能实现。这无疑要归功于技术的进步,让我们能用更低的花费获得更强的数据库处理性能。科技,加速一切想象变成现实的进程!


2016戴尔科技峰会



好激动,两个机柜的现场DEMO等着你。一套稳健关键业务的传统架构的变革,一套软件定义融合架构,让双态IT用户都可以看到新技术带来的性能的突飞猛进。


在2016戴尔科技峰会驭变▪演进的话题下,企事录基于戴尔高端4路服务器和全闪存阵列,在基于关键业务数据库和分布式融合系统领域,用戴尔最新一代的企业级产品,搭建了两套足以颠覆传统的DEMO方案。


演示系统一:企业关键业务数据库性能实测


企业关键业务数据库系统,曾经IOE是关键业务的首选,而今天,戴尔的R930+全闪存SC4020阵列,只用之前IOE十分之一的价格,四十分之一的功耗,就取得了更好的性能,而且全闪存SC4020的优异特性使用户完全不必担心数据的安全性和系统的可靠性。

工程师将现场会演示戴尔新一代4路高端x86服务器+全闪存阵列在真实的Oracle 12c环境下是如何跑出64万TPM的优异性能。

 

演示系统二:软件定义超融合架构FX2

 

软件定义,硬件重构是企事录早在2013数据中心报告中提出的概念,直到今天已经成为各个硬件厂商在各种软件定义基础设施会议上必讲的概念。戴尔 FX2超融合架构在2U空间下提供了4个计算(或存储)节点,为用户提供了一套完整的超融合硬件平台。在此平台上,我们牵手戴尔云联盟成员XSKY,共同搭建了基于Ceph的SDS系统,看看FX2是如何在超小空间里提供完整的SDS解决方案。


上下午我们都在,

你想来看就来看;

下午在分会场的分享中

还将连线直播4路服务器+全闪存阵列

如何给企业关键业务数据库

提供强悍性能的演示。

 

专注产品技术服务、企业级基础设施专家

——企事录