【平凡的世界】服务器需要“被忘记”

戴尔易安信解决方案 2018-04-25

戴尔易安信解决方案

微信号 DellEMC_Enterprise
功能介绍 戴尔易安信解决方案专注于数字化转型中的前沿技术和解决方案,内容涵盖现代化基础架构、云计算、大数据、物联网及AI等,并通过对全球,特别是中国用户的成功实践案例分析和前沿技术解读,助力企业数字化转型,快人一步!



点击“戴尔企业级解决方案”快速订阅

Jane:“Kurt,这些人是谁?他们在干什么?”

Kurt:“一帮搞计算机的家伙,我们可能遇到了严重的安全问题,这些人在找到底是哪里的漏洞。”

Jane:“所以,他们是在修计算机了?还是……?”

Kurt:“Patterson说这件事情可能很严重,所以我们要小心一点儿,什么也不要碰,一切都听这些楼下的人的。”

Patterson:“Jane,这些人平常不会出现在这里,但如果他们出现了,那一定有大问题。”

Jane:“所以?”

Kurt:“我们可能有大麻烦了。”


这是美剧《Blindspot》第二季中的一幕,平常在办公室、实验室工作的FBI探员Kurt、Patterson和同事Jane,一早刚进办公室就发现,几乎所有FBI纽约分部的IT人员都在他们的办公室紧张忙碌着,所有人被告知不要碰任何东西,“特别是你们的PC和智能手机,U盘也不要碰”,于是,就有了上述的对话。

这一幕当然只是美剧中虚构故事中的一个情节,但这一场景却很显然来自于真实世界:就像Patterson说的,那些“IT Guys”(干IT的家伙们)平常不会和我们打半点儿交道,可是一旦他们出现——就是那样忽然紧张忙碌的出现——一定会有什么不正常、不顺利的事情发生,所以“我们可能有大麻烦了”。

人们总说:艺术来源于生活,更高于生活,但真实世界中有关“IT Guys“的故事,却远比《Blindspot》中所展示的画面更加戏剧化:去年夏天,Uber位于美国硅谷圣克拉拉(Santa Clara)的数据中心意外出现空调失灵情况,导致数据中心的温度极速飙升至46摄氏度,这意味着无论湿度如何,数据中心的温度很明显已经超了x86服务器的正常工作温度。


随之而来的情形,用Uber的话说就是:"Racks and racks of Servers went down(一个机架又一个机架的服务器宕机了)"——这真是个糟糕透顶的时刻,也正是IT Guys要登场的时刻了:如果情况继续恶化下去不得到遏制,这一数据中心所支持的成千上万的Uber司机与乘客正面临着服务掉线的风险,不难想象,类似"Uber is down","Uber has been unable to respond"的推文一旦成千上万的出现在Twitter上,对这家共享经济独角兽公司,是一个多大的业务、市场和公关灾难。

好在,“46℃灾难”在戴尔PowerEdge服务器的面前停止了——"but not one single Dell Server(没有一台的戴尔服务器)",虽然大量机架上的服务器都出现了高温宕机,戴尔服务器却凭借着"在45度的高温(湿度90%)下工作超过90个小时"的优异能力坚持了下来,它拯救了所有IT Guys的工作,避免了楼上业务部门很可能遭受的灭顶之灾——来自媒体、Uber司机、乘客和公众的大规模声讨。


所有所幸度过这一“劫难”的Uber员工心里或许都会想起一句知名的谚语:No news is good news(没有消息就是好消息)——“真希望从来没有听见过服务器的报警声,甚至是一台服务器重启的声音,都会让我们的神经紧绷起来。”一位在新浪微博工作了多年的数据中心运维工程师说,即使是新服务器启动加电的声音,“有时候都会让人心里颤抖一下”,作为在第一线和服务器打交道的人,“我们不求大富大贵,但求平安无事。”



IT即业务 计算即未来

服务器需要“被忘记”


如果说十年前,写一篇文章《IT即业务 计算即未来》,可能很多人还会不以为然,那时候电子商务才刚刚兴起,在线应用主要还是游戏、网站和QQ等聊天工具,没有滴滴打车,没有Uber,更没有微信和ofo共享单车,除了少数互联网公司,“IT就是IT,业务就是业务”,把这两者画上等号简直是不可思议的事情。


现在,再写一篇文章,同样是《IT即业务 计算即未来》的标题,人们则会说“这是一个多么土的话题”或者“这还用你说?”,几乎每一个身处于IT行业、新经济环境中的从业者都清清楚楚的明白:IT即业务 计算即未来——企业的业务就是IT,IT就是业务本身,而计算则是企业业务发展的未来。


但作为IT的核心、计算的承载,服务器又肩负着什么样的任务呢?


简单来说,服务器要能做到IT Guys的“默默无闻,鲜有问津”就是最好的,“在这个计算无所不在的世界里,服务器是无所不在的,支撑着企业业务、社会服务和创新应用,而为了让一切都按部就班、井然有序,服务器最好的平凡的,没有人意识到服务器的存在,或者说,服务器从不出现在话题讨论的头条中,是最好的。”

服务器是需要“被忘记”的产品,之所以这么说,是因为在实际的运行中,服务器能“被想起来,被重视,被提到CIO或CEO的议事日程上”的情况无外乎有四种:

性能不足,无法满足业务的峰值需求,这个时候,使用计算能力的用户面对的是延迟的甚至是无法返回的响应,无法得到正常的业务服务;

管理复杂,运维困难,导致数据中心服务器管理团队工作超负荷,不断地投入人力、物力和精力,但往往收效甚微,团队的工作时间都被侵占在服务器管理运维上,无法去支持其他同样重要的业务;

在突发状况时无法积极应对,比如说前面说到的Uber数据中心空调故障的问题,直接导致业务延迟甚至中断,而且恢复起来非常困难,造成长期的影响和企业的商业减誉;

随着业务的发展需要进行扩展升级,这倒是一个正常的情况,一般来说都需要在公司内部执行正常的设备采购和审批流程。


换句话说,除了第四点,其他三点谁也不想遇到,这意味着服务器不能支撑业务、需要投入大量的管理运维精力、在突发状况面前不堪一击,也意味着“服务器的告警指示灯或是数据中心管理平台的告警会一刻不停的想起来,而业务部门的投诉邮件会疯狂的涌入你的邮箱中来”——“服务器必须被忘记”,或者说,它注定应该是平凡的、默默无闻的,“计算无所不在,服务器无处不在,但却应该是一个隐形的平凡世界。”


但即使是身处“平凡的世界”,服务器也仍然应当砥砺前行、不断进化,只有这样,才能满足企业业务发展对计算能力、计算特点的不断变化的需求,“服务器或许不需要如波涛翻滚一般激烈,但却要平凡如河水般地淌流不息”。



现代化计算

要“四化” 计算先得现代化


随着企业业务的发展,越来越多的企业面临着“新四化”的挑战,即物联网化、移动互联网化、人工智能化和数字化(转型)——或许不是每个企业都要面对所有这“新四化”,但或多或少都会有所涉及,特别是企业的数字化转型,是当前企业管理者所面对的最重要的课题之一。


很显然,在“新四化”中,服务器的重要性毋庸置疑,它们所有都是基于计算、基于IT技术而发展起来的,但是越来越多的企业及其IT管理者发现,如果仅仅依靠以前的IT基础架构进行支撑,他们很难实现“新四化”,首当其冲的就是服务器,可以说,在实现“新四化”的过程中,服务器开始“搞事情”了。


比如说人工智能,随着深度学习、机器学习的不断演进,现有的服务器已经不能支撑企业在人工智能上的工作负载,传统的CPU在人工智能的计算需求面前正变得软弱无力,大计算量、高并行度、具有鲜明计算特征的人工智能(特别是深度学习)计算对服务器提出了新的要求:除了CPU,服务器要纳入GPU、FPGA、ASIC等新的计算单元,并随之带来在内存容量、能耗散热、架构设计、管理平台等等方面新的挑战。

而在企业的数字化转型中,相当一部分的企业正面对数据中心融合转型的难题,计算和存储的融合在这些数据中心内已经成为必须要面对的问题,因此,他们的服务器正越来越多的承载混合的、多样化的工作负载,比如说软件定义存储、软件定义网络,成为融合、超融合的基础设施,这就要求服务器既有强大的计算能力,又有高带宽、大吞吐、大存储容量的能力,可以支持新一代的闪存(NVMe)介质。


现代化计算包括了多样化的异构计算(GPU、FPGA等),融合或超融合的基础架构承载能力,对NVMe SSD、NVDIMM、25G网络及RDMA的支持,防止恶意入侵和确保系统安全的安全性特性,更包括了计算管理(服务器运维管理)的自动化与智能化。


随着企业数据中心规模的不断加大,服务器管理运维的复杂度面临成倍数甚至指数级的增长,只是提供报告已经不能满足数据中心管理者的需求,他们需要服务器的管理平台可以将例行日常管理实行自动化、智能化,从而解放服务器管理员的宝贵精力——“要以最快的速度自动化的解决所遇到的90%的重复性、一般性问题,要提供新一代API,从而实现协调一致的、可扩展的管理,而且,人为接触、人为操作要越少越好!”


“可扩展的业务架构、智能自动化(管理运维)、集成安全特性,现代化的计算需要现代化的服务器来支撑,它是企业实现‘新四化‘的基础,是现代化数据中心基石。”——拥有现代化的服务器,实现现代化的计算,企业的管理者所拥有的不仅仅是成本、敏捷性,或是“平凡的向前淌流不息的服务器“,更多的是创新和发展的机遇。


随着新一代戴尔PowerEdge服务器问世的步伐越来越近,我们将能够很快见到戴尔为现代化计算所设计制造的新一代x86服务器,这些服务器在IT Guys的手中,将成为未来企业“新四化”过程中计算需求的坚实基础。


敬请期待【平凡的世界】下一期“现代化计算背后那片闪耀的蓝光”