
2021
08/12
这是个内卷的时代。
「内卷」
释义:原指社会文化模式发展过程中的停滞,现引申为非理性的内部竞争或“被自愿”竞争。
eg.某培训机构标语:您来,我们培养您孩子;您不来,我们培养您孩子的竞争对手。
内卷导致加班文化盛行,工作完不成?加班来解决。
然而美国国家税务局的数据科学家黛博拉·泰勒,却用实际经历告诉我们,加班这颗万灵药,也有失效的时候。
美国国税局的故事
泰勒接到一项任务,她需要从国税局的数据库中,归纳出识别身份盗窃及其他欺诈行为的规律。这个数据库相当庞大,里面躺的数据超过300 TB。
300TB什么概念?
如果将一部画质1080P、时长120分钟的电影,以1G大小计算,300TB等于307,200部电影。一个人不眠不休、正常速度观影的话,约70年能看完。
可怜的泰勒,让一堆CPU服务器连夜加班,都没能把这项艰巨的数据整理任务整利索。
焦头烂额之际,Cloudera的工程师来了,将自带GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP)推荐给国税局团队。在没有修改代码的情况下,仅对软件进行快速测试后,泰勒的工作进度立马得到5倍提升。
针对几块滞后的地方,NVIDIA数据科学家团队出手将一些非常复杂的在CPU中处理的任务,迁移到其插入Spark的RAPIDS软件接口中,从而使这些任务的所有代码都在分布式Spark集群的GPU上顺利运行。
最终,Cloudera和NVIDIA的这项技术整合,为美国国税局的数据工程和数据科学工作流程,带来了10倍的速度提升和一半的成本节约。
【CPU与GPU的碎碎念】:我们都知道,CPU是个统筹全局的大计算家,可处理大量重复数据时它也捉襟见肘。这时就要请出擅长并行运算的GPU了,在ETL(数据的提取/转换/加载)和加速海量数据分析方面,GPU向来不辱使命。
强强联合
NVIDIA的专长在于通过GPU加速AI运算,而Cloudera数据平台作为业界首个企业数据云,提供了从边缘到人工智能的全方位分析能力。
NVIDIA GPU加速Apache Spark 3.0软件的Cloudera数据平台的推出,将打破大量数据和缓慢计算造成的瓶颈,大幅加速云中数据分析和AI工作负载。
如何看待二者的合作呢?就好比美队合作钢铁侠,杨戬拉拢孙悟空,马龙联手樊振东,一个字,强!
如今,这个强者之师又迎来了他们的第三位猛士——戴尔易安信。
戴尔科技宣布,NVIDIA GPU加速的Cloudera数据平台,可以在戴尔易安信的NVIDIA认证系统上使用了。
(部分戴尔易安信NVIDIA认证系统展示
点击图片看大图)
这意味着,从研发到生产的HPC、AI和数据科学需求,将进一步自硬件层面汲取能量,并获得可观的基础设施花销节约。
至此,NVIDIA+Cloudera+戴尔易安信的强大队伍,已集结完毕,迎接他们的,将是广阔的HPC/AI舞台。
{{item.summary}}
高价值心思缜密的均衡型选手:Dell PowerEdge R760xs服务器
{{item.summary}}
高价值心思缜密的均衡型选手:Dell PowerEdge R760xs服务器
填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
请输入公司名称
请输入姓名
请输入手机
请输入邮箱
请选择
*验证码无效
恭喜您,秒杀成功!
后续工作人员会与您进行联系
抱歉,您没有抢到!
您还可以参与其他产品的秒杀活动哦
信息提交成功
感谢您参与我们本次的问卷调查活动
请补全您的身份信息
请输入姓名
请输入企业邮箱
请输入公司全称
请输入姓名
请输入企业邮箱
请输入公司全称
请输入企业邮箱
请输入手机号
订阅成功
我们将每月通过邮箱发送资料报告发给您
请输入手机号
请输入验证码
如果您对当前页面内容感兴趣,
可填写“项目咨询单”,
进行专业咨询及帮助。
* 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。
登录后发表评论
请输入您要写的评论