
2021
04/15
如果企业曾经对数字化转型
持有观望态度的话
那么相信经历过去一年
这样的疑虑都已被打消
实践表明
数字化转型越成熟
受到的影响越小
数字化转型的核心
就是以数据为中心
这也是为什么数据湖
在今天格外重要
在“十四五”规划纲要中,“数据”一词被提及几十次。从瓦特经济发展到比特经济,数据已经成为重要的生产资料。为了赢得未来竞争力、在突发事件到来时保持韧性,大数据时代企业需要借助数据湖挖掘全量数据价值。
数据湖:数据价值的“聚宝盆”
距离数据湖(Data Lake)的提出已有十一年了,相信大家对这个概念并不陌生。近两年随着大数据、云计算等技术的发展,数据湖开始真正从技术概念一步步走向实际应用。
先来看一下数据湖概念的提出者,Pentaho创始人兼CTO——James Dixon对其的描述:
如果把数据集市(Data Mart)看成是一个经过清洗、包装、结构化以后便于饮用的瓶装水仓库,那么数据湖就是一个更自然状态下的大水体。数据湖中的内容从源头流进湖中,用户可以在湖中进行检查、潜入或采集样本。
由此可见,数据湖强调的是对于业务数据“原汁原味”的保存,确保了数据的真实性和准确性。
以往人们都在强调数据量的几何式式增长,其实,随着暴增的数据量,需要存储的数据类型也愈来愈丰富。
多态数据结构:数据形态的多样性
传统的企业数据管理方案是建立数据仓库,相较于数据仓库只能处理结构化数据(如关系型数据库中的表),数据湖显得“包容”得多,它可以轻松收集各种数据,包括存储结构化数据,半结构化数据(如CSV、日志、XML、JSON),以及非结构化数据(如文本、图形、图像、音频、视频)。
国际数据公司IDC预测,到2023年,中国的数据量将达到40ZB,其中超过80%是非结构化数据。非结构化数据在共享、搜索和分析等使用过程中具有持续价值,它所反映的信息蕴含着诸多企业效益提高的机会。数据湖这种对多态数据结构的容纳能力正是未来企业不可或缺的。
正是基于大数据时代客户对非结构数据管理需要的洞察,此前,戴尔科技针对预测性大数据分析发布了横向扩展数据湖方案,帮助客户真正捕获大数据的价值,实现存储空间和性能的线性增长,从而保持更低的获取与管理的成本。
通过旗下PowerScale和ECS(Elastic Cloud Storage)等文件和对象存储产品,戴尔易安信多年来持续为各行业客户提供完整、可靠的数据湖解决方案。
以医疗机构为例,戴尔易安信数据湖解决方案可以同时支持PACS影像应用、心电超声应用、文件应用、移动办公应用、大数据科研等多种业务,而无需为每一种应用提供单独的存储平台,从而消除信息化建设过程中可能出现的数据孤岛。
▲医院数据湖平台示例图
除了把不同种类的数据汇聚到一起,数据湖的另一部分价值是不需要预定义的模型就能进行数据分析。
由于数据湖存储着来自业务线应用程序的关系数据,以及来自移动应用程序、IoT设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或Schema。这意味着企业可以对数据使用不同类型的分析(如SQL查询、大数据分析、全文搜索、实时分析和机器学习)来获得信息。
数据湖适合以一致的方式利用大量数据,并使用算法驱动实时分析。如今,数据传输以及通信都需要实时运行,特别是气象测控、金融服务、网络监控等领域会产生大量的实时动态数据,对于持续生成动态新数据的大多数场景,采用流数据处理是有利的。
因此,能否对流数据进行有效分析处理也是企业未来面临的考验。戴尔科技流数据平台(Dell EMC Streaming Data Platform,简称SDP)的出现填补了流式数据领域的空缺。
SDP:流式数据领域的“垦荒者”
SDP是一套基于软件与参考硬件的弹性可伸缩平台,用于注入、存储和分析无界的流式数据。作为企业级的数据存储和计算一体化平台,SDP为用户提供了安全可扩展的平台,在平台内运行的每一个应用都同时支持实时数据和历史数据的访问,并且有统一的API支持。
▲SDP的整体架构示意图
随着核心、云和边缘不断产生新的数据,依靠在分布式存储方面深耕多年的经验,戴尔科技技术专家进一步提出深度定制数据湖的想法。这些创新想法将为用户更加灵活地在存储和计算之间寻找平衡,以适应不同的场景带来新的方向。
Flink×数据湖!干货先睹为快
4月17日,Apache Flink社区2021首场Meetup将于上海举行,技术大咖齐聚一堂全方位解析数据湖生产应用难题,届时戴尔科技技术专家也会带来关于数据湖的独家干货分享,亮点都为大家整理好了,一起来先睹为快!
嘉宾议题及观点
Iceberg和对象存储构建数据湖方案
孙伟
戴尔科技集团 高级软件研发经理
随着数据湖开始采用对象存储作为底层,戴尔科技技术专家发现当前对象存储和Apache Iceberg结合中存在的痛点。
比如二者的结合都要基于Hive等第三方组件来完成对接,缺少和企业级对象存储直接对接的能力。同时,结合方案在性能方面也存在瓶颈,在面对高性能场景时只能通过额外的缓存方案来弥补。
因此,戴尔科技技术专家研发出“Iceburg+S3”对象存储对接方案,该方案解除了对第三方组件的依赖,并改善了其中一些文件上传的性能瓶颈。
而在提供通用S3对象存储方案的基础上,戴尔科技技术专家进一步提出了基于戴尔科技ECS/ObjectScale对象存储的商业接口方案,使更加高性能的数据湖得以实现。
扫码进群发现更多精彩
▼▼▼
敬请关注本次Meetup,听取技术大咖的前沿妙论。期待戴尔科技技术专家在下一代流批一体的大数据平台上,贡献更好的商业和开源相结合的生态系统。
本文转载自戴尔科技集团公众号
相关内容推荐:2021,有关数据保护的 4 个认知|戴尔科技全方位守护您的数据
{{item.summary}}
戴尔 PowerProtect DP4400 |企业数据安全的保护
戴尔易安信 PowerProtect DD 系列数据保护专用存储设备
2021,有关数据保护的 4 个认知|戴尔科技全方位守护您的数据
{{item.summary}}
戴尔 PowerProtect DP4400 |企业数据安全的保护
戴尔易安信 PowerProtect DD 系列数据保护专用存储设备
2021,有关数据保护的 4 个认知|戴尔科技全方位守护您的数据
填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
请输入公司名称
请输入姓名
请输入手机
请输入邮箱
请选择
*验证码无效
恭喜您,秒杀成功!
后续工作人员会与您进行联系
抱歉,您没有抢到!
您还可以参与其他产品的秒杀活动哦
信息提交成功
感谢您参与我们本次的问卷调查活动
请补全您的身份信息
请输入姓名
请输入企业邮箱
请输入公司全称
请输入姓名
请输入企业邮箱
请输入公司全称
请输入企业邮箱
请输入手机号
订阅成功
我们将每月通过邮箱发送资料报告发给您
请输入手机号
请输入验证码
如果您对当前页面内容感兴趣,
可填写“项目咨询单”,
进行专业咨询及帮助。
* 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。
登录后发表评论
请输入您要写的评论