数据湖迈入全面的数字经济时代

2020-11-09 10:42:22

当前我们迈入了全面的数字经济时代,一切都变得智能起来。

因智能而简单,一切都变得容易起来。就如阿里巴巴一样,让天下没有难做的生意,成就了一个横跨商业、金融、物流、大数据、云计算等各个领域的独特数字经济体,令全球瞩目。

“大数据好比石油,算力好比发动机,云原生企业级数据湖就好比一辆F1,有机融合了大数据与算力,助力企业用户与互联网用户奔驰在辽阔的应用大地。”

来自阿里云智能存储产品资深总监陈起鲲(Alex)的一个很有意思的比喻,让大家对数据湖有了新的好奇。

早在十年前纽约Hadoop World大会上就诞生的数据湖概念,现在企业全面实现智慧化、数智化转型,为什么还需要数据湖?

重新认识数据湖,从互联网到企业级的演进

我们要重新认识数据湖,不妨简单捋一捋数据湖的前世今生。

在2000年之前的数据库时代,以IBM+Oracle+EMC为“铁三角”面向大型制造业、银行等内部系统,传统数据库的处理能力有限,而且价格还高昂。

随着2000年后互联网的蓬勃发展,由Google带出来了影响颇深的GFS、BigTable和MapReduce,让业界清楚了分布式存储、调度与计算模型的样子。阿里巴巴飞天系统也成为分布式技术体系中的一员,突破传统数据库的藩篱,开始实现数据库的低成本大规模扩张。

2010年,Pentaho创始人兼CTO詹姆斯·狄克逊(James Dixon)首次提出数据湖概念,Pentaho同期发布了开源框架的Hadoop第一版。

在这个时期,企业级存储领域的IBM、EMC等也推出了数据湖解决方案,其核心基于分布式文件系统建立的数据存储方式,横向扩展比较强大,实现了集中统一管理,但是在云原生方面没有天然的优势。

与此同时,基于HDFS系统带来的Hadoop和Spark开源生态构建,在一定程度上推进了企业数据湖的进程。后期EMR开源数据湖,实现云上托管Hadoop数据湖架构,只是存储和计算一直耦合在一起,在稳定性、扩展性、成本经济性方面依然受限,难以深入企业级行业用户。

一方面,来自开源软件本身能力的限制, 传统数据湖技术无法满足企业用户在数据规模、存储成本、 查询性能以及弹性计算架构升级等方面的需求, 也无法达到数据湖架构的理想目标。

另一方面,在这个时期,企业用户有了更高的要求,需要更低廉的数据存储成本、更精细的数据资产管理、可共享的数据湖元数据、 更实时的数据更新频率以及更强大的数据接入工具。

在云原生数据湖还没有出现之前,这都属于数据湖1.0阶段。

随着云原生时代的到来,借助公共云的基础设施,将数据湖平台的优势更广泛地展现了出来,用户的技术选择也更为丰富。HDFS也逐渐被更强大的云存储系统如对象存储OSS所取代,对象存储OSS成为了数据湖的存储基础设施。对象存储OSS的99.995%的可用性SLA、海量扩展能力、冷热存储类型、RESTful访问、HDFS兼容以及计算引擎生态融合,给客户带来新的价值,包括:存储更加稳定可靠、海量数据规模支持、数据冷热分层成本优化、在线应用通过RESTful API直接写入数据即可被计算引擎分析,无需数据迁移。

数据湖的引擎也丰富起来,包括了之前Hadoop和Spark的生态引擎、公共云厂商的数据湖引擎。在统一元数据服务模式下,升级之后的数据湖架构由一个核心存储系统+多个引擎共同构成。

基于此, 阿里云也推出了云原生数据湖体系,由对象存储OSS、 数据湖构建Data Lake Formation、 E-MapReduce、Data Lake Analytics等产品强强组合,实现了存储与计算分离的创新架构,立足企业用户生产环境需求,整体构建湖存储、湖加速、湖管理、湖计算的云原生数据湖解决方案。

从而,阿里云的云原生数据湖体系的正式建立,也标志着数据湖发展进入2.0阶段。数据湖2.0最大的变化就是对于行业定位有了新的内涵,开始聚焦在新型互联网应用承载生产环境的创新架构,而不再是仅仅面向分析环境,同时以PB、EB级存储规模为基础,实现统一元数据服务,拥有加速引擎、分析引擎等多种能力。

事实上,来自互联网数据、移动数据、社交媒体数据、物联网数据的规模,远远大于传统数据中心产生的数据,数据湖在公有云厂商领域逐渐发挥出更大的行业影响与辐射力,从互联网发展起来的数据湖逐渐进入企业用户核心的生产环境,必然在大数据时代发挥出前所未有的作用。

因此,阿里云推出的业内首个云原生企业级数据湖解决方案,有着非常重要的行业引领性。既可以提供EB级数据存储与分析能力,又可以一站式实现湖存储、湖加速、湖管理、湖计算的数据湖整体构建,助力企业的数据挖掘与分析。因此,对于人工智能、物联网、自动驾驶等拥有海量数据场景的新兴行业,有着非常大的吸引力。

释放数据价值,数据湖2.0带给企业十大好处

有了对数据湖的前世今生的了解,自然对数据湖的定义也就更为明确了。相对来说,在《云原生数据湖解决方案蓝皮书》(Alibaba Cloud Data lake storage solution)中的一段说明比较适合当下数据湖的普遍发展情况。

数据湖的核心定义就是一个存储平台,就是一种以集中式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎,并可以直接对数据进行访问的统一存储平台。

那问题就来了,数据湖发展到现在,到底可以为企业用户带来哪些好处?

在阿里云等公共云厂商的推动下,数据湖已经发展到了2.0阶段,备受业界瞩目的云原生数据湖优势突出,带给了企业用户十大好处,值得一看。

一是,针对数据价值挖掘有着更强大的功能。在实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计方面,数据湖的发挥更为淋漓尽致。

二是,消除了数据孤岛的现象,没有数据格式类型的限制,所有数据皆可以流入数据湖。用户的数据产生后,可以按照数据的原始内容和属性,直接存储到数据湖,无需在数据流入数据湖之前对数据进行任何的加工或结构化处理。

三是,满足用户大规模数据存储的弹性扩容。支持当前用户复杂的数据类型,包括结构化数据,如关系型数据库中的表;半结构化数据,如CSV、JSON 、XML、日志等;非结构化数据,如电子邮件、文档、PDF、图形、音频、视频等。数据湖都可以实现PB级、EB级的大规模存储部署。

四是,实现了计算与存储分离。针对业界公认的未来大方向,存储与计算分离架构提供了独立的扩展性,可以做到数据入湖的同时,计算引擎按需扩容,更关键的是存算分离解耦方式带来了更好的性价比。需要指出的是,数据湖所说的计算存储分离不是数据处理分析引擎和磁盘在不同主机上,而是数据内容存储和数据处理分析引擎的分离。

五是,数据合规加密,提升了数据安全性。以阿里云企业级云原生数据湖为例,实现了端到端加密,本地数据加密后再传输到云上,然后数据落盘再加密,实现了云上全链路的加密模式,同时集成国密。在数据加密的基础上,针对用户内部人员的操作日志都留存,统一的权限管理,强化了操作合规性与规范化。

六是,基于云存储系统的基础架构,高可靠性突出。比如作为企业级云原生数据湖的统一存储层,阿里云对象存储OSS基于12个9的持久性设计,提供最高99.995%的可用性SLA,可存储任意规模的数据,可对接业务应用、各类计算分析平台,完全满足企业用户基于OSS构建云原生的数据湖。

七是,更低的TCO带来了更好的经济性,相对于HDFS分布式文件系统(Hadoop Distributed File System)来说,公共云的存储系统有着更好的成本效应。比如阿里云的OSS可以存储海量小文件,通过冷热分层、高密度存储、高压缩率算法等创新技术的结合,极大降低单位存储成本,阿里云OSS归档存储列表价格为0.033元/GB。

八是,实现计算引擎的云原生化,基于OSS数据源的EMR大数据计算环境,结合Hive、Spark等分析引擎,可以更好地利用弹性计算资源,体现出计算弹性的价值。

九是,实现更好的数据开发与治理能力,数据湖结合云上的数据开发治理平台DataWorks,可以很好地应对数据湖的元数据治理、数据集成、数据开发等问题,提升企业数据开发与治理的敏捷性与创新力。

十是,助力企业用户业务发展的决策,有着更直接的意义与效果。依托数据湖生命周期重要组成部分,即:数据获取、数据处理、数据分析和数据存储,不仅可以应对多样化数据爆发式增长,同时可以从中获得数据价值的更好洞察,帮助组织或企业做出更多灵活的、有利于业务成长的决策。

随着大数据与云计算技术发展的推动,数据湖(Data Lake)被大家越来越接受的同时,也带来了大家对数据湖价值的全新认识。十大好处,可能还不能完全概括完数据湖的优势。

构建开放、灵活、可扩展的企业级统一数据管理和分析平台,数据湖将企业内、外部数据随需关联,打破了数据的系统界限。这对于处在数字化转型关键时期的任何企业来说,都是非常重要而有意义的选择。

与传统大数据解决方案不同的是,云原生数据湖基于下一代数据湖架构,可直接接入业务生产中心,如业务系统中的原始数据、日志数据等。数据可通过互联网直接入湖,无需经过中间处理,提升业务效率100%,驱动企业IT系统实现从成本中心转型为创新中心。

就此,阿里云的云原生企业级数据湖解决方案采用了存储计算分离架构,基于阿里云对象存储OSS构建,并与阿里云数据湖分析Data Lake Analytics(DLA)、数据湖构建Data Lake Formation(DLF)、E-MapReduce(EMR)等计算引擎无缝对接,兼容丰富的开源计算引擎生态,可满足大数据系统统一存储、海量数据规模,更可靠、更灵活、更安全。

阿里云对于数据湖的“企业级”定义,在于数据湖从企业用户某个部门的分析引擎定位,成为了生产环境中的大数据“基石”。

行业落地开启“加速度”,数据湖的to B春天来了

当前,对于任何一个企业的数字化转型和可持续发展来说,数据湖起着至关重要的作用已经得到了众多行业的认同。

一方面,利用数据湖智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级数据分析应用需求。

另一方面,深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。

全球云观察分析认为,基于云原生的优势,企业级云原生数据湖带来的行业变革,将会是一个持久的、深入的过程。

目前来看,阿里云的云原生数据湖,已经在多个行业中实现了广泛落地,这在很大程度上为企业级行业领域的数据湖落地开启了“加速度”。

从当前阿里云数据湖的最佳实践总结来看,可以为企业行业领域提供主要五大解决方案,包括了基于EMR开源生态和云原生服务构建数据湖、云原生数据湖分析(DLA)方案、构建分层模式混合数据湖、海量数据交互式查询解决方案,以及基于数据湖打造机器学习能力。

在广告行业,针对精准投放质量,通过什么渠道推广给什么类型的人,通过数据湖的分析引擎来实现。

比如Yeahmobi是一家技术驱动发展的国际化智能营销服务公司,致力于为客户提供精准的全球营销推广服务。针对Yeahmobi在全球业务中需要统一治理数据资产,同时需要提供高并发、高弹性的存储服务需求,Yeahmobi基于阿里云构建了一站式的数据湖解决方案。

Yeahmobi每天执行上百个按量超大规模EMR集群,数据量读取超百TB,支撑全球计算分析业务。通过基于阿里云数据湖解决方案的数据采集、数据存储和数据分析的全周期模式,助力Yeahmobi实现了时间、成本、安全、计算效率等方面的改善,使得综合运行成本降低大约 50%。

在智慧教育行业,数字化的教育通过AI分析,对教室讲课的语速、学生表情、大家反应等情况产生的数据来优化教育效果。

比如流利说是世界领先的科技驱动的教育公司,作为智能教育的倡行者,流利说拥有一支业内领先的人工智能团队,经过多年积累,流利说已拥有巨型的“中国人英语语音数据库”,累积实现记录大约37亿分钟的对话和504亿句录音。针对流利说日常业务对云服务的弹性、稳定性和大算力的极高要求,阿里云为流利说量身定制了一站式数据湖解决方案。通过阿里云OSS直接存储原始音频数据,极大的简化了业务架构,并能快速对接阿里云 EMR 构建的大数据计算集群,包括 Hive、Spark、Presto在内的多种大数据计算引擎。

通过阿里云为流利说量身打造的数据湖解决方案,解决了流利说多种应用的各类数据的统一存储,帮助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。使用阿里云构建的数据湖,可以充分发挥计算与解耦合架构的优点,结合阿里云ECS弹性实例和K8S,根据实际业务需求,动态扩展、缩减对应计算资源,无须按照业务峰值常驻计算资源,这种灵活的使用模式,能够帮助流利说最大程度地优化成本。

在智慧制造行业,有哪些产品更适合用户的需求,如汽车行业的汽车颜色、车型、配件等哪些适合用户的喜好,通过数字化分析来优化汽车创新设计,打通供应链给用户更多个性化选择。

比如某太阳能整体解决方案提供商通过大数据整合能力,来提升制造良品率。基于阿里云数据湖构建了整套大数据解决方案,所有数据采集后统一存储到阿里云OSS,通过细粒度级访问控制能力有效保护生产数据,集成加密技术,使得所有制造过程诞生的数据能够获得在数据湖上的有效保护,并且达到工业大数据安全管理的核心目标:“看得见、控得住、管得好”。

与此同时,结合人工智能算法实现深度学习应用,通过关联参数的组合,分析出与影响良品率、光电转化率的关键参数,进一步获得生成工艺的优化,让良品率提升超过5%。通过对海量采集数据的分析,结合工艺参数模型,实现设备异常及工艺参数异常的提前预警,实现整个生产过程的主动式管理,最终在光电转换效率方面获得整体提升。

在智慧出行的行业,某智能出行产品公司通过大数据方案,不断优化车辆的管理运维。借助车辆智能传感器,感应车辆实时信息,通过阿里云日志服务SLS采集后,将数据汇聚存储到阿里云数据湖。通过海量的骑行数据、地理位置信息和车辆运行状态信息,动态调整部署车辆的区域,补充新车辆,及时定位出有问题的车辆进行修理和更换,保障用户的骑行体验。

通过大数据的赋能,能够根据各个区域不同的使用特点,制定不同的投放策略,达到车辆资源充分使用率、增加有效投放。通过数据湖的使用,不同类型车辆的采集信息都可以采用先入湖、后处理的方式,让设备的更新、升级更为简单,阿里云数据湖支持互联网访问的特性,大幅度简化了物联网设备数据存储路径,无需借助其他中间系统帮助。

在游戏行业,某国内某知名社交游戏公司通过数据湖构建的大数据方案,提升玩家的留存率。基于阿里云数据湖方案,通过日志服务SLS,将全球数据实时投递到数据湖中的OSS,统一存储与管理。借助OSS海量弹性能力的冷热分层,通过EMR和DLA搭建存算分离的大数据架构,实现千万日活的玩家链路、智能推荐、实时分析、实时渠道统计、精细化运营,并获得了30%的用户留存率。

在智慧营销行业,AddNewer加和科技是国内商业智能解决方案提供商,帮助企业实现数字智慧在运营和决策层面的应用,助力产业的效率升级和多行业间的跨界融合。针对加和科技在数据一源多用、快速分析、多级存储等方面的需求,阿里云从数据存储层、计算层和应用层为切入点,为加和科技构建了一站式的数据湖解决方案。

从完美支撑了加和ReachMax日均150亿条,近2000列的数据分析和大量的临时数据统计需求,帮助加和科技高达50亿元人民币流量决策和分析服务。利用数据湖解决方案的多进多出、分层计费和全类型备份的能力,帮助加和大幅简化了数据存储和应用的复杂度,相比之前自建的解决方案, 需求的平均成本降低 30%。

在智慧金融行业,上海数禾信息科技有限公司以大数据和技术为驱动,为金融机构提供高效的智能零售金融解决方案,服务银行、信托、消费金融公司、保险、小贷公司等持牌金融机构,提供营销获客、风险防控、运营管理等服务。针对数禾科技在日常业务中面临到的数据统一存储和治理、计算性能和高弹性的需求,阿里云为其搭建了统一的数据湖解决方案。

采用阿里云数据湖解决方案后,数禾科技做到了全面记录、全面是实时化、全面治理、场景驱动和安全合规的数据管理之道。帮助数禾科技真正实现数据驱动业务发展,真正地实现一切业务数据化,以及一切数据业务化。

目前,已有多个行业的几千家企业在阿里云上构建了云数据湖。随着企业级云原生数据方案的推进,数据湖的行业落地必然开启了“加速度”,这也预示着数据湖的to B春天来了。

阿里云智能存储产品资深总监陈起鲲分析指出,当前,对于大数据用户来说,大数据分析成是其业务核心,而算法的产生成为了最新的核心资产,以云原生数据湖构建的大数据引擎也就顺理成章地成为了用户的生产环境。

由此,企业用户也从数字化转型升级到数智化转型,需要在数据分析上有着本质的提升,其中需要构建创新算法,而基础的基础就需要大数据引擎,即数据湖。大数据分析与生产环境深入融合,让云原生数据湖正式在企业级领域中发挥出举足轻重的作用。

有了企业级云原生数据湖之后,to B的一切也都变得更加智能起来。

关闭