现代企业要么已在做数字化升级,要么正在准备数字化路上。企业数字化过程中,势必会产生大量的数据,多样的数据类型,不同的使用人群和使用目的。
说起数据大家首先想到的是数据库,它是业务结构化数据的存储单元,用于业务事务处理。后来为了更好地支持经营者做企业决策,才有了OLAP(On-Line Analytical Processing)的数据仓库(Data Warehouse),支持复杂的多维分析,侧重决策支持,提供直观易懂的查询结果。数据仓库支持从诸如数据库的结构化数据源获或文件等非结构化数据源获取原始数据,在获取原始数据之后随即使用ETL(Extract Transform Load)工具完成结构化数据清洗与转换,最终进入OLAP数据库后,进行数据建模、多维度数据分析与提供决策支持。
数据仓库是专为KPI(Key Performance Indication)报表或BI(Business Intelligence)商业智能分析而提供分析型数据的存储单元,说白了它仍旧是一种“数据库”,只不过特殊之处是用于存储分析型的统计明细数据,方便做多维分析和趋势预测。简言之,数据仓库是为BI商业智能分析而生的。
故此新的数据技术孕育而生了,即数据湖(Data Lake)。与数据仓库相较而言,数据湖是较新的技术,拥有不断演进的技术架构。在数据湖中,它可存储任何形式(即结构化和非结构化)和任何格式(即文本、音频、视频和图像等)的原始数据。
数据湖是一个集中存储的数据库,用于存储所有的结构化和非结构化数据,可用其原生格式存储任何类型的数据,没有大小限制。数据湖的开发是为了处理大数据量,擅长处理非结构化数据。所有数据移动到数据湖中是不进行转换的,数据湖中的每个数据元素都会分配一个全局唯一的标识符,并对其进行标记,以后可通过查询找到该元素。
根据概念定义,数据湖不会接受数据治理,但大家都认为良好的数据管理对预防数据湖转变为数据沼泽是不可或缺的。数据湖在数据读取期间才创建模式,与数据仓库相比,数据湖缺乏结构性,但具备更高的灵活性和更高的敏捷性。
数据湖非常适合深入分析非结构化数据,数据科学家用它预测建模和统计分析等高级分析。而数据仓库非常适用于业务运营报告等常规性用途,因为它具有高度结构化和多维动态分析等特性。
总而言之,数据仓库和数据湖是企业都需要的数据工具,数据仓库非常适用于业务实践中常见的可重复报告分析和业务逻辑分析,而当执行不太直接的数据分析时,数据湖就非常有价值。
标签: 数据仓库