数据库我们都很熟悉,那么数据仓库是什么呢?如果你在银行工作过,或者在一些大型数据公司工作过,那么你就会接触到数据仓库。在银行系统中,是专门有数据仓库这个功能的,它就是为上下游提供数据信息,而这个系统一般都会有运营人员进行监控,负责信息流的处理,这个过程被人们简称为跑批(执行批处理)。
那么什么是数据仓库呢?它有什么用途呢?它和数据库有什么区别和联系呢?
数据仓库(DataWarehouse),从字面理解就是数据的存储仓库,那么它和我们常见的关系型数据库,比如mysql等有什么区别呢?我们都知道,数据库设计的时候要满足范式,就是不要有冗余列。而数据仓库偏偏反其道而行之。它为了信息检索的方便和快捷,他增加了很多冗余列,这样查询的时候不需要关联表,查询效率大大提升。数据库设计的时候是处理业务关系的,而数据仓库设计的时候是为了做分析和决策而创建的。比如我们会分析哪个流程用时过长,有利于业务流程的优化,我们会做数据分析,数据挖掘,数据报表,这些都是数据仓库来做的。比如我们的历史交易记录不会直接查询数据库的,而是会使用数据仓库来提供历史记录的查询,这样可以减少对数据库的压力,同时查询效率更高效。
数据仓库的数据是怎么产生的呢?答案是ETL,这个如果你接触过数据仓库的话,就会经常听到这个词,其实,这是三个单词的首字母。在互利网中,我们经常会看到一些单词首字母的缩写,一方面是为了表达方便,一方面就是为了显起来高大上。ETL这三个单词分别是Extract,Transform,Load.也就是数据仓库数据处理流程。首先进行数据抽取,就是从各个表中获取到我们需要的数据。其次进行数据转换,获取到的原始数据的格式会有不同,我们需要进行一些转换,比如有些字段为空,我们需要补0,有些日期字段非法,我们也要进行过滤,总之,就是消除和整理数据,让数据看起来整齐划一。最后要做的就是数据的加载,就是把数据存储到数据仓库中,提供给上下游进行分析处理。
那么有哪些主流的数据仓库工具呢?应用最广泛的就是基于Hadoop的hive,这是一个可以将结构化的数据文件映射为数据表的工具。并提供简单的sql查询功能,他使用hiveql来进行查询,并能将其转换为MapReduce任务进行运行。Hive中的数据都是存储在HDFS中,因此使用Hive前,需要配置Hadoop环境。
任何东西都不是绝对的,比如数据库范式有些时候我们就是要不遵守它,反而能达到我们想要的效果。理论可以指导实践,反过来我们在实践中也可以形成新的理论。数据库和数据仓库都是为了满足某种需求而出现的,就像关系型数据库和非关系型数据库一样,都是为了解决某种问题而设计的。软件永远是用来解决问题的,而不是制造问题的。如果有新的问题目前软件解决不了,那我们就新创造一个软件。