数据仓库基础理论

一、什么是数据仓库

数据仓库(DataWarehouse),一般缩写成DW、DWH。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

名词解释:

  1. 面向主题的
    面向主题跟面向应用相对应。面向应用是指实现某种功能,数据集合也是其单一功能的数据集。而面向主题是指为了实现某个主题而产生的一个或多个的面向应用的数据集合的整合。
    举个例子,网络购物时,其中支付是一个面向应用的主体即支付模块或者支付页面,而交易是一个面向主题的主体即整个动作的过程。因为交易是从选品,下单,双方确认,支付,卖家发货,物流运输,买家确认收货的一整套流程,支付只是其中的一环。
  2. 集成的
    数据仓库的一个重要的功能是把不同的数据源的数据汇总到一起。
    集成是指把不同类型的数据源的数据进行整合,按照统一的形式进行集成。
    比如性别在一个数据源用男/女 另一个用m/f,那么在数据仓库中我们需要对其进行统一。
  3. 相对稳定的
    数据一般有一定的生命周期,历史的数据一般不会再改变,我们可以采用增量的策略进行数据的传输和计算。比如看订单的支付成功的相关信息,那么一旦订单支付成功之后,这个订单的支付成功相关的信息就不会在变更,所以此类的数据可以按天增量计算。
  4. 反应历史变化的
    由于在数据仓库中可以存储历史的信息,那么就可以根据这些历史信息进行数据的分析来反映历史的变化。而操作型数据库一般只会某些时间段的数据。

其他补充

  1. 数据仓库(DW)是用于从不同来源收集和管理数据,以提供有意义的商业洞察力过程。数据仓库通常用于连接和分析来自异构源(数据存储和管理中,不同的数据系统和格式)的业务数据。数据仓库是BI系统的核心,是为数据分析和报告而构建的。
  2. 数据仓库(DW)是技术和组件的混合体,有助于战略性地使用数据。它是企业对大量信息的电子存储,旨在用于查询和分析而不是事务处理。它是一个将数据转化为信息并及时提供给用户以发挥作用的过程。
  3. 数据仓库(DW)与组织的操作数据库分开维护。但是,数据仓库不是产品而是环境。它是信息系统的架构构造,可为用户提供当前和历史决策支持信息,这些信息在传统的操作数据存储中难以访问或呈现。
  4. 很多人都知道,一个由 3NF 设计的库存系统数据库有很多相互关联的表。例如,关于当前库存信息的报告可以包括 12 个以上的连接条件。这会迅速减慢查询和报告的响应时间。数据仓库提供了一种新设计,可以帮助减少响应时间,并有助于提高报表和分析查询的性能。
  5. 数据仓库系统也被称为以下名称:
    决策支持系统 (DSS)、行政信息系统、管理信息系统、商业智能解决方案、分析应用、数据仓库。

二.数据仓库的前世今生

  1. 历史
    1960 年 - 达特茅斯 (Dartmouth) 和通用磨坊 (General Mills) 在一个联合研究项目中,开发术语维度和事实。
    1970 年 - 尼尔森和 IRI 引入了用于零售销售的维度数据集市。1983- Tera Data Corporation 推出专为决策支持设计的数据库管理系统数据仓库始于 1980 年代后期,当时 IBM 员工 Paul Murphy 和 Barry Devlin 开发了业务数据仓库。然而,真正的概念是由 Inmon Bill 给出的。他被认为是数据仓库之父。他撰写了有关仓库和企业信息工厂的构建、使用和维护的各种主题的文章。
  2. 发展过程
    数据仓库的发展大致经历了这样的三个过程:
    a.简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需要的汇总数据。这个阶段的大部分表现形式为数据库和前端报表工具。
    b.数据集市阶段:这个阶段,主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。
    c.数据仓库阶段:这个阶段,主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持通过数据仓库建设的发展阶段,我们能够看出,数据仓库的建设和数据集市的建设的重要区别就在于数据模型的支持。因此,数据模型的建设,对于我们数据仓库的建设,有着决定性的意义。

三.数据仓库与传统数据库

  1. 数据粒度不同:数据库存储的是操作型数据,是细节性的数据,是当前的数据,反应的是最后修改的结果。数据仓库是分析型的集成或者汇总的数据,面向主题,并且保存数据的所有历史状态。
  2. 数据生命周期不同:数据库存的数据的生命周期比较短,不会保存很久的数据。数据仓库则需要历史数据来反映趋势的变化和数据分析。
  3. 建模方法不同:数据库采用范式建模,不能有冗余。数据仓库的建模方法有DW范式建模(跟数据库的范式建模也不同)和DM维度建模等,可以存在冗余。
  4. 时间敏感度不同:数据库的数据要求及时性非常高。数据仓库可以容忍数据的一定的延迟。
  5. 目标不同:数据库主要面向业务处,理的而数据仓库则面向分析用户。

四.数据仓库是如何工作的

数据仓库用作中央存储库,信息来自一个或多个数据源。数据从事务系统和其他关系数据库流入数据仓库。
数据可能是:结构化的、半结构化、非结构化。
数据库数据经过处理、转换和摄取,以便用户可以通过商业智能工具、S客户端和电子表格访问数据仓库中处理过的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。
通过将所有这些信息合并到一个地方,组织可以更全面地分析其客户。这有助于确保它考虑了所有可用信息。数据仓库使数据挖掘成为可能。数据挖掘正在寻找可能导致更高销售额和利润的数据模式。

作者:liuyang  创建时间:2023-09-19 17:22
最后编辑:liuyang  更新时间:2023-10-23 13:28