数据仓库进阶应用

一、数据仓库的存储与实现

  1. 两个系统的概念:OLTP和OLAP
    OLTP(On-line Transaction Processing):联机事务处理系统OLTP系统,也称为业务系统,它是事件驱动、 面向需求的,比如银行的储蓄系统就是一个 典型的OLTP系统。 OLTP在使用过程中积累了大量的数据,OLTP是数据库应用的主流。

    OLAP(On-line Analytical Processing): 联机分析处理系统是基于数据仓库的信息分析处理过程,是数据仓库 (Data Warehouse)的用户接口部分,它是数据驱动、面向分析的。 OLAP系统是跨部门、面向主题的。

两者的区别:

名称 业务目的 面向对象 主要工作负载 主要衡量指标 数据库设计
OLTP 业务处理 业务处理人员 增、删、改 事务吞吐量 3NF或BCNF
OLAP 业务决策支持 分析决策人员 查询 查询相应速度(QPS) 星型/雪花模型
基本含义不同 用户和系统的面向性不同 实时要求不同 数据量不同 数据库设计不同

不同的系统数据类别也不相同,按照交易及分析类系统进行如下对比

维度 OLTP类型系统 OLAP类型系统
应用范畴 偏前台 偏后台
建设目的 服务特定、固化功能、支持日常操作 服务分析应用主题、支持管理需求
时效要求 实时性高,响应要求高 多数情况实时性不太高
数据检索 数据量很小 量级上大、中、小均有
数据操作 大并发量联机交易处理:OLTP类型的 操作,以新增为主,辅以查询、删除、 修改等。 大并发量数据访问,以OLAP类型的查询(复 杂、常规、短)为主,同时支持少量OLTP类 型操作。
数据采集 范围单一,以自身数据为主;通过 API等方式与其他系统同步 接口、直连等多种方式获取多系统数据
数据传输 大多是实时方式 大多采取批量方式
数据存放 以当前数据为主,按照业务流程组织 按照业务主题方式组织,除当前数据以外还 存储大量历史数据。
数据展现 基本使用固定GUI 多种方式并存,包括应用系统、固定报表、 随机查询等。
  1. 数据存储的方式
    数据仓库的数据由两种存储方式:
    一种是存储在关系数据库中。
    另一种是按多维的方式存储,也就是多维数组。
  2. 存储何种数据
    数据仓库中存在不同的综合级别的数据。一般把数据分成四个级别,早期细节级数据,当前细节级数据,轻度综合级,高度综合级。不同的综合级别一般称为粒度。粒度越大,表示细节程度越低,综合程度越高。级别的划分是根据粒度进行的。数据仓库中还有一种是元数据,也就是关于数据的数据。传统数据库中的数据字典或者系统目录都是元数据,在数据仓库中 元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前端工具建立映射用的。
  3. 粒度与分割
    粒度—是对数据仓库中的数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多;反之粒度越大,细节程度越低,综合程度越高,回答查询的种类越少。
    分割—是将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理的效率。数据分割后的数据单元成为分片。数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或者业务领域等进行分割,也可以按照多个标准组合分割。
  4. 追加时数据的组织方式
    这里说一种比较简单的情况,轮转综合文件。比如:数据存储单位被分为日、周、季度、年等几个级别。每天将数据记录在日记录集中;然后七天的数据被综合存放在周记录集中,每隔一季度周记录集中的数据被存放到季度记录集中,依此类推……这种方法把越早期的记录存放的综合程度越高,也就是粒度越大。
作者:liuyang  创建时间:2023-09-20 08:38
最后编辑:liuyang  更新时间:2023-10-23 13:28