数据仓库进阶应用
一、数据仓库的存储与实现
- 两个系统的概念:OLTP和OLAP
OLTP(On-line Transaction Processing):联机事务处理系统OLTP系统,也称为业务系统,它是事件驱动、 面向需求的,比如银行的储蓄系统就是一个 典型的OLTP系统。 OLTP在使用过程中积累了大量的数据,OLTP是数据库应用的主流。
OLAP(On-line Analytical Processing): 联机分析处理系统是基于数据仓库的信息分析处理过程,是数据仓库 (Data Warehouse)的用户接口部分,它是数据驱动、面向分析的。 OLAP系统是跨部门、面向主题的。
两者的区别:
名称 | 业务目的 | 面向对象 | 主要工作负载 | 主要衡量指标 | 数据库设计 |
---|---|---|---|---|---|
OLTP | 业务处理 | 业务处理人员 | 增、删、改 | 事务吞吐量 | 3NF或BCNF |
OLAP | 业务决策支持 | 分析决策人员 | 查询 | 查询相应速度(QPS) | 星型/雪花模型 |
基本含义不同 | 用户和系统的面向性不同 | 实时要求不同 | 数据量不同 | 数据库设计不同 |
不同的系统数据类别也不相同,按照交易及分析类系统进行如下对比
维度 | OLTP类型系统 | OLAP类型系统 |
---|---|---|
应用范畴 | 偏前台 | 偏后台 |
建设目的 | 服务特定、固化功能、支持日常操作 | 服务分析应用主题、支持管理需求 |
时效要求 | 实时性高,响应要求高 | 多数情况实时性不太高 |
数据检索 | 数据量很小 | 量级上大、中、小均有 |
数据操作 | 大并发量联机交易处理:OLTP类型的 操作,以新增为主,辅以查询、删除、 修改等。 | 大并发量数据访问,以OLAP类型的查询(复 杂、常规、短)为主,同时支持少量OLTP类 型操作。 |
数据采集 | 范围单一,以自身数据为主;通过 API等方式与其他系统同步 | 接口、直连等多种方式获取多系统数据 |
数据传输 | 大多是实时方式 | 大多采取批量方式 |
数据存放 | 以当前数据为主,按照业务流程组织 | 按照业务主题方式组织,除当前数据以外还 存储大量历史数据。 |
数据展现 | 基本使用固定GUI | 多种方式并存,包括应用系统、固定报表、 随机查询等。 |
- 数据存储的方式
数据仓库的数据由两种存储方式:
一种是存储在关系数据库中。
另一种是按多维的方式存储,也就是多维数组。 - 存储何种数据
数据仓库中存在不同的综合级别的数据。一般把数据分成四个级别,早期细节级数据,当前细节级数据,轻度综合级,高度综合级。不同的综合级别一般称为粒度。粒度越大,表示细节程度越低,综合程度越高。级别的划分是根据粒度进行的。数据仓库中还有一种是元数据,也就是关于数据的数据。传统数据库中的数据字典或者系统目录都是元数据,在数据仓库中 元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前端工具建立映射用的。 - 粒度与分割
粒度—是对数据仓库中的数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多;反之粒度越大,细节程度越低,综合程度越高,回答查询的种类越少。
分割—是将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理的效率。数据分割后的数据单元成为分片。数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或者业务领域等进行分割,也可以按照多个标准组合分割。 - 追加时数据的组织方式
这里说一种比较简单的情况,轮转综合文件。比如:数据存储单位被分为日、周、季度、年等几个级别。每天将数据记录在日记录集中;然后七天的数据被综合存放在周记录集中,每隔一季度周记录集中的数据被存放到季度记录集中,依此类推……这种方法把越早期的记录存放的综合程度越高,也就是粒度越大。
作者:liuyang 创建时间:2023-09-20 08:38
最后编辑:liuyang 更新时间:2023-10-23 13:28
最后编辑:liuyang 更新时间:2023-10-23 13:28