数据挖掘概念与技术的第4章,数据仓库与联机分析处理 |
4. 数据仓库与联机分析处理
数据仓库设计与使用
商务分析框架
考虑四种视图
自顶向下视图
数据源视图
数据仓库视图
商务查询视图
需要三种技巧
商务技巧
技术技巧
计划管理技巧
设计过程
方法
自顶向下
自底向上
混合方法
步骤
选取待建模的商务处理
选取商务处理的粒度
选取用于每个事实表记录的维
选取每个事实表记录中的度量
应用
分类
信息处理
查询和基本的统计分析
分析处理
OLAP操作
数据挖掘
知识发现
OLAP和数据挖掘的区别
从OLAP到多维数据挖掘
数据挖掘应与OLAP技术相集成
数据仓库概念
概念
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程
关键特征
面向主题的
集成的
时变的
数据仓库中的关键结构都隐式或显式地包含时间元素
非易失的
两种数据访问操作
数据装入
数据访问
建设数据仓库
查询驱动的
在异构数据库上建立
包装程序
集成程序
与局部数据资源的处理竞争资源
更新驱动的
将异构数据源先集成,存储在数据仓库中,供查询和分析
不与局部数据资源竞争资源
不包含最近的信息
OLTP与OLAP的区别
面向性
OLTP是面向顾客的
OLAP是面向市场的
数据内容
OLTP管理当前数据
OLAP管理大量历史数据
数据库设计
OLTP采用实体-关系数据模型和面向应用
OLAP采用星形或雪花模型和面向主题
视图
OLTP关注企业或部门内部的当前数据
OLAP处理来自于不同单位的大量数据
访问模式
OLTP访问主要是短的原子事务
OLAP大部分是只读操作
多层体系结构
顶端客户层
查询、报告工具
分析工具
数据挖掘工具
OLAP服务器
关系OLAP
多维OLAP
数据仓库服务器
数据仓库模型
企业仓库
包含整个企业中关于主题的所有信息
数据集市
包含企业范围数据的一个子集
虚拟仓库
操作数据库上视图的集合
开发数据仓库推荐方法
递增、进化的方式实现数据仓库
定义一个高层次的企业数据模型
基于上述模型,并行实现独立的数据集市和企业数据仓库
通过中心服务器集成不同的数据集市,构造分布数据集市
构造多层数据仓库
数据仓库工具
数据提取
数据清理
数据变换
装入
刷新
管理工具
元数据库
数据仓库结构
操作元数据
用于汇总的算法
由操作环境到数据仓库的映射
关于系统性能的数据
商务元数据
数据仓库实现
数据立方体的有效计算
数据立方体计算的方体总数为 个
维灾难,方体总数=
方体的物化
不物化
完全物化
部分物化
物化的策略
冰山立方体
外壳立方体
索引OLAP数据
位图索引
连接索引
OLAP服务器结构
ROLAP
基本事实表
汇总事实表
MOLAP
HOLAP
数据仓库建模
数据立方体
维
维是一个单位想要记录的透视或实体
数据立方体是n维的
事实
主题用事实表示
事实是数值度量的
事实表包括事实的名称或度量,及每个相关维表的码
方体
顶点方体
基本方体
方体的格
方体单元
方体中对应于各个维的具体值的数据单元
也叫多维点
多维数据模型的模式
星形模式
数据仓库包括
一个大的中心表(事实表)
一组小的附属表(维表),每个维一个
雪花模式
在星形模式的基础上变形
把某些维表规范化,进一步分解到附加表中
事实星座
在星形模式基础之上
多个事实表共享维表
采用
数据仓库多采用事实星座模式
数据集市多采用星形或雪花模式
维:概念分层
概念分层是定义一个映射序列,将低层概念集映射到较高层、更一般化的概念集上。
模式分层
形成数据库模式中属性的全序或偏序的概念分层
集合分组分层
通过将给定维或属性的值离散化或分组来定义概念分层
度量的分类与计算
多维点
用维 - 值对的集合来定义
度量概念
是一个数值函数
该函数可以对数据立方体空间的每个点求值
度量分类
分布的
能用分布方式进行计算
代数的
能够用一个具有M个参数的代数函数计算
M是有界正整数
每个参数都可由一个分布聚集函数求得
整体的
不能用代数的聚集函数来计算的
OLAP操作
上卷
通过沿着一个维的概念分层高上攀升
或通过维归约
在数据立方体上进行聚集
下钻
通过沿一个维的概念分层向下
或通过引入附加的维
由粗略的数据到更详细的数据
切片和切块
在给定立方体的一个或多个维上进行选择,定义子立方体
转轴
转动数据的视角
其它操作
钻过
执行涉及多个事实表的查询
钻透
使用关系SQL机制,钻透到后端关系表
TopN
其它分析建模
星网查询模型
足迹
泛化
特殊化
数据泛化
定义
通过把相对底层的值用较高层概念替换来汇总数据
通过减少维数,在涉及较少维数的概念空间汇总数据
概念描述
数据的特征描述
面向属性归纳
属性删除
属性泛化
属性泛化控制
属性泛化阈值控制
广义关系阈值控制
数据的比较描述
面向属性归纳