3. 数据预处理-ZhiMap思维导图

3. 数据预处理
进入思维导图模式
- 为什么要做预处理
  - 现实世界中的数据受噪声、缺失、不一致等影响，造成质量低
  - 低质量的数据导致低质量的挖掘结果
  - 数据预处理是知识发现过程的重要步骤，将为决策带来高回报
- 数据质量
  - 质量基于数据的应用目的评估
    - 所以不能对数据进行盲目评价
    - 所以可以对数据产品进行评估，数据产品是有针对性的应用场景的
  - 质量要素
    - 准确性
    - 完整性
    - 一致性
    - 时效性
    - 可信性
    - 可解释性
- 预处理的方法
  - 数据清理
    - 填写缺失值
    - 光滑噪声数据
    - 识别或删除离群点
    - 解决不一致性
  - 数据集成
    - 集成多个数据源
    - 解决不一致性及冗余
  - 数据归约
    - 得到数据集的简化表示
    - 但能够产生同样的分析结果
  - 数据变换
    - 规范化、离散化和概念分层
- 数据归约
  - 维归约
    - 小波变换
    - 主成分分析
    - 属性子集选择
      - 逐步向前选择
      - 逐步向后删除
      - 逐步向前和逐步向后组合
      - 决策树归纳
    - 属性构造
  - 数量归约
    - 参数方法
      - 回归
      - 对数线性模型
    - 非参数方法
      - 直方图
        子集(桶)的划分规则
        等宽
        等频
        单值桶
        对存放高频率的离群点有用
        多维直方图
      - 聚类
        质量度量
        直径
        簇中两个对象的最大距离
        形心距离
        每个对象到簇形心的平均距离
      - 抽样
        无放回简单随机制作(SRSWOR)
        有放回简单随机抽样(SRSWR)
        簇抽样
        分层抽样
      - 数据立方体聚集
        基本方体
        顶点方体
  - 数据压缩
    - 无损的
    - 有损的
- 数据清理
  - 缺失值的处理
    - 忽略元组
    - 人工填写
    - 使用全局常量填充
    - 使用属性的中心度量(均值或中位数等)
    - 同一类样本的属性中心度量
    - 使用最可能的值
  - 噪声数据的处理
    (数据光滑技术)
    - 分箱
      - 分箱方法
        等频(等深)
        每个箱中的值的个数相同
        等宽
        每个箱值的区间范围相同
      - 光滑取值
        箱均值
        箱中位数
        箱边界
        替换为最近的边界值
    - 回归
    - 离群点分析
    - 概念分层
  - 清理过程
    - 偏差检测
      - 使用元数据，发现噪声、离群点、非常值等
      - 警惕字段过载
      - 唯一性规则
        属性的每个值都必须不同于该属性的其它值
      - 连续性规则
        属性的最低和最高值之间没有缺失的值
      - 空值规则
    - 数据变换(纠正偏差)
    - 上面两步迭代执行
- 数据变换
  - 光滑
  - 属性构造
  - 聚集
  - 规范化
    - 目的
      - 试图赋予所有属性相等的权重
    - 方法
      - 最小-最大规范化
        $v^{'} _{i}= \frac{v_i-min_A}{max_A-minA}(new\_max_A-new\_min_A)+new\_minA$
      - z分数规范化
        使用标准差
        $v^{'}_i=\frac{v_i-\bar{A}}{ σ_A}$
        使用均值绝对偏差
        $v^{'}_i=\frac{v_i-\bar{A}}{s_A}$
        对于离群点，使用均值绝对偏差更鲁棒
      - 按小数定标规范化
        $v^{'}_i=\frac{v_i}{ 10^j}$
        j是使得 $max(|v^{'}_i|)<1$ 的最小整数
    - 有必要保留规范化参数，以便将来的数据可以用一致的方式规范化
  - 离散化
    - 分类
      - 按是否使用类信息
        监督的离散化
        使用类信息
        非监督的离散化
        未使用类信息
      - 按离散化过程分
        自顶向下隔离散化(分裂)
        自底向下离散化(合并)
    - 方法
      - 分箱
        是自顶向下的
        是非监督的
        可以递归使用，产生概念分层
      - 直方图
        是非监督的
        可递归使用，产生概念分层
        预先设定概念导数控制递归过程
        或使用最小区间长度控制递归过程
      - 聚类
        可自顶向下，也可自底向上
      - 决策树
        熵是最常用于确定划分点的度量
      - 相关分析
        ChiMerge方法
  - 由标称数据产生概念分层
    - 由用户或专家在模式级显式地说明属性的部分序
    - 通过显式数据分组说明分层结构中的一部分
    - 说明属性集但不说明它们的偏序
      - 根据每个属性的不同值的个数产生概念分层
    - 只说明部分属性集
      - 使用预先定义的语义关系产生概念分层
- 数据集成
  - 实体识别问题
  - 冗余和相关性分析
    - 标称数据的 $χ^2$ (卡方)相关检验
      - $χ^2$ = $\sum_{i=1}^{c} {\displaystyle \sum_{j=1}^{r}{ \frac{(o_{ij}-e_{ij})^2}{ e_{ij} } } }$
      - $o_{ij}$ 是联合事件的观测频度
      - $e_{ij}$ 是联合事件的期望频度
    - 数值数据的相关系数
      - $r _{A,B}= \frac{ {\displaystyle \sum_{i=1}^{n}{(a_{i}- \bar{A} )(b_{i}- \bar{B})} } }{nσ_{A}σ_{B} } =\frac{ {\displaystyle \sum_{i=1}^{n}{(a_{i}b_{i})- n\bar{A}\bar{B}} } }{nσ_{A}σ_{B} }$
    - 数值数据的协方差
      - $Cov(A, B)=E(A \bullet B)-\bar{A}\bar{B}$
  - 元组重复
  - 数据值冲突的检测与处理

3. 数据预处理

​为什么要做预处理

​现实世界中的数据受噪声、缺失、不一致等影响，造成质量低

​低质量的数据导致低质量的挖掘结果

​数据预处理是知识发现过程的重要步骤，将为决策带来高回报

​数据质量

​质量基于数据的应用目的评估

​所以不能对数据进行盲目评价

​所以可以对数据产品进行评估，数据产品是有针对性的应用场景的

​质量要素

​准确性

​完整性

​一致性

​时效性

​可信性

​可解释性

​预处理的方法

​数据清理

​填写缺失值

​光滑噪声数据

​识别或删除离群点

​解决不一致性

​数据集成

​集成多个数据源

​解决不一致性及冗余

​数据归约

​得到数据集的简化表示

​但能够产生同样的分析结果

​数据变换

​规范化、离散化和概念分层

​数据归约

​维归约

​小波变换

​主成分分析

​属性子集选择

​逐步向前选择

​逐步向后删除

​逐步向前和逐步向后组合

​决策树归纳

​属性构造

​数量归约

​参数方法

​回归

​对数线性模型

​非参数方法

​直方图

​子集(桶)的划分规则

​等宽

​等频

​单值桶

​对存放高频率的离群点有用

​多维直方图

​聚类

​质量度量

​直径

​簇中两个对象的最大距离

​形心距离

​每个对象到簇形心的平均距离

​抽样

​无放回简单随机制作(SRSWOR)

​有放回简单随机抽样(SRSWR)

​簇抽样

​分层抽样

​数据立方体聚集

​基本方体

​顶点方体

​数据压缩

​无损的

​有损的

​数据清理

​缺失值的处理

​忽略元组

​人工填写

​使用全局常量填充

​使用属性的中心度量(均值或中位数等)

​同一类样本的属性中心度量

​使用最可能的值

​噪声数据的处理(数据光滑技术)

​分箱

​分箱方法

为什么要做预处理

现实世界中的数据受噪声、缺失、不一致等影响，造成质量低

低质量的数据导致低质量的挖掘结果

数据预处理是知识发现过程的重要步骤，将为决策带来高回报

数据质量

质量基于数据的应用目的评估

所以不能对数据进行盲目评价

所以可以对数据产品进行评估，数据产品是有针对性的应用场景的

质量要素

准确性

完整性

一致性

时效性

可信性

可解释性

预处理的方法

数据清理

填写缺失值

光滑噪声数据

识别或删除离群点

解决不一致性

数据集成

集成多个数据源

解决不一致性及冗余

数据归约

得到数据集的简化表示

但能够产生同样的分析结果

数据变换

规范化、离散化和概念分层

数据归约

维归约

小波变换

主成分分析

属性子集选择

逐步向前选择

逐步向后删除

逐步向前和逐步向后组合

决策树归纳

属性构造

数量归约

参数方法

回归

对数线性模型

非参数方法

直方图

子集(桶)的划分规则

等宽

等频

单值桶

对存放高频率的离群点有用

多维直方图

聚类

质量度量

直径

簇中两个对象的最大距离

形心距离

每个对象到簇形心的平均距离

抽样

无放回简单随机制作(SRSWOR)

有放回简单随机抽样(SRSWR)

簇抽样

分层抽样

数据立方体聚集

基本方体

顶点方体

数据压缩

无损的

有损的

数据清理

缺失值的处理

忽略元组

人工填写

使用全局常量填充

使用属性的中心度量(均值或中位数等)

同一类样本的属性中心度量

使用最可能的值

噪声数据的处理
(数据光滑技术)

分箱

分箱方法

等频(等深)