决策树-ZhiMap思维导图

决策树
进入思维导图模式
- 原理
  - 构造
    - 根节点
    - 内部节点
    - 叶节点
  - 剪枝
    - 预剪枝
    - 后剪枝
- 概念
  - 纯度——让目标变量的分歧最小
  - 信息熵——表示了信息的不确定度。
    - 不确定大，信息量大——信息熵大
    - 不确定小，信息量小——信息熵小
- 算法（基于信息度量的不同方式）
  - ID3算法
    - 计算原理：采用信息增益
    - 优点：算法规则相对简单，可解释性强
    - 缺点：有些属性可能对分类任务没有太大作用，但是他们仍然可能会被选为最优属性
  - C4.5算法（基于ID3上的改进）
    - 计算原理：采用信息增益率
    - 采用悲观剪枝
    - 离散化处理连续属性
    - 处理缺失值
  - CART算法（仅支持二叉树）
    - 分类树
      - 基于数据判断，处理离散数据
      - 输出样本类别
      - 计算原理：采用基尼系数
      - 基尼系数越小，样本之间的差异性小，不确定程度低
    - 回归树
      - 基于数据预测，处理连续数据
      - 输出一个数值
      - 计算原理：采用偏差（离散程度均值or方差）
      - LSD：最小二乘偏差 & LAD：最小绝对偏差
    - CART剪枝
      - 后剪枝方法：cost-complexity prune，中文叫做代价复杂度
      - step1：基于表面误差率增益值，来判断剪枝前后的误差，从而生成子树序列
      - step2：通过验证，在第一步生成的子树序列中找到最优的决策树
- 工具：sklearn、Weka（一个免费的数据挖掘工作平台）

决策树

​原理

​构造

​根节点

​内部节点

​叶节点

​剪枝

​预剪枝

​后剪枝

​概念

​纯度——让目标变量的分歧最小

​信息熵——表示了信息的不确定度。

​不确定大，信息量大——信息熵大

​不确定小，信息量小——信息熵小

​算法（基于信息度量的不同方式）

​ID3算法

​计算原理：采用信息增益

​优点：算法规则相对简单，可解释性强

​缺点：有些属性可能对分类任务没有太大作用，但是他们仍然可能会被选为最优属性

​C4.5算法（基于ID3上的改进）

​计算原理：采用信息增益率

​采用悲观剪枝

​离散化处理连续属性

​处理缺失值

​CART算法（仅支持二叉树）

​分类树

​基于数据判断，处理离散数据

​输出样本类别

​计算原理：采用基尼系数

​基尼系数越小，样本之间的差异性小，不确定程度低

​回归树

​基于数据预测，处理连续数据

​输出一个数值

​计算原理：采用偏差（离散程度 均值or方差）

​LSD：最小二乘偏差 & LAD：最小绝对偏差

​CART剪枝

​后剪枝方法：cost-complexity prune，中文叫做代价复杂度

​step1：基于表面误差率增益值，来判断剪枝前后的误差，从而生成子树序列

​step2：通过验证，在第一步生成的子树序列中找到最优的决策树

​工具：sklearn、Weka（一个免费的数据挖掘工作平台）

原理

构造

根节点

内部节点

叶节点

剪枝

预剪枝

后剪枝

概念

纯度——让目标变量的分歧最小

信息熵——表示了信息的不确定度。

不确定大，信息量大——信息熵大

不确定小，信息量小——信息熵小

算法（基于信息度量的不同方式）

ID3算法

计算原理：采用信息增益

优点：算法规则相对简单，可解释性强

缺点：有些属性可能对分类任务没有太大作用，但是他们仍然可能会被选为最优属性

C4.5算法（基于ID3上的改进）

计算原理：采用信息增益率

采用悲观剪枝

离散化处理连续属性

处理缺失值

CART算法（仅支持二叉树）

分类树

基于数据判断，处理离散数据

输出样本类别

计算原理：采用基尼系数

基尼系数越小，样本之间的差异性小，不确定程度低

回归树

基于数据预测，处理连续数据

输出一个数值

计算原理：采用偏差（离散程度均值or方差）

LSD：最小二乘偏差 & LAD：最小绝对偏差

CART剪枝

后剪枝方法：cost-complexity prune，中文叫做代价复杂度

step1：基于表面误差率增益值，来判断剪枝前后的误差，从而生成子树序列

step2：通过验证，在第一步生成的子树序列中找到最优的决策树

工具：sklearn、Weka（一个免费的数据挖掘工作平台）