决策树 |
决策树
原理
构造
根节点
内部节点
叶节点
剪枝
预剪枝
后剪枝
概念
纯度——让目标变量的分歧最小
信息熵——表示了信息的不确定度。
不确定大,信息量大——信息熵大
不确定小,信息量小——信息熵小
算法(基于信息度量的不同方式)
ID3算法
计算原理:采用信息增益
优点:算法规则相对简单,可解释性强
缺点:有些属性可能对分类任务没有太大作用,但是他们仍然可能会被选为最优属性
C4.5算法(基于ID3上的改进)
计算原理:采用信息增益率
采用悲观剪枝
离散化处理连续属性
处理缺失值
CART算法(仅支持二叉树)
分类树
基于数据判断,处理离散数据
输出样本类别
计算原理:采用基尼系数
基尼系数越小,样本之间的差异性小,不确定程度低
回归树
基于数据预测,处理连续数据
输出一个数值
计算原理:采用偏差(离散程度 均值or方差)
LSD:最小二乘偏差 & LAD:最小绝对偏差
CART剪枝
后剪枝方法:cost-complexity prune,中文叫做代价复杂度
step1:基于表面误差率增益值,来判断剪枝前后的误差,从而生成子树序列
step2:通过验证,在第一步生成的子树序列中找到最优的决策树
工具:sklearn、Weka(一个免费的数据挖掘工作平台)