数据挖掘流程导图 |
数据挖掘
分析问题
无监督学习
聚类问题
降维问题
离散点检测
半监督学习
监督学习
获取数据
CSV/Excel数据
Pickle数据
数据库数据
数据预处理
数据清洗
数据缺失问题
去除数据缺失值
向前/向后补充缺失值
使用众数补充
插值补充
数据异常值问题
统计方法
参数估计
模型算法
IF算法
LOF算法
特征工程
数据规整
类别数据的处理
标称变量(one-hot编码)
有序变量(标量大小的数据)
数据缩放
标准化
归一化
正则化
非线性变换
特征抽取
特征过滤
维度灾难问题
特征降维
线性降维
非线性降维
特征选择
包裹式
递归特征消除RFE
RFECV
嵌入式
基于惩罚项
基于树模型
过滤式
方差选择法
相关系数法
卡方检验
互信息法
特征有效性分析
特征权重分析
特征的有效性监督
数据建模
数据分析
现状分析
对比
对比分析
平均分析
综合平均分析
原因分析
细分
分组分析
结构分析
交叉分析
杜邦分析
漏斗图分析
矩阵关联分析
聚类分析
预测分析
预测
回归分析
时间序列
决策树
神经网络
模型学习
模型选择
非概率模型
概率模型
判别模型
生成模型
超参选择
交叉验证
结果评估
模型训练
模型评估
评估指标
查全率R
查准率P
验证超参数
交叉验证
普通交叉验证
分层交叉验证
超参数调整
正则化系数
随机搜索
网络搜索
模型上线
本地模型
在线模型
数据展现
数据可视化
报告撰写