全球旧事资料 分类
利润
第六部分:数据挖掘实战篇(Modeler工具实操)
1、数据挖掘处理的一般过程数据源数据理解数据准备探索分析数据建模模型评估
2、数据读入3、数据集成
变量合并(增加变量)数据追加(添加记录)4、数据理解取值范围限定重复数据处理缺失值处理无效值处理离群点和极端值的修正数据质量评估5、数据准备:数据处理数据筛选:数据抽样选择(减少样本数量)数据精简:数据分段离散化(减少变量的取值)
f数据平衡:正反样本比例均衡其它:排序、分类汇总6、数据准备:变量处理变量变换:原变量值更新变量派生:生成新的变量变量精简:降维,减少变量个数7、基本分析单变量:数据基本描述分析双变量:相关分析、方差分析、卡方检验(列联检验)变量精简:特征选择、因子分析案例:通信基本费用与开通月数的相关分析案例:开通月数对客户流失的影响分析案例:套餐类型对对客户流失的影响分析8、特征选择特征选择方法:选择重要变量,剔除不重要的变量从变量本身考虑从输入变量与目标变量的相关性考虑9、因子分析(主成分分析)因子分析的原理因子个数如何选择如何解读因子含义案例:提取影响电信客户流失的主成分分析10、常见分类预测模型分类预测基本过程如何评估分类模型的性能(查准率、查全率)11、决策树分类决策树分类原理决策树构建的三个关键问题决策树算法
f案例:识别银行欠货风险,提取欠货者的特征案例:客户流失预警与客户挽留模型12、神经网络神经网络概述神经元工作原理BP反向传播网络(MLP)径向基函数网络(RBF)13、支持向量机14、贝叶斯分类
实战:电信客户流失分析与预警模型
结束:课程总结与问题答疑。
fr
好听全球资料 返回顶部