太原师范学院
实验报告
Experime
tatio
ReportofTaiyua
NormalU
iversity
报告
一、实验目的二、实验原理三、实验仪器及材料
内容
四、实验方法五、实验记录及数据处理六、误差分析及讨论
系部姓名
计算机系XXX
年级大三同组者
课程大数据分析日期
项目
数据挖掘之随机森林算法
一、实验目的
1了解随机森林。随机森林就是通过集成学习的思想将多棵树
集成的一种算法,它的基本单元是决策树,而它的本质属于
机器学习的一大分支集成学习(E
sembleLear
i
g)方
法。
2掌握随机森林的相关知识,信息、熵、信息增益等的概念。
3掌握随机森林中数据分析的几种基本方法,决策树算法,
CART算法等。
4了解集成学习的定义和发展。
5掌握随机森林的生成规则,随机森林的生成方法,随机森林
的特点等相关知识。
二、实验内容
1结合老师上课所讲内容及课本知识,通过查找相关资料,
f学习与决策树,随机森林相关的知识。2查找相关例题,深入理解随机森林的各种算法。3找一个数据集,利用随机森林的相关算法训练随机森林,
对样本进行判段并计算其判断的准确度。三、实验仪器及平台
计算机一台MATLAB2018a四、实验原理
1随机森林的基本概念:通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支集成学习(E
sembleLear
i
g)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想集成思想的体现。
2决策树21信息、熵、信息增益这三个基本概念是决策树的根本,是决策树利用特征来分类时,确定特征选取顺序的依据。22决策树算法决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可
f读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。3CART算法
Classificatio
A
dRegressio
Tree,即分类回归树算法,简称CART算法,它是决策树的一种实现。
CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树,它在每一步的决策时只能是“是”或者“否”,即使一个feature有多个取值,也是把数据分为两部分。4决策树C45
r