全球旧事资料 分类
一种分类算法,目标是将具有p维特征的
个样本分到c个类别中去。相当于做一个投影,cf
,将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的,可以把分类的过程表示成一棵树,每次通过选择一个特征pi来进行分叉。5随机森林的生成规则(1)如果训练集大小为N,随机且有放回地从训练集中抽取N个训练样本,构成一个新的样本集(含重复的训练样本)。(2)如果每个样本的特征维度为M,指定一个常数m,且
fmM,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的,决策树成长期间m的大小始终不变。(注意:此处采用无放回的选择)
(3)每棵树都尽可能最大程度地(完全地)生长,并且没有剪枝过程。
(将预测结果累加起来从而得到整个随机森林的预测果)
通过之前的三步就可以得到一棵决策树,重复X次这样的过程那么就能得到X棵决策树。来一个测试样本就对它分类一遍,就得到X个分类结果。使用简单的投票机制(或用最终分类结果)来判别该样本的所属类。
注意:两类随机性的引入对随机森林的生成至关重要。
6随机森林的简单实例分析
根据已有的训练集已经产生了对应的随机森林,随机森林如
何利用某一个人的年龄(Age)、性别(Ge
der)、教育情况
(Hi
hestEducatio
alQualificatio
)、工作领域(I
dustry)以及住宅地(Reside
ce)共5个字段来预测他的收入层次。
表1收入层次
Ba
d1
Below40000
Ba
d2
40000150000
Ba
d3
Moretha
150000
f随机森林中每一棵树都可以看做是一棵CART分类回归树,这里假设森林中有5棵CART树,总特征个数N5,取m1m为建立决策树时,随机选取的特征个数,这里假设每个CART树对应一个不同的特征。表格中的百分数指的是在不同条件下的数据样本占对应类别的比例
假如要预测的某个人的信息如下:1Age35years2Ge
derMale3HighestEducatio
alQualificatio
Diplomaholder4I
dustryMa
ufacturi
g5Reside
ceMetro
根据这五棵CART树的分类结果,可以针对此人的信息建立收入层次的分布情况:
f最后,我们得出结论:这个人的收入层次70是一等,24是二等,6是三等。所以我们得出结论这个人的收入层次是一等(小于40000)。五、实验流程
1寻找数据集。从UCI数据集网站下载了红葡萄酒品质的数据集。
2打开MATLAB2018a,清空工作区变量。3导入数据集。把下载好的数据集导入进来。4按照写好的代码,利用数据集训练并生成随机森林,计算随
机森林判断样本类别的准确率。六、随r
好听全球资料 返回顶部