龙源期刊网httpwwwqika
comc
决策树分类算法在大学生就业指导中的应用研究
作者:段润英黄欣荣来源:《数字技术与应用》2017年第05期
摘要:为深入挖掘剖析影响应加大学生求职择业的关键因素及其潜在的相互作用,笔者针对南京信息职业技术学院近年来的毕业生选择推荐就业、自主择业、自主创业或升学、待业等各种情况的决策因素进行了广泛的统计,以数据挖掘分类技术为支撑设计了C45算法对各种潜在的影响毕业生就业选择的因素进行了系统化的剖析,从而得出影响应届毕业生就业率的决策模型。本研究的主要意义在于学生可以算法模型在大学在读期间努力完善自己的知识结构,不断增强自身的综合素质及社会竞争力。从而适应日益严峻的就业形势和经济社会发展的需要,提高入职签约成功率。应届毕业生也可以参照算法模型对比自身的素质素养有针对性的选择目标单位进行择业。高等院校则可以根据该算法模型统计各界毕业生的就业指数进行纵向及横向的对比分析,进有针对性的改良教学计划,使院校培养出的毕业生更加符合当代社会的需求,刺激就业率快速增长。关键词:数据挖掘;分类;决策树;C45算法;大学生求职中图分类号:TP31113文献标识码:A文章编号:10079416(2017)050151031C45算法C45算法是对ID3算法的优化改良。与ID3算法不同的是,C45算法是以数据增益率为标准来选择决策树的每个节点的节点属性。算法默认选择当前分支节点下数据增益率最高的属性作为当前节点的测试属性。C45算法具有的这一特性使得对数据挖掘结果中的样本分类所需的数据量大大减少,而且能够准确的反映出划分的最小随机性或“不纯性”。这种理论方法使得对一个对象分类所需的期望测试数目达到最小,从而设计一棵最为简单的决策树。为了研究的方便,下面对算法中的相关术语给出定义。定义1:设数据集S为包含S个数据样本的集合,且类别属性可以取m个不同的值,对应于m个不同的类别Ci(i1,2,…,m)。假设Si为类别Ci中样本的个数;对一个给定数据对象进行分类所需要的信息量,称为S划分前的熵,即:其中Pi是任意一个数据对象属于类别Ci的概率:。PiSiS。定义2:设一个属性A取v个不同的离散属性值a1,a2,…av。利用属性A可以将集合S划分为v个子集S1,S2,…Sv,其中Sj包含了S集合中属性A取aj值的数据样本。若属
f龙源期刊网httpwwwqika
comc
性A被选为测试属性,即用属性A对当前样本集进行划分。设Sij为子集Sj中属于Ci类别的样本数。那么利用属性r