【SQLServer2008中的9种数据挖掘算法】-全球旧事资料库

SQLServer2008中的9种数据挖掘算法

于E（）评价给定测试集和分类结果的质量，并返回最好测试集Best（）。再将Best（）分类方法P应用于事例子集C，并返回Best（）的值V，返回若不能满足Stop（），则树继续扩展。目标状态集由Stop（）决定，当返回为真时结束树的扩展。例如，当选定同质规则时，如果所有事例C有相同的类标签标签，则函数Stop（）返回真。同质规则可以被作为缺省的暂停规则，因为它暗含在所有的暂停规则之中。Stop（）函数决定将N定义为叶节点还是内部节点。如果是后者，树将继续扩展：节点N被设置为内部节点，子树被标记为V中的测试输出值V；如果是前者，节点N被设置为叶节点，叶节点的类标记由其所包含的事例C决定，通常选择的类标签是事例C中大多数事例所共有的。树归纳算法，如这里提及的生成算法，必须是计算高效的，因为建立决策树是一项复杂的任务，搜索的复杂性会随树的深度（即树根到最低的树叶的距离）呈指数增长。因此，修剪算法应建立于寻找使评价函数E（）最大的测试集。如何设计和优化评价函数E（）自然成为了系统开发人员关注的问题。
f二、对树进行修剪优化时应考虑的问题1、决策树的大小决策树变的异常庞大有多种原因。其中之一是特征描述不当，有些树特征描述方式不能精确的建立目标概念模型，当用这种描述方式时，目标模型非常复杂。相反，运用的当的描述将大大降低模型的复杂程度。因此，这个问题很好地提醒我们，树修剪过程中要考虑相应的描述；另一个导致树庞大的原因是噪声。当事例包含大量的特征噪声（即错误标签的特征值）或类噪声（即错误标签的类值）时，归纳运算会因为不相关的事例特征而将树扩展的漫无边际。噪声导致无关的事例掺杂在选定的测试集中，这将引起