于E()评价给定测试集和分类结果的质量,并返回最好测试集Best()。再将Best()分类方法P应用于事例子集C,并返回Best()的值V,返回若不能满足Stop(),则树继续扩展。目标状态集由Stop()决定,当返回为真时结束树的扩展。例如,当选定同质规则时,如果所有事例C有相同的类标签标签,则函数Stop()返回真。同质规则可以被作为缺省的暂停规则,因为它暗含在所有的暂停规则之中。Stop()函数决定将N定义为叶节点还是内部节点。如果是后者,树将继续扩展:节点N被设置为内部节点,子树被标记为V中的测试输出值V;如果是前者,节点N被设置为叶节点,叶节点的类标记由其所包含的事例C决定,通常选择的类标签是事例C中大多数事例所共有的。树归纳算法,如这里提及的生成算法,必须是计算高效的,因为建立决策树是一项复杂的任务,搜索的复杂性会随树的深度(即树根到最低的树叶的距离)呈指数增长。因此,修剪算法应建立于寻找使评价函数E()最大的测试集。如何设计和优化评价函数E()自然成为了系统开发人员关注的问题。
f二、对树进行修剪优化时应考虑的问题1、决策树的大小决策树变的异常庞大有多种原因。其中之一是特征描述不当,有些树特征描述方式不能精确的建立目标概念模型,当用这种描述方式时,目标模型非常复杂。相反,运用的当的描述将大大降低模型的复杂程度。因此,这个问题很好地提醒我们,树修剪过程中要考虑相应的描述;另一个导致树庞大的原因是噪声。当事例包含大量的特征噪声(即错误标签的特征值)或类噪声(即错误标签的类值)时,归纳运算会因为不相关的事例特征而将树扩展的漫无边际。噪声导致无关的事例掺杂在选定的测试集中,这将引起