全球旧事资料 分类
《模式识别》课程大作业
朴素贝叶斯分类器的改进
摘要:朴素贝叶斯分类器是一种简单而高效的分类器,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,以及它的被动学习策略,影响了它的分类性能。本文从不同的角度出发,讨论并分析了三种改进朴素贝叶斯分类性能的方法。为进一步的研究打下坚实的基础。关键词:朴素贝叶斯;主动学习;贝叶斯网络分类器;训练样本;树增广朴素贝叶斯
1问题描述
随着计算机与信息技术的发展,人类获取的知识和能够及时处理的数据之间的差距在加大,从而导致了一个尴尬的境地,即“丰富的数据”和“贫乏的知识”并存。在数据挖掘技术中,分类技术能对大量的数据进行分析、学习,并建立相应问题领域中的分类模型。分类技术解决问题的关键是构造分类器。分类器是一个能自动将未知文档标定为某类的函数。通过训练集训练以后,能将待分类的文档分到预先定义的目录中。常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法,在各种分类法中基于概率的贝叶斯分类法比较简单,在分类技术中得到了广泛的应用。在众多的分类器的构造方法与理论中,朴素贝叶斯分类器NaiveBayesia
Classifiers1由于计算高效、精确度高。并具有坚实的理论基础而得到了广泛的应用。文献朴素贝叶斯的原理、研究成果进行了具体的阐述。文章首先介绍了朴素贝叶斯分类器,在此基础上分析所存在的问题。并从三个不同的角度对朴素贝叶斯加以改进。
2研究现状
朴素贝叶斯分类器(NaveBayesia
Classifier)是一种基于Bayes理论的简单分类方法,它在很12多领域都表现出优秀的性能。朴素贝叶斯分类器的“朴素”指的是它的条件独立性假设,虽然在某些不满足独立性假设的情况下其仍然可能获得较好的结果3,但是大量研究表明此时可以通过各种方法来提高朴素贝叶斯分类器的性能。改进朴素贝叶斯分类器的方式主要有两种:一种是放弃条件独立性假设,在NBC的基础上增加属性间可能存在的依赖关系;另一种是重新构建样本属性集,以新的属性组(不包括类别属性)代替原来的属性组,期望在新的属性间存在较好的条件独立关系。目前对于第一种改进方法研究得较多245。这些算法一般都是在分类精度和算法复杂度之间进行折衷考虑,限制在一定的范围内而不是在所有属性构成的完全网中搜索条件依赖关系。虽然如此,寻找条件依赖关系依然需要较复杂的算法。而通过重新构建样本属性集的方式则可以避免寻找条件依赖关r
好听全球资料 返回顶部