全球旧事资料 分类
龙源期刊网httpwwwqika
comc
大数据挖掘中的数据分类算法技术研究
作者:饶琛来源:《电子技术与软件工程》2015年第14期
随着信息技术和计算机产业的不断发展,数据的处理成为了当务之急。想好做好数据的处理工作,就要应用到数据的分类算法,它作为数据挖掘中的关键技术,能够很好地将完成数据处理工作。本文通过比较几种不同的数据分类算法,从中找到其异同点,为进一步推广数据分类算法打好基础。
【关键词】数据挖掘数据分类算法
在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。
1决策树分类算法
11传统算法
C45算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C45已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C45更加无法胜任,因为C45算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C45甚至会出现无法运行的情况。
12衍生算法
(1)SLIQ算法和SPRINT算法都是由C45算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C45算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。
f龙源期刊网httpwwwqika
comc
(2)SPRINT算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来r
好听全球资料 返回顶部