则、偏差规则、聚类规则、模式分析及趋势分析等。22数据挖掘的特点
数据挖掘技术具有以下特点:1处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。2查询一般是决策制定者用户提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。3在一些应用如商业投资等中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。4数据挖掘中,规则的发现基于统计规律.因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效.因此,利用数据挖掘技术可能会发现大量的规则。5数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。23数据挖掘的应用基础数据挖掘是一种获得知识的技术。它的基础是数据,手段是各种算法,目的是获得数据中蕴含的知识。发现知识并非易事,人们总是受到各种各样的局限,目前数据缺乏仍然是发现知识的瓶颈。随着数据采集和存储技术的发展,对大量数据的分析和使用成为一个新的难题。对数据挖掘应用而言,知识的发现存在两个极限,一个是数据极限,即数据要么非常庞大,要么数据量足够小,或者数据量小但维度非常大;另一个是算法极限,即针对很多数据(不同的性质,不同的形式)和很多需求,目前所有的算法尚不能很好地解决某些问题。因此,数据挖掘应用具有三个要素:数据,算法,知识。
数据挖掘应用是一个多层次、流程化的工程任务,开展数据挖掘应用也需要从每个层面加以处理,才能保证整个数据挖掘的成功运行。数据挖掘应用从上到下可分为三个大层面,具体结构如下图1所示:
图1数据挖掘应用的三大层面
应用层:把数据挖掘结果应用于实践。算法层:提供算法、引擎和界面。数据层:提供数据源、数据探索、数据准备。
f3数据挖掘的常用方法数据挖掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和模
式识别与人工智能等领域有机结合起来,它能组合各个领域的优点,从而能从数据中挖掘到其他传统方法不能发现的有用知识。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。1分类
分类就是应用已知的一些属性数据去推测一个未知的离散型属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好地实现这种推r