全球旧事资料 分类
龙源期刊网httpwwwqika
comc
基于大数据的数据挖掘研究
作者:徐述来源:《科技视界》2014年第32期
【摘要】本文分析了数据挖掘、大数据的定义与特征,在此基础上研究提出了基于大数据的数据挖掘分类与特点。
【关键词】数据挖掘大数据大数据挖掘
1数据挖掘(DM)
数据挖掘1,就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用信息,提取的知识表示为概念(Co
cepts)、模式(Patter
s)、规则(Rules)、规律(Regularities)等形式。这种定义把数据挖掘的对象定义为数据库。时至今日,数据挖掘的对象已经远远不止步于大型数据库、数据仓库,而是海量数据,大数据。
2大数据
21大数据定义
大数据是用传统方法或工具很难处理或分析的数据信息2。随着时代变化,除了企业经营数据,我们还记录着地理、气象、Web网页等各种数据。庞大纷杂的信息构成了大数据。大数据如此复杂,到现在也没有大数据统一的定义。
关于大数据的定义,目前主要有如下几种。维基百科则把大数据定义为一个一个大而复杂的、难以用现有数据库管理工具处理的数据集。亚马逊大数据科学家Joh
Rauser认为:大数据是“任何超过一台计算机处理能力的庞大数据量。”I
formatica中国区首席产品顾问但彬认为“大数据海量数据复杂类型的数据”3。
22大数据特征
就我们今天的认识来看大数据有四个特征:大量化(Volume)、多样化(Variety)、快速化(Velocity),价值密度低(Value)4。大数据的特点使得大数据分析必然更加复杂、更追求速度、更注重实效。
221数据体量巨大(Volume)
大数据通常指l0TB规模以上的数据量。
f龙源期刊网httpwwwqika
comc
之所以产生如此巨大的数据量,一是通信、传感工具的使用,使人们能够全时段的联系,M2M方式使得交流的数据量成倍增长二是各种仪器的使用,能够感知更多的事物,这些事物的部分甚至全部数据就可以被存储三是集成电路价格降低,很多东西都有了智能的成分。
222数据种类繁多(Variety)
随着智能设备、传感器种类的增多以及社交网络的流行,数据类型也变得更加复杂,不仅包括传统的非关系型、关系型数据类型,也包括以网页、音频、视频、email、电子表格等形式存在的未加工的、半结构化的和非结构化的数据。
223流动速度快(Velocity)
传统的流动速度考虑的是数据的获取、存储以及挖掘有效信息的速度,但现在处理的数据是TB级甚至ZB级,考虑到“超大规模数据”、“海量数据”也有规模大的特点,大数据强调数据是快r
好听全球资料 返回顶部