全球旧事资料 分类
言(SQL)来访问;非结构化(如图片、视频、doc文件等)和半结构化数据一般通过分布式文件系统的NoSQL(NotO
lySQL)进行存储,比较典型的NoSQL有Google的Bigtable、Amazo
的Dy
amo和Apache的Hbase。大数据管理主要使用了分布式并行处理技
f术,比较常用的有MapReduce,编程人员借助MapReduce可以在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。数据分析与挖掘是根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示,与ETL一样,数据分析和挖掘是以前数据仓库的范畴,只是在大数据中得以更好的利用。
下面以昀流行的开源大数据框架Hadoop为例,说明大数据的关键技术。(1)HDFSHadoop分布式文件系统(HDFS)是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
(2)HBaseHBase是一个分布式的、面向列的开源数据库,该技术来源于FayCha
g所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”,HBase
f在Hadoop之上提供了类似于Bigtable的能力。利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的地方是HBase基于列的而不是基于行的模式。
(3)MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”,和它们的主要思想,都是从函数式编程语言里借来的。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
(4)ChukwaChukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在Hadoop的HDFS和MapReduce框架之上的,继承了Hadoop的可伸缩性和鲁棒性。Chukwa还包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
大数据应用大数据受到越来越多行业巨头们的关注,使得大数据渗透到更广阔的领域,除了电商、电信、金融这些传统数据丰富、信息系统发达的行业之外,在政府、医疗、制造和零售行业都有其巨大的社会价值和产业空间。各行业在大数据应用上的契合度如图321所示。
f(1)互联网和电子商务行业该行业应用最多的是用户行为分析,主要研究对象用户在互联网、移动互联网上的访问日志、用户主体信息和外景环境信息,从而挖掘潜在客户,进行精r
好听全球资料 返回顶部