全球旧事资料 分类
同网络,根据这一共同特性进行更新升级,可以进一步提升用户的使用体验。
(3)电子商务:在淘宝、京东、亚马逊等电商网站上,产生大量的商品浏览记录、购买记录和评论记录,批量处理这些数据,商铺可以针对用户的热度对商品进行重新排布,app可以根据每个用户的喜好为其进行个性化推送,生产公司可以用处理结果对每个不同地区的市场方针进行部署。
(4)网络安全:在金融服务和情报机构中,可以通过对批量数据的处理来检测客户交易等操作是否存在异常,由此对潜在的欺诈行为进行预防预警。
代表性的处理系统:
2003年Google发布了GFS(GoogleFileSystem),2004年发布MapReduce编程模型,掀起了大数据开发的高潮,在学术界和产业界产生了强烈反馈。作为MapReduce及GFS的开源版本,Nutch项目Hadoop在2006年发布了HDFS和MapReduce,MapReduce成为大数据标准的数据处理模型。HDFS是分布式文件系统,负责数据存储,MapReduce是大数据编程模型,负责批量大数据运算。Hadoop已经形成了生态圈,其子项目有Hive,HBase,Pig等。如图1所示。
22流式数据处理系统
流式数据还有以下几点共同特性:
(1)流式数据的每个单元都带有标志时间的标签和相关属性,所以处理流式数据通常是按照时间顺序来进行的。
(2)流式数据可以由无结构、半结构、结构化数据组成,故其处理流程复杂、数据纯度不高。
f龙源期刊网httpwwwqika
comc
(3)流式数据具有活动性。
典型应用:
(1)金融银行业:金融银行行业的运营数据,具有短时效性,数据结构也混杂,对这些流式数据进行处理,可以帮助银行发现其内在特征,帮助银行做出实时决策。
(2)数据采集:随着物联网的兴起,NBIoT的广泛应用,终端设备产生海量实时数据。当前主要有传感器数据采集、日志采集、Web操作日志采集,使用流式系统获取实时数据信息,达到动态预警及通知功能。
23代表性的处理系统
231Storm系统
Storm诞生于BackType公司,随着BackType被Twitter收购,Storm转为开源并在GitHub上公布。在2014年9月正式成为Apache旗下的顶级项目。
Storm是实时的Hadoop,在实时数据处理领域扮演Hadoop之与批量数据处理领域的角色。Storm解决了Hadoop在处理实时数据面临的瓶颈,采用分而治之理念的Hadoop在处理实时性要求高的场景显得老态龙钟。如图2所示。
Storm采用MasterSlave体系结构,与Hadoop主从架构一样,Nimbus是整个集群的控制节点,负责指令的分发和系统的监控。Supervisor是从节点,负责具体任务执行。
232Samza系统
Li
kedi
开源了消息队列Kafka,得到r
好听全球资料 返回顶部