全球旧事资料 分类
业界广泛应用,相当部分流式数据处理系统都使用KafKa作为分布式消息处理模块。Li
kedi
于2013年基于YARN和Kafka开发了一套流式处理框架Samza。
Kafka(数据层)、YARN(执行层)、SamzaAPI(处理层)构成了Samza系统的整体架构。如图3所示。
Samza的主要特点是依赖YARN和Kafka。
3对大数据领域的思考及总结
开源大数据解决方案日新月异,各有使用场景,总体来说总结出几种发展趋势:
f龙源期刊网httpwwwqika
comc
(1)平台适应多样华,Hadoop成为大数据平台事实上的标准,适用于批处理数据分析应用场景。利用内存实现加速的Spark在实时性要求高的场景中有更好的适配性。在大数据平台家族中,出现了Spark,TEZ,Drill,Storm,Flume,Scribe等新技术,其并不是要取代Hadoop,而是要促进大数据生态环境的完整化发展。
(2)数据处理实时性:在物联网、大数据蓬勃发展的基础上,将海量数据(PB级别)处理时间缩短到几秒级别的实时计算需求越发强烈。
(3)专业化:专业化是提高效率的必经之道,业界多通过定制化的软硬一体解决方案实现低成本、高并发的解决方案。
参考文献
1周宝曜,刘伟,范承工大数据战略技术实践M电子工业出版社,2013:127130
2Gree
bergA,Hjalmtysso
G,MaltzDA,etalAclea
slate4Dapproachto
etworkco
trola
dma
ageme
tJACMSIGCOMMComputerCommu
icatio
Review,2005,35(05):4154
3Taigma
Y,Ya
gM,Ra
zatoM,WolfLDeepface:Closi
gthegaptohuma
levelperforma
cei
faceverificatio
I
:ProcOftheIEEECVPR,2014
4Plaisa
tC,CarrD,Sh
eiderma
BImageBrowsertaxo
omya
dguideli
esfordesig
ersIEEESoftware,1995,12(02):2132
5FeblowitzJA
alyticsi
oila
dgas:ThebigdealaboutbigdataI
:ProcoftheSPEDigitalE
ergyCo
f,2013
6Hivehttps:hiveapacheorg
7Pighttps:pigapacheorg
8Hbasehttps:hbaseapacheorg
9Mo
goDBhttp:wwwmo
godborg
作者简介
李洁(1979),男,河南省桐柏县人。大学本科学历。高级工程师,研究领域为通信网络、信息安全、云计算。
f龙源期刊网httpwwwqika
comc
应昌成(1996),男,上海市人。本科在读。研究领域为大数据分析、海洋技术。作者单位上海科技网络通信有限公司上海市200000上海大数据试验场工程技术研究中心上海市200000
fr
好听全球资料 返回顶部