龙源期刊网httpwwwqika
comc
基于hadoop平台海量数据的快速查询与实现
作者:褚福银张林何坤鹏来源:《电脑知识与技术》2016年第21期
摘要:随着互联网技术的发展,人类产生的数据量正在呈指数级增长,Hadoop作为大数据领域的常用工具,在现代生活中发挥着至关重要的作用。Hive是基于Hadoop的一个数据仓库工具,在做查询统计分析时最终翻译成Hadoop平台上的MapReduce程序运行,当数据量不断增大时,就会使得查询效率5下降。该文就此提出了一种Hive与Spark结合的方案,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,利用Spark的特性提高Hive查询性能。该研究首先理论阐述了Hive与Spark各自的工作机制,然后介绍Hive_Spark原理,最后通过做实验,对实验结果进行对比,分析,从而验证Hive_Spark提高了查询效率,对大规模数据处理具有一定参考意义。关键词:Hadoop;Hive;Spark;查询;海量数据中图分类号:TP31文献标识码:A文章编号:10093044(2016)21000303Abstract:Withthedevelopme
tofI
ter
ettech
ology,Theamou
tofdatage
eratedbyhuma
sisgrowi
gexpo
e
tiallyHadoopasacommo
tooli
thefieldofbigdata,playavitalrolei
moder
lifeHiveisadatawarehousetoolsbasedo
Hadoop,whe
doi
gstatisticala
alysisquerieseve
tuallytra
slatedi
toHadoopprogramru
i
go
theplatform,whe
i
creasi
gamou
tsofdata,itmakesthequeryefficie
cywillbereducedI
thispaper,weproposeaHivea
dSparkcombi
atio
oftheprogram,theHivequeryasthetaskofSparktosubmittotheSparkclustercomputi
g,usi
gthecharacteristicsofSparktoimprovetheperforma
ceofHivequeryThisresearchfirstlytheoryelaboratedtheHivea
dSparktheirworki
gmecha
ism,a
dthe
thispaperi
troducesthepri
cipleofHive_Sparkfi
allybydoi
gexperime
t,comparedwiththeresultoftheexperime
ta
da
alysis,tovalidateHive_Sparkimprovethequeryefficie
cy,forlargescaledataprocessi
ghasacertai
refere
cesig
ifica
ceKeywords:Hadoop;Hive;Spark;Dataquery;Massdata1引言随着大数据时代的到来,数据量的急速增长以及对数据实时查询的迫切需求使得传统的数据仓库引擎难以满足企业对大数据存储与分析的需求。Hadoop34作为一种开源的架构凭借其低成本、可伸缩性和高容错性等优点开始取代传统数据仓库8,采用MapReduce编程模型可以对海量数据进行有效分割和合理分配。hive是基于Hadoop的一个数据仓库工具,提供了
f龙源期刊网httpwwwqika
comc
类似SQL的查询接口,但是由于Hive13的执行引擎是将SQL编译成一系列的MapReduce作业来运行,其性能代价较高。本文提出了一种hir