SQLo
Hadoop的最新进展及7项相关技术分享
大数据是现在非常热门的一个话题,从工程或者技术的角度来看,大数据的核心是如何存储、分析、挖掘海量的数据解决实际的问题。那么对于一个工程师或者分析师来说,如何查询和分析TBPB级别的数据是在大数据时代不可回避的问题。SQLo
Hadoop就成为了一个重要的工具。为什么非要把SQL放到Hadoop上?SQL易于使用;那为什么非得基于Hadoop呢?Hadoop架构具备很强的鲁棒性和可扩展性。本文从技术架构和最新进展两个角度分析一下各种SQLo
Hadoop产品的优缺点和适用范围:Hive、TezSti
ger、Impala、SharkSpark、Phoe
ix、HdaptHadoopDB、HawqGree
plum。在互联网企业和有大数据处理需求的传统企业中,基于Hadoop构建的数据仓库的数据来源主要有以下几个:1通过FlumeScribeChukwa这样的日志收集和分析系统把来自ApacheNgi
x的日志收集到HDFS上,然后通过Hive查询。2通过Sqoop这样的工具把用户和业务维度数据(一般存储在OracleMySQL中)定期导入Hive,那么OLTP数据就有了一个用于OLAP的副本了。3通过ETL工具从其他外部DW数据源里导入的数据。目前所有的SQLo
Hadoop产品其实都是在某个或者某些特定领域内适合的,没有silverbullet。像当年OracleTeradata这样的满足几乎所有企业级应用的产品在大数据时代是不现实的。所以每一种SQLo
Hadoop产品都在尽量满足某一类应用的特征。典型需求:
i
teractivequery(ms3mi
)dataa
alyst,reporti
gquery(3mi
20mi
)datami
i
g,modeli
ga
dlargeETL(20mi
hrday)机器学习需求(通过MapReduceMPISpark等计算模型来满足)
Hive
Hive是目前互联网企业中处理大数据、构建数据仓库最常用的解决方案,甚至在很多公司部署了Hadoop集群不是为了跑原生MapReduce程序,而全用来跑HiveSQL的查询任务。
f对于有很多datascie
tist和a
alyst的公司,会有很多相同表的查询需求。那么显然每个人都从Hive中查数据速度既慢又浪费资源。如果能把经常访问的数据放到内存组成的集群中供用户查询那样效率就会高很多。Facebook针对这一需求开发了Presto,一个把热数据放到内存中供SQL查询的系统。这个设计思路跟Impala和Sti
ger非常类似了。使用Presto进行简单查询只需要几百毫秒,即使是非常复杂的查询,也只需数分钟即可完成,它在内存中运行,并且不会向磁盘写入。Facebook有超过850名工程师每天用它来扫描超过320TB的数据,满足了80的adhoc查询需求。目前Hive的主要缺点:1datashuffle时网络瓶颈,Reduce要等Map结束才能开始,不能高效利用网r