全球旧事资料 分类
用于ETL来填充数据
至数据仓库,而其他一些解决方案还提供了诸如后处理、转换或Hadoop集群上的大数据分析。ETL仅是ApacheHadoop和其生态系统的一种使用情形。
六、方案分析
成本
性能
功能
易操作性应用成熟
度文档社区支

自建套件
按需整合
安装复杂,操作需要专业培训。文档较多,社区一般,相关专业培训较多。
horto
works100开源培训服务3k人授权支持100K
国内类exadoop
HDFS和YARN数据管理从各种引擎访问数据根据策略加载和管理数据身份验证、授权和数据保护大规模配置、管理、监控和运营Hadoop群集与您的数据分析工具集成跨平台配置部署图形设计界面,参数配置,易上手。国外大客户较多
官方社区比较活跃(英文)中文社区有1个文档较少,多为英文文档
TDWfi
eBI
单集群最大规模达到5600台,处理数据量可达百P级
文档较少,无商用服务,无任何技术支持
f扩展性
移植性
监控优势
劣势
开源开放
开源开放
支持多操作系统
1、跟随产品阶段逐步完善整合自定义套件2、自选流行组件,资料丰富
支持多操作系统
监控功能强大Armbri1、开源强大支持的开源套件2、配套商业服务支持
支持多操作系统元1、国产套件2、交流支持方便3、商业服务较灵活
整合周期不可控商业成本较高
依赖于打包服务公司的支持
开源开放
支持多操作系统无1、开源中文支持2、基于大数据处理核心,灵活组合其它组件来适应不同产品阶段及项目半定制套件,预学现用
七、相关资料
HDPhorto
worksACompleteE
terpriseHadoopDataPlatform开源工具汇总整理
类别
名称
备注
Phoe
ix
Salesforce公司出品,ApacheHBase之上的一个SQL中间层,完全使用Java编写
Sti
ger
原叫Tez,下一代HiveHorto
works主导开发,运行在YARN上的DAG计算框架
查询引擎
PrestoSharkPig
Facebook开源Spark上的SQL执行引擎基于HadoopMapReduce的脚本语言
ClouderaImpala参照GoogleDremel实现,能运行在HDFS或HBase上,使用C开发
流式计算迭代计算
ApacheDrillApacheTajoHiveFacebookPumaTwitterRai
bird
YahooS4
TwitterStorm
ApacheHama
参照GoogleDremel实现一个运行在YARN上支持SQL的分布式数据仓库基于HadoopMapReduce的SQL查询引擎实时数据流分析分布式实时统计系统,如网站的点击统计Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统使用Java和Clojure实现建立在Hadoop上基于BSP(BulkSy
chro
ousParallel)的计算框架,模仿了Google的Pregel。
fApacheGiraph
建立在Hadoop上的可伸缩的分布式迭代图处理系统r
好听全球资料 返回顶部