【大数据平台技术框架选型分析】-全球旧事资料库

大数据平台技术框架选型分析

于Hadoop的核心组件开发出一个更快的版本Tachyo
，它从底层重构了Hadoop平台。GFS的C开源版本GFS在Hadoop中的实现GoogleBorg的翻版类似于MesosFacebook开源的日志收集系统，能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理，常与Hadoop结合使用，Scribe用于向HDFS中Push日志Cloudera提供的日志收集系统，支持对日志的实时性收集日志管理、分析和传输工具，可配合kiba
a、ElasticSearch组建成日志查询系统
为日志提供友好的Web查询页面
很底层的高性能网络库在AMQP基础上完整的，可复用的企业消息系统能力强劲的开源消息总线开源的、高性能的、跨语言分布式消息系统，最早是由Apache孵化的Kafka（由Li
kedI
捐助给Apache）克隆而来Li
kedi
于2010年12月份开源的分布式消息系统，它主要用于处理活跃的流式数据，由Scala写成分布式锁服务，PoxOS算法的实现，对应Google的ChubbyHadoop中的RPCRPC，支持CJavaPHP等众多语言监视系统运行状态和网络信息的监视系统UCBerkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。
f基础设施
搜索引擎数据挖掘Iaas
ApacheAmbari
Hadoop成员，管理和监视ApacheHadoop集群的开源框架
LevelDB
Google顶级大牛开发的单机版键值数据库，具有非常高的写性能
SSTable
源于Google，ortedStri
gTable
RecordIO
源于Google
FlatBuffers
针对游戏开发的，高效的跨平台序列化库，相比ProtoBuffers开销更小，因为FlatBuffers没有解析过程
ProtocolBuffers
Google公司开发的一种数据描述语言，类似于XML能够将结构化数据序列化，可用于数据存储、通信协议等方面。它不依赖于语言和平台并且可扩展性极强。
1997年由麻省理工学院提出目标是为了解决因特网中的热点（HotCo
siste
tHashi
gspot）问题，初衷和CARP十分类似，基本解决了在P2P环境中最为关
键的问题如何在动态的网络拓扑中分布存储和路由。
Netty
JBOSS提供的一个java开源框架，提供异步的、事件驱动的网络应用程序框架，用以快速开发高性能、高可靠性的网络服务器和客户端程序。
BloomFilter
布隆过滤器，1970年由布隆提出，是一个很长的二进制矢量和一系列随机映射函数，可以用于检索一个元素是否在一个集合中，优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。
Nutch
开源Java实现的搜索引擎，诞生Hadoop的地方。
Luce
e
一套信息检索工具包，但并不包含搜索引擎系统，它包含了索引结构、读写索引工具、r