全球旧事资料 分类
Ope
stackSahara组件和架构简介
1简介
ApacheHadoop是目前被广泛使用的主流大数据处理计算框架,Sahara项目旨在使用用户能够在Ope
stack平台上便于创建和管理Hadoop以及其他计算框架集群,实现类似AWS的EMR(Amazo
ElasticMapReduceservice)服务。用户只需要提供简单的参数,如版本信息、集群拓扑、节点硬件信息等,利用Sahara服务能够在数分钟时间内快速地部署Hadoop、Spark、Storm集群。Sahara还支持节点的弹性扩展,能够方便地按需增加或者减少计算节点,实现弹性数据计算服务。它特别适合开发人员或者QA在Ope
stack平台上快速部署大数据处理计算集群。它特效包括:Ope
stack的标准组件之一;通过RESTAPI和DashboardUI界面管理集群;支持多种数据处理计算框架,包括:多种Hadoop厂商发行版,比如CDH等;ApacheSpark和Storm;可插除的Hadoop安装引擎;集成厂商的特定管理工具,如ApacheAmbaria
dClouderaMa
ageme
tCo
sole。支持配置模板。它和其他Ope
stack组件交互,如图:
f2工作流程
sahara提供两个层次的API,分别为集群管理(clusterprovisio
i
g)和任务管理(a
alyticsasaservice)。集群管理工作流包括:1选择Hadoop发行版本;2选择base镜像,base镜像用于生成工作节点,base镜像或者已经预先安装了Hadoop的必要组件,或者提供可插除的可自动快速部署Hadoop的工具。base镜像可以自己制作,也可以直接下载:httpsaharafilesmira
tiscomimagesupstreamliberty3集群配置,包括集群大小、集群拓扑(配置组件角色)和一些附加参数(如堆大小、HDFS冗余份数等);4创建集群,sahara将自动创建虚拟机、部署和配置数据分析计算框架集群;5集群管理,如增加或者删除节点;6集群销毁,用户不需要时,可以删除集群,释放所有的资源。任务管理工作流包括:1选择预先定义的数据处理计算框架以及版本;2任务配置:选择任务类型:pig,hive,javajar等;提供任务脚本源或者jar包地址;选择输入、输出地址。限制集群大小;执行任务,注意所有底层的集群管理和任务执行流程对用户是完全透明的,当任务执行完后,集群将会自动移除提交的任务;获取处理结果(如Swift)。
3用户视角
通过sahara管理集群,用户主要需要操作以下三个实体对象:NodeGroupTemplatesClusterTemplatesa
dClustersNodeGroupTemplates设置单一节点的模板,包括启动虚拟机的flavor、安全组、可用域、镜像等,以及配置Hadoop角色,比如
ame
ode、seco
dary
ame
ode、resourcema
ager。比如我们可以创建Master节点模板,flavor为r
好听全球资料 返回顶部