全球旧事资料 分类
供MapReduce以及Spark等大数据挖掘功能。系统具有完整的管理调度功能。3)硬件资源功能规划系统具有24个I
telXeo
E5CPU计算能力,提供超过40TB的存储能力以及1T以上的内存,可满足1000任务共时计算内能,方便扩充。
数据挖掘与大数据分析科研平台建设方案
大数据科研平台设备架构
f图3设备架构主节点和备份主节点
主节点负责整个分布式大数据平台的运行。主节点始终在内存中保存整个文件系统的目录结构,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个计算上,用于处理读写请求。同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承担主节点的各种任务,使得分布式大数据平台仍然能够正常运行。管理节点
管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。接口节点
终端用户通过接口节点连接和使用分布式大数据平台,提交任务并获得结果,并可以用其他数据分析工具做进一步处理,与外界进行数据交互(如连接关系型数据库)。计算节点
分布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信,还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的socket服务器,让客户端代码和其他计算节点通过它可以读写数据,这个服务器还会汇报给主节点。大数据科研平台底层架构
f大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构,包含和大数据分析、数据挖掘、机器学习等功能模块,并以HDFS以及Hbase作为存储基础。
图2软件架构分布式持久化数据存储HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。分布式实时数据库HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于FayCha
g所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于BigTabler
好听全球资料 返回顶部