【旅游大数据平台方案】-全球旧事资料库

旅游大数据平台方案

供MapReduce以及Spark等大数据挖掘功能。系统具有完整的管理调度功能。3）硬件资源功能规划系统具有24个I
telXeo
E5CPU计算能力，提供超过40TB的存储能力以及1T以上的内存，可满足1000任务共时计算内能，方便扩充。
数据挖掘与大数据分析科研平台建设方案
大数据科研平台设备架构
f图3设备架构主节点和备份主节点
主节点负责整个分布式大数据平台的运行。主节点始终在内存中保存整个文件系统的目录结构，每个目录有哪些文件，每个文件有哪些分块及每个分块保存在哪个计算上，用于处理读写请求。同时，主节点还负责将作业分解成子任务，并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承担主节点的各种任务，使得分布式大数据平台仍然能够正常运行。管理节点
管理节点用于管理整个分布式大数据平台，可进行节点安装、配置、服务配置等，提供网页窗口界面提高了系统配置的可见度，而且降低了集群参数设置的复杂度。接口节点
终端用户通过接口节点连接和使用分布式大数据平台，提交任务并获得结果，并可以用其他数据分析工具做进一步处理，与外界进行数据交互（如连接关系型数据库）。计算节点
分布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信，还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的socket服务器，让客户端代码和其他计算节点通过它可以读写数据，这个服务器还会汇报给主节点。大数据科研平台底层架构
f大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构，包含和大数据分析、数据挖掘、机器学习等功能模块，并以HDFS以及Hbase作为存储基础。
图2软件架构分布式持久化数据存储HDFS
Hadoop分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。分布式实时数据库HBase
HBase是一个分布式的、面向列的开源数据库，该技术来源于FayCha
g所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于BigTabler