的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。分布式资源调度管理YARN
Yar
是Hadoop20的MapReduce框架。YARN分层结构的本质是ResourceMa
ager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceMa
ager将各个资源部分(计算、内存、带宽等)精心安排给基础NodeMa
ager(YARN的每节点代理)。ResourceMa
ager还与Applicatio
Master
f一起分配资源,与NodeMa
ager一起启动和监视它们的基础应用程序。在此上下文中,Applicatio
Master承担了以前的TaskTracker的一些角色,ResourceMa
ager承担了JobTracker的角色。交互式SQL引擎Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。内存计算Spark
Spark是UCBerkeleyAMP实验室所开源的类HadoopMapReduce的通用的并行计算框架。Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。科研平台的功能科研项目管理
在科研平台中,科研计算是以计算项目来保存的,包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节。从技术角度来说,计算项目中也包括了算法组件、算法流程和数据集,一旦设计完后,就可用于计算,后期还可以调整算法和基于新的数据资源进行计算。
计算项目完成后,可以训练出算法模型,在新的计算项目中使用已经训练好的模型进行数据的预测,形成一次训练多次使用的算法实现。平台内置数据集
f在科研工作中,如何获取到海量高质量大数据资源是最大的难点。目前在互联网等渠道是很难找到科研工作所需的数据源,尤其是经过数据清洗和治理后的高质量数据。
数据超市平台利用以下模式,通过外部的资源,为高校的科研工作提供优质数据资源:1)通过商务合作的模式,直接与数据所有权拥有者进行灵活的商务沟通,获得科研的数据使用授权;2)邀请行业内优质的第三方数据服务提供商入驻数据超市平台;3)通过数据采集的方式,经过数据寻源、采集、治理、清洗后,引入具有公开版权的数r