龙源期刊网httpwwwqika
comc
大数据的存储管理技术
作者:欧艳鹏来源:《电子技术与软件工程》2017年第21期
摘要云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,如图片、音频、视频信息等。为充分发挥信息应用价值,有效存储已经成为人们关注的热点。为了有效应对现实世界中复杂多样性的大数据处理需求,需要针对不同的大数据应用特征,从多个角度、多个层次对大数据进行存储和管理。本文主要分析了大数据面临的存储管理问题以及简述了存储管理关键技术。
【关键词】大数据分布式文件系统分布式数据库NoSQL数据库云数据库
1大数据面临的存储管理问题
11存储规模大
大数据的一个显著特征就是数据量大,起始计算量单位至少是PB,甚至会采用更大的单位EB或ZB,导致存储规模相当大。
12种类和来源多样化,存储管理复杂
随着互联网、物联网、移动互联技术的发展,以电子商务(如京东、天猫、阿里巴巴等)、社交网络(微信、微博等)为代表的新型web20应用迅速普及,大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域,因此数据呈现方法众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满足数据时代的需求,还导致存储管理更加复杂。
13对数据服务的种类和水平要求高
大数据的价值密度相对较低,以及数据增长速度快、处理速度快、时效性要求也高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚的数据中,挖掘其更深层次的数据价值呢,需要亟待解决。
大规模的数据资源蕴含着巨大的社会价值,有效管理数据,对国家治理、社会管理、企业决策和个人生活、学习将带来巨大的作用和影响,因此在大数据时代,必须解决海量数据的高效存储问题。
2大数据存储管理的关键技术分析
f龙源期刊网httpwwwqika
comc
21分布式文件系统
分布式文件系统是一种通过计算机网络实现在多台机器上进行分布式存储的文件系统,它把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群,设计一般所采用的是“客户机服务器”模式。分布式文件系统的设计需要重点考虑可扩展性、可靠性、性能优化、易用性及高效元数据管理等关键技术。
当前大数据领域中,分布式文件系统的使用主要以HadoopHDFS为主。HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度,除此之外,HDFS还具有兼容r