全球旧事资料 分类
互联网海量数据存储及处理调研综述
摘要
本文主要针对互联网应用中出现的新兴的海量数据存储和处理系统展开讨论,对比新兴系统与传统数据技术的差异,以及这些系统之间实现技术的不同特点,并总结出相应的关键技术问题。近些年来,blog、wiki、spaces的兴起导致互联网内容的提供方式出现转变;用户创造内容的web20时代的到来,带动着视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展。互联网正处于一个信息爆炸的时代。面对信息爆炸的互联网,如何去存储和处理这些海量数据,对诸如Facebook、YouTube等大规模互联网企业提出了巨大的技术挑战,同时也开启了开阔的研究空间。本文将综述互联网数据存储以及处理技术的发展、研究状况,指出这方面研究的技术挑战和研究问题。互联网应用种类繁多,包括Facebook、MySpace为代表的社会关系网络、Flickr为代表的图片共享应用、Youtube为代表的视频共享应用以及以Google、Yahoo为代表的搜索引擎应用等。这些互联网应用因为自己的应用特性不同,面对不断增长的互联网用户带来的不断增长的数据视频、图片、blog等所采用的技术路线不尽相似。但是,这些技术路线从本质上可以分为两个方面:海量数据的存储管理技术以及针对海量数据的处理技术(日志分析、搜索引擎应用等)。本文剩下的部分主要从这三个部分展开论述。1部分介绍互联网应用的特点,第阐述海量数据带来的新特性;2部分主要分析传统数据库在互联网应用中的局限性,第并对比新兴系统与传统数据库系统的差异,讨论海量数据管理的关键技术;3部分则介绍一些用于海第量数据处理的系统,讨论它们的技术特点;最后,总结全文。
1背景
随着互联网的快速发展,Blog、RSS、视频共享、图片共享等Web20应用的不断加入使得海量数据存储、管理和处理已经成为当今互联网公司面临的严峻问题。以c2c网站淘宝为例,2007年度淘宝的注册用户已经超过了4500万,商品总数也多达9000万,每天的页面点击率可达2亿多次;并且每天都有大量新用户注册,交易也在无时无刻进行中1。这些信息保存在存储设备上,便是高速膨胀的海量数据。同样的问题也出现在Google、Facebook、Flickr等互联网应用上,如表1所示。
f国家智能计算机研究开发中心
应用类型搜索引擎SNS
应用名称GoogleFacebook(2008)
图片共享
Facebook(2007)Flickr(2007)Youtube(2007)淘宝(2007)eBay(2007)
视频共享电子商务
规模总量:10KBdoc20Bdocs200TB每30天做一次索引:200TB30days6TBdayPageVier
好听全球资料 返回顶部