市场发展趋势、理解客户的消费行为并为将来制定更加有针对性的策略。政府决策通过对大数据的挖掘,可有效提高政府决策的科学性和时效性。如:日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制定了详细的应急方案,并将制作的海啸影响模型发布在YouTube等网站。公共服务
f一方面,政府利用大数据技术把积累的海量历史数据进行挖掘利用,可以提供更为广深的公共服务,另一方面,政府可以通过对卫生、环保等领域的大数据实时分析,提高危机的预判能力,为实现更好、更科学的危机响应提供了技术基础。如在交通系统,随着汽车工业的发展,车辆保有量的不断攀升,车与路,车与环境之间的矛盾日趋加剧,诸如交通堵塞、事故增多、能源浪费和环境污染等问题的恶化,需要通过对历史以及现在的车辆情况、路网情况的实时大数据分析,制定更为优化的系统方案,使车辆行驶在最佳路径上,缩小行车时间、节省燃料、减少环境污染,提高路网通行能力和服务质量。
大数据虽然极具价值,但由于类型复杂、规模巨大,不论传统的OLAP数据仓库技术还是新兴的分布式处理技术等单一方案都有特定的短板,不可能满足所有的需求,因此,要真正释放大数据的能量,推动大数据应用并非易事,主要面临着以下问题和挑战。
挑战一:基础设施的持续扩展问题IDC公司2012年发布的数据显示,数据总量每两年至少增长一倍,但是硬件基础设施由于摩尔定律失效很难进行无限制扩展,即使是MapReduce等分布式技术的扩展性比OLAP等技术有了重大的提高,但是仍存在扩展上限,如OracleRAC最大支持100个节点,Hadoop集群技术理论支持4000个节点,并且其设计初衷是建立在大量廉价、低端服务器上的,在充分横向扩展架构的同时也需要纵向扩展才能进一步提升整体性能。与此同时,基础设施规模不断增大也会带来其他的问题,首先是系统的可用性,因为大规模分布系统只要其中一个节点出现故障,就会引起整个系统的恢复,所以分布式系统应该采取多副本、检查点等容错技术。另外,随着系统节点规模的扩展,网络流量的增加是指数级的,网络瓶颈也会制约系统性能的提升,限制系统的可扩展性。挑战二:数据处理的个性化、一体化需求问题大数据时代同时催生了多种数据类型结构,无论是结构化、半结构化还是非结构化的数据,从采集到挖掘都需要精细划分,形成准结构化数据,并在此基础上进行关联性分析,r