全球旧事资料 分类
龙源期刊网httpwwwqika
comc
大数据发展趋势
作者:李洁来源:《电子技术与软件工程》2017年第22期
本文先根据大数据的不同处理方式,介绍几种不同形式大数据处理平台以及他们各自对应的几个典型应用,并指出了具有代表性的处理系统。之后对建立于这些系统框架上的大数据分析技术应用作出场景分析,并对大数据行业发展存在的问题和机遇进行了详细的阐述。
【关键词】大数据数据分析Hadoop机器学习
1引言
大数据在近几年迅速成为最具有热点的一个话题,科技、企业界乃至于各国政府都对其十分关注,大数据带来的机遇和挑战已经成为了各界的焦点。
以宏观的角度来看,大数据是物理世界、信息世界和人类世界的纽带,物理世界通过网络将反应自身特性的数据反映到信息世界中,人类世界凭借界面的交互手段对自己的数据向信息世界进行输入和操作。大数据的特征可总结为5点,即体量大、速度快、模态多、难辨识和价值大密度低五大特性,数据量的庞大并不是目前大数据的主要难点,真正的挑战在于数据类型的多样性、不确定性以及对数据处理即时响应的要求。
出于应对处理数据困难的探索,开源界推出了Hadoop,Spark等应对不同应用场景的大数据处理系统,同时相应的分析技术如:深度学习、可视化、知识计算等,这些大数据系统已经逐渐得到广泛的应用。
2大数据处理系统
21批量式数据处理系统
批量式数据有三个主要的特性:
(1)数据量巨大,目前已经达到PB级。
(2)数据来源与具体应用系统,精度相对较高。
(3)数据的价值密度相应低下,如视频数据,在视频播放的过程中,有价值的数据可能只有仅仅几秒,而这也需要专用的算法对有价值的数据进行提取,同时提取数据的行为将会消耗一定的时间,所以存在诸多限制,常常会造成处理结果不甚理想。
f龙源期刊网httpwwwqika
comc
综合以上三点特性,批量式数据的处理需要相对比较成熟的技术和作业手段。
批量式数据的应用:
(1)搜索引擎:互联网是大数据的重要来源,知名的搜索引擎如美国的Google,我国的百度等大型互联网搜索引擎,通过与广告相关数据的批量处理,来及时改变广告投放的策略,根据分析用户的喜好,更改广告的分布以提高用户的点击量。
(2)社交网络:目前的社交网络和各大社交app每天都将产生巨大的数据量,新浪微博、微信等用户众多的社交网络每时每刻都在产生大量的非结构化数据(视频、图片、文本),针对这些数据进行批量式处理,可以帮助分析方发现社交网络中人际之间的潜在关系和他们的共r
好听全球资料 返回顶部