可靠性,尽可能低的成本、提供足够好的服务质量和用户体验。网络带宽、服务器、维护人力等是云计算平台的主要成本来源。通过对运维大数据分析,实现对硬件故障的预测和自动化管理,对机器的管理实现了零投入;通过智能混部技术,动态感知、实时分析、全局调度,合理分配计算、存储、内存等不同类型的任务,精细化分析、“消峰填谷”的方式来最大化地利用资源,减低预算开销。湖南烟草云计算应用平台上硬件资源的调配需要大量服务器运行资料的支撑,大数据智能运维就是利用大数据技术,定义好各种运维指标,高频率的监控每台服务器的运行数据,并统一收集日志,借助mo
goDB等非关系型数据库保存多样性数据,与此同时,所有数据写入Hadoop集群,利用大数据技术对收集的数据做更多维度的离线分析,形成各种曲线图,和之前定义的指标对比,并与监控报警系统关联起来,实现对整个数据中心的性能和可用性的监控和趋势分析。然后根据历史数据和算法形成的预测模型,预测未来服务器的运行状况和瓶颈,帮助运维人员提前迁移系统和调整硬件资源。
三、部署架构
大数据智能运维系统最基本的部署需部件分别是Hadoop集群,Mo
goDB集群,采集器集群,MySQL数据库和大数据应用五个部分。
Hadoop集群、Mo
goDB集群和采集器集群,一旦集群中的某个节点故障,系统能够自动的将该节点的任务分发到其他正常的节点继续运行,保证系统数据的完整性。Hadoop的Master节点主要提供NameNode、Seco
daryNameNode及JobTracker三种服务,主要用于任务调度和管理文件系统的命名空间以及客户端对文件的访问。Slave节点部署一个DataNode和TaskTracker,以便这个Slave服务器运行的数据处理程序能尽可能直接处理本机的数据。Mo
goDB集群采用的是副本模式,一旦主节点故障,副本节点通过竞选机制,选举出一个副本节点作为主节点,从而保证整个数据存储的稳定性。采集器集群所有的节点都是同一地位,分别执行不同的采集任务,如果某个采集节点停止运行,控制中心会立即监测并确认后,把其采集任务分配到其他采集器上,确保数据的连续和一致性。
四、效益分析
基于云算和大数据的智能运维实现以后,预计将产生巨大的管理效益、经济效益与社会效益。
第一,建立统一管理体制,实现一个平台对多系统监控和管理,让领导放心、业务人员省心、客户放心。通过统一的数据呈现和监控管理平台,实现各资源子系统的统一管控,对整个基础资源平台里的各类主机硬件,存储硬件,网络硬件、以及不同的虚拟化软件,实现统r