、规范化和自动化。通过建立运维管理流程,可以使日常的运维工作流程化,职责角色更加清晰,从而使解决问题的速度和质量得到有效提高,实现知识积累和知识管理,并可以帮助运维部门进行持续的服务改进,提高服务对象的满意度。运行维护流程包含的环节有事件管理、问题管理、变更管理及配置管理。
(1)事件管理
所谓事件,是指发生的对IT体系某一环节运行造成影响的事件,包括系统崩溃、软件故障、任何影响用户业务操作和系统正常运作的故障、以及影响业务流程的情况,事件也包括一个用户的请求。
对日常性运维工作中出现的突发事件(即日常运行维护管理平台自动发现并产生的告警事件)和由用户维护人员新报告的事件会转入事件管理流程。
(2)问题管理
问题是指导致事件产生的原因,许多事件往往是由同一个问题引起的。问题的来源主要有以下几种:①已经处理的事件,经过回顾分析后,可能形成一个问题;②重大事件,虽然经过紧急处理恢复服务,但未找到根本原因,也形成一个问题;③对于趋势性事件的分析,并形成问题。
问题管理流程可以按照不同领域的问题(如网络、主机、中间件、数据库、应用等)由相关领域的技术支持专家来处理。原则上这些专家可以是二线支持专家,他们在负责接受来自一线支持人员的支持请求的同时,也负责对以往事件进行分析,找出事件产生的根本原因,从而确定解决方案,消除这些根本原因,最终使此类事件不再发生;另一方面,也要从发生的事件中找出事件的发展趋势或潜在可能发生的问题,主动提供预防性措施,提高系统可靠性,降低运维成本。
问题管理流程着重于消除事件或减少事件发生,确定事件的根本原因,其流程如下:首先,定期分析事件,找出潜在问题,调查问题以找出其原因,制定解决方案、变通方法或提出预防性措施,以消除产生原因,或在重发时使其影响力最小化。其次,记录解决方案、变通方法、预防性措施,根据需要添加到知识库中。再次,提出变更请求,对问题的解决方案进行评估,通过提出变更请求以对该方案进行测试和实施。最后,问题必须进行事后回顾以找出改进机会或总结预防性措施,包括改进事件监测、找出技能差距和文档资料改进等。
(3)变更管理
变更请求通常由于问题的解决方案中需要对生产环境进行某些改变而产生,变更请求来源于问题管理环节或由用户提交。变更管理通过一个单一的职能流程来控制和管理整个信息系统运行环境中的一切变更,范围可包括软件,硬件,网络设备和文档等的变r