运维操作规范
版本控制信息
版本A
日期2018423
拟稿和修改初版发行
说明
f目录
1目的22总则33运维操作规范34数据库操作规范45安全运维规范4
1目的
2
f旨在规范运维操作流程,保障生产环境的稳定运行。
2总则
21对生产环境存敬畏之心旨在规范运维操作流程,保障生产环境的稳定运行。22白天9001900禁止对现网做变更操作除非紧急情况,的确必要,必须经过上级审批。23禁止在生产环境进行未知后果的参数测试要测试的话需要测试环境先验证24做好备份如修改配置文件、升级工程前,一定要先做好配置。25对破坏性的命令要小心比如清除目录rmrtomcatworkCatali
a要多核对下命令和参数26需要724小时手机开机,保持通讯畅通
3运维操作规范
31白天一般只进行例行巡检、紧急更新需要经过审批32对不可逆的删除或修改操作,尽量延迟或慢速执行33新系统上线后,要记得分析日志,增加监控对象。34版本升级后,需要进行观察,确保服务质量不受影响35应对故障要先恢复再排查,无计可施时重启试试36运维脚本和工具要版本化管理37批量操作,需要在测试环境进行演练38删除操作脚本交叉检查二次确认39一人一次只做一个变更,降低人为失误风险
3
f310数据备份任务要监控,并定时检查备份档的有效性311灾难的紧急预案一定要有演练的机制312每个偶然的故障背后都深藏着必然联系,需要找到问题根源。
4数据库操作规范
41白天一般只进行例行巡检42统计数据在只读实例上统计没有只读实例的话,若需要消耗大量性能,只在夜间进行计算。43对大表的变更需要经过审批44变更需要发送通知和报告,保证信息对齐45知己知彼,了解所做操作产生的结果才去做46重大操作要有操作和回滚方案,要双人检验且审批通过47养成日常巡检核心监控属性的习惯、定期对比各数据中心的库表结构是否一致48上线SQL先Explai
一把,执行计划可以做一定的固化49做好数据库容量r