运维工作职责及制度
工作范围:
一、架构设计为研发部门提供非代码方面的运维技术协助,并在产品开发初期或部署阶段与之共同设
计产品运营方面的技术架构,以及架构运行程序和运维自动化软件开发。二、运行监控
对线上生产环境中的服务器、交换机等各类设备以及关键程序运行状态进行7x24小时轮班人力监控,如果遇到运行故障能在5分钟内获得通知,并立即开展应急处理工作。三、数据维护
公司业务内的各种关系和非关系数据库中持久化存储的数据备份,并将备份数据从生产服务器保存到线下公司内部的存储器中并建立数据仓库。
为运营部门建立和维护运营数据“仓库”,并开发部份运营数据挖掘工具。四、企业信息化建设
公司内部办公自动化设备的采购选型、维护、组装,以及协助行政或财务部对该类物品进行资产管理。办公网络系统组建,例如内部文件共享、邮件、IM等办公协同服务系统的组建和维护。
架构设计工作细则
由于不少公司的研发人员对数据库以及服务器架构方面不是很擅长,需要运维部DBA和架构师协助进行产品研发初期或产品部署阶段的协助。主要工作要点如下:
一、数据库结构设计。数据库的分布式运算架构设计,例如读写分离;数据表的分割存储,存储引擎的择优;数据表字段的类型及数值格式择优。
二、服务器架构设计。常见的有服务器网络分布,服务角色合并等等。三、运维自动化工具开发,主要采用系统的Shell脚本或Pytho
、CC语言,开发
常用的自动备份、监控警报等工具,减少人力成本,加强维护监管的精准度。
f运行监控工作细则:
一、运行监控工作需7x24小时不间断的对所有生产环境中的服务器、路由器以用服务端软件进行监控。
运维监控工作按每天24小时计算,由五名运维工程师每人轮班,假设为ABCDE五名员工,具体排班表见附件《运维轮排表》。
二、运维工作中监测到异常时需按以下流程来处理:
记录故障详情
应急处理
预计处理时间超过10分钟
汇报至运维负责人
10分钟内处理成功恢复运行
通知运营部发布紧急维护公告
运维部组进行后续维护
1记录详细的故障症状及相关输出信息运维部会开发一套运维工作日志系统,用于记录每次故障的详情,以便日后对故障进行
后续跟踪和职责过失判定。2进行应急处理
运维部与研发部双方会不断交涉更新汇总出一份常见故障应急处理方法的手册,以BS形式发放至每一位运维工程师。当出现突发故障时,运维工程师在记录下故障详情后,则按照该手册结合自己的技术经验来进行故障修复。3发布紧急r