IT 运维中的事件、故障排查处理思路
服务整体性能下降或异常,可以考虑重启服务; 应用做过变更,可以考虑是否需要回切变更; 资源不足,可以考虑应急扩容; 应用性能问题,可以考虑调整应用参数、日志参数; 数据库繁忙,可以考虑通过数据库快照分析,优化SQL; 应用功能设计有误,可以考虑紧急关闭功能菜单; 还有很多……
是否为偶发性、是否可重现
是否进行过相关变更
是否可缩小范围
关联方配合分析问题
是否有足够的日志
是否有core或dump等文件
召集相关人员 描述故障现状 说明正常应用逻辑流程 陈述变更 排查进展,展示信息 领导决策