今天又是热闹的一天。
凌晨五点多批处理出问题了,这已经不是第一次出问题了。
任务将服务器资源耗尽,内存占满,CPU耗尽,磁盘IO负载极高,快冒烟了。
重启数据库三次,总算将批处理跑完了。
上午将各个系统开发人员都叫了过来,包括数据库系统开发人员,大家一起分析原因。
网络,服务器逐个排查,似乎都没有问题。
下午快下班了,领导终于决定重启整个集群。
好像打仗一样,三个小时以后,集群重启完成,今天的批处理也还启动了。
领导让业务部门出一个优先清单,如果今天还出现服务器卡死的情况,等服务重启之后,先优先跑这个清单的任务,然后再跑其他任务。
为了实现这个功能,忙活到晚上十点。








网友评论