美文网首页运维
完备的监控应覆盖什么

完备的监控应覆盖什么

作者: 龙渊秦五 | 来源:发表于2017-10-11 21:15 被阅读936次

细心的读者可能会发现,上一篇《运维的价值和目标拆解》中有个脑图,其中监控完备这部分是没有展开的。那么对于一个互联网公司,要对哪些方面做了监控,才能称得上完备?今天笔者抛砖引玉,给出一个列表,不足之处,欢迎业界同仁补充,共同进步:)

网络监控

终端客户要想访问你的服务,势必要经过一系列网络链路,这是我们的第一个着眼点

网络质量

全国各地,不同的地区,不同的运营商,访问你的网站的质量,比如延迟是多少,是否不通了

公网出口

服务部署在某个IDC,IDC的公网出口是不是拥塞了,是不是断了

专线带宽

服务可能是依赖其他服务的,而被依赖的服务却不在同一个机房,中间通过专线连通,那么专线的质量就需要关注了,典型的比如丢包情况,是否连通,带宽是否到达上限

网络设备

各种交换机、路由器,是不是挂了,是不是丢包了,硬件是否故障了

机器监控

这个大家通常不会忽略,毕竟你的服务是在机器上跑的嘛,简单唠叨一下

机器硬件

比如磁盘是不是只读了,raid是不是故障了,内存是不是故障了

机器运行态

比如磁盘是不是满了,CPU是不是持续跑满,内存是不是快吃光了,IO持续100%,网卡是不是丢包了,系统进程总数是不是过多了,打开的文件句柄是不是过多了。

机器配置

比如ulimit配置是否合理,一些系统参数比如nf_conntrack_max配置是否合理。

系统进程

比如ntp是否工作正常,系统时间是否偏差太大,sshd进程是否工作正常,crond是否挂了

业务监控

服务本身运行的情况,自然也是要监控的

存活性

进程是否还在,端口是否还在监听,LOG是否不再滚动

异常日志

比如抛了Exception,出现了ERROR、FATAL、ALERT等关键字

健康指标

这个经常容易忽视,需要研发配合,能够反映服务自身健康状况的指标,跟业务自身相关。比如MQ,能够反映MQ健康状况的可能是消息堆积量。

接口监控

服务对外提供的API,其成功率、延迟情况、QPS等等。一些人做的域名监控也可以归到这里。

周边依赖

比如你依赖的其他服务是否健康,比如用到的HTTPS证书是否过期

相关文章

  • 完备的监控应覆盖什么

    细心的读者可能会发现,上一篇《运维的价值和目标拆解》中有个脑图,其中监控完备这部分是没有展开的。那么对于一个互联网...

  • 监控覆盖度、CMDB关系与主动巡检

    今天专家巡检了我们的基础监控平台,对于我们的监控覆盖度和CMDB提出了一些建议。 监控覆盖率的问题 监控要做到全面...

  • 面具 (3)线索 (一)

    对目击者进行询问后,陈找到了小周,问起监控的事,“监控有没有什么惊喜?” “确实有点惊喜,监控根本没有覆盖受害者房...

  • 12-ReentrentReadWriteLock

    概述 引入 我们之前说过concurrent包相对synchronizer关键字有很多优点,比如:更完备的监控方法...

  • 系统监控

    一、为什么监控,监控什么内容? 对系统的运行状态了如指掌,有问题及时发现,而不让用户先发现我们系统不能使用。 在应...

  • 饿了么监控系统 EMonitor 与美团点评 CAT 的对比

    背景介绍 饿了么监控系统EMonitor:是一款服务于饿了么所有技术部门的一站式监控系统,覆盖了系统监控、容器监控...

  • 监控不是这么搞滴

    曾经我有个梦想,一个监控软件搞定所有类型的监控。。。曾经我有个梦想,一个监控软件覆盖所有机器,容器。。。曾经我有个...

  • 电梯视频监控中的楼层信息的重要性

    国内安防视频监控系统的普及率逐年上升,包括电梯轿厢里也能实现无盲角覆盖。用户在使用监控系统中,会在电梯的视频监控画...

  • 设计一个好的测试用例

    测试用例 什么是好的测试用例 好的测试用例是一个完备的集合,ta能够覆盖所有等价类以及各种边界值 测试用例有哪些特...

  • 图灵完备是什么?

    图灵完备(Turing Complete),图灵完备是指机器执行任何其他可编程计算机能够执行计算的能力。 图灵完备...

网友评论

    本文标题:完备的监控应覆盖什么

    本文链接:https://www.haomeiwen.com/subject/wsrgyxtx.html