美文网首页
指标监控

指标监控

作者: 3bd3c1497272 | 来源:发表于2020-05-26 16:05 被阅读0次

指标的特性

  标准化      可量化     多维度

指标监控的报警链路

常用的指标项

  • 可用性
  • 流量
  • cpu 内存 checkpoint connector等
    自定义指标
  • 缓冲命中
  • 外部接口的调用
  • 丢弃数据的比例(异常处理一般都catch了 不然抛出异常任务将一直重启)
  • 处理逻辑耗时

如何确定关注的指标项

  • 作业相关     a. 是否可用   b 是否稳定   c 是否异常
    
  • 性能相关      a 是否延迟   b 数据倾斜   d性能瓶颈
    
  • 业务逻辑相关   a 上游数据问题   b 新上逻辑问题   c数据丢失
    

聚合的维度信息

  • task
    
  • operator
    
  • job
    
  • host   物理指标项
    

聚合的指标项

  • 总和   均值  最大  最小
    
  • 差值
    
  • 99线
    
  • 指标缺失
    

实际类型排查

  • 任务延时:   
    处理方式: 通过反压找到节点的问题  是否是GC等,查看堆栈信息,查看日志
    调整方式: 增加反压节点的并发,调整每个taskmanager的cpu于内存,拆开flink的slot共享链chain
    
  • 作业failover   
    1. jobmanager 的failover(zk访问超时,资源的问题)
    2. taskmanager的failover
    
  • 作业无法提交
    yarn的资源限制     jar包过大   jobmanager资源不足
    
  • 作业异常停止  ---  无指标采集上来
    重启侧率问题    重启次数达到上限
    

总结: 排查问题的方法论: 查看日志,查看指标项 --》 查看反压 ---》 定位到节点-----》 定位到位置 -----》 调整代码逻辑或者是沟通

-------有时候还得 多加一些理性的猜测

排查问题

通过指标由粗到细的进行排查

相关文章

  • 第10章 Kubernetes集群资源监控

    一. Kubernetes监控指标与监控方案 1.Kubernetes监控指标 (1).集群监控 • 节点资源利用...

  • 监控笔记

    监控分类 系统 业务 监控方法 探针(probing) 内省(introspection) 监控指标 指标设计方法...

  • 搭建Prometheus Grafana Go监控平台

    一、前言 监控指标 Go监控指标有好多库,监控指标大致一样。1)https://github.com/bmhatf...

  • 监控基础概念

    监控指标: 硬件指标 软件指标 业务指标 监控系统: 采样:sensor(传感器) 存储 展示 报警 采样: 周期...

  • 分布式应用系统监控浅谈

    监控指标 机器维度 机器维度的监控指标包括CPU、Load、内存、网络、IO、磁盘等相关指标,详细指标可以参考Li...

  • Zabbix 服务器性能指标参考(学习笔记十七)

    服务器性能及业务监控指标,可根据实际情况调整,下表供大家参考。 监控类别监控子对象监控维度监控指标警告严重 服务器...

  • 指标监控

    指标的特性 指标监控的报警链路 常用的指标项 可用性 流量 cpu 内存 checkpoint conne...

  • 监控指标

    监控工具 zabbix, falcon ,grafana,Redis监控大盘,ES监控大盘,MQ,falcon,C...

  • Redis性能指标监控

    监控指标 性能指标:Performance 内存指标: Memory 基本活动指标:Basic activity ...

  • prometheus监控spark on yarn方案(一)

    一、监控指标 使用sparkMetricSink监控的指标 二、考虑问题 spark自带的sink使用io.dro...

网友评论

      本文标题:指标监控

      本文链接:https://www.haomeiwen.com/subject/pgtvahtx.html