监控系列讲座（四）Prometheus概念解释

作者: 炼狱腾蛇Eric | 来源:发表于2020-06-19 09:51 被阅读0次

监控系列讲座（四）Prometheus概念解释
k8s-Prometheus
Redis的运维手段
监控系列讲座（三）Prometheus概览
监控系列讲座（一）监控与prometheus系统
2018-10-23
Prometheus监控实战（四）Prometheus监控SNM
kubernetes-prometheus
Prometheus监控k8s集群
监控系列讲座（十三）Prometheus复杂查询

4. 概念解释

4.1. 数据模型

Prometheus从根本上存储的所有数据都是时间序列: 具有时间戳的数据流只属于单个度量指标和该度量指标下的多个标签维度。除了存储时间序列数据外，Prometheus也可以利用查询表达式存储5分钟的返回结果中的时间序列数据

4.1.1. metrics和labels(度量指标名称和标签)

每一个时间序列数据由metric度量指标名称和它的标签labels键值对集合唯一确定。

这个metric度量指标名称指定监控目标系统的测量特征（如：http_requests_total- 接收http请求的总计数）. metric度量指标命名ASCII字母、数字、下划线和冒号，他必须配正则表达式[a-zA-Z_:][a-zA-Z0-9_:]*。

标签开启了Prometheus的多维数据模型：对于相同的度量名称，通过不同标签列表的结合, 会形成特定的度量维度实例。(例如：所有包含度量名称为/api/tracks的http请求，打上method=POST的标签，则形成了具体的http请求)。这个查询语言在这些度量和标签列表的基础上进行过滤和聚合。改变任何度量上的任何标签值，则会形成新的时间序列图

标签label名称可以包含ASCII字母、数字和下划线。它们必须匹配正则表达式[a-zA-Z_][a-zA-Z0-9_]*。带有_下划线的标签名称被保留内部使用。

标签labels值包含任意的Unicode码。

4.1.2. 有序的采样值

有序的采样值形成了实际的时间序列数据列表。每个采样值包括：

一个64位的浮点值
一个精确到毫秒级的时间戳一个样本数据集是针对一个指定的时间序列在一定时间范围的数据收集。这个时间序列是由{=, …}

指定度量名称和度量指标下的相关标签值，则确定了所关心的目标数据，随着时间推移形成一个个点，在图表上实时绘制动态变化的线条’

4.1.3. Notation(符号)

表示一个度量指标和一组键值对标签，需要使用以下符号：

[metric name]{[label name]=[label value], …}

例如，度量指标名称是api_http_requests_total，标签为method="POST", handler="/messages" 的示例如下所示：

api_http_requests_total{method=”POST”, handler=”/messages”}

这些命名和OpenTSDB使用方法是一样的

4.2. metrics类型

Prometheus客户库提供了四个核心的metrics类型。这四种类型目前仅在客户库和wire协议中区分。Prometheus服务还没有充分利用这些类型。不久的将来就会发生改变。

4.2.1. Counter(计数器)

counter 是一个累计度量指标，它是一个只能递增的数值。计数器主要用于统计服务的请求数、任务完成数和错误出现的次数等等。计数器是一个递增的值。反例：统计goroutines的数量。计数器的使用方式在下面的各个客户端例子中：

客户端使用计数器的文档：

4.2.2. Gauge(测量器)

gauge是一个度量指标，它表示一个既可以递增, 又可以递减的值。

测量器主要测量类似于温度、当前内存使用量等，也可以统计当前服务运行随时增加或者减少的Goroutines数量

客户端使用计量器的文档：

4.2.3. Histogram(柱状图)

histogram，是柱状图，在Prometheus系统中的查询语言中，有三种作用：

对每个采样点进行统计，打到各个分类值中(bucket)
对每个采样点值累计和(sum)
对采样点的次数累计和(count)

度量指标名称: [basename]的柱状图, 上面三类的作用度量指标名称

[basename]_bucket{le=”上边界”}, 这个值为小于等于上边界的所有采样点数量
[basename]_sum
[basename]_count

小结：所以如果定义一个度量类型为Histogram，则Prometheus系统会自动生成三个对应的指标

使用histogram_quantile()函数, 计算直方图或者是直方图聚合计算的分位数阈值。一个直方图计算Apdex值也是合适的, 当在buckets上操作时，记住直方图是累计的。详见直方图和总结

客户库的直方图使用文档：

4.2.4. 总结

类似histogram柱状图，summary是采样点分位图统计，(通常的使用场景：请求持续时间和响应大小)。它也有三种作用：

对于每个采样点进行统计，并形成分位图。（如：正态分布一样，统计低于60分不及格的同学比例，统计低于80分的同学比例，统计低于95分的同学比例）
统计班上所有同学的总成绩(sum)
统计班上同学的考试总人数(count)

带有度量指标的[basename]的summary 在抓取时间序列数据展示。

观察时间的φ-quantiles (0 ≤ φ ≤ 1), 显示为[basename]{分位数="[φ]"}
[basename]_sum，是指所有观察值的总和
[basename]_count, 是指已观察到的事件计数值

详见histogram和summaries

有关summaries的客户端使用文档：

4.3. Jobs和Instances(任务和实例)

就Prometheus而言，pull拉取采样点的端点服务称之为instance。多个这样pull拉取采样点的instance, 则构成了一个job

例如, 一个被称作api-server的任务有四个相同的实例。

job: api-server
- instance 1：1.2.3.4:5670
- instance 2：1.2.3.4:5671
- instance 3：5.6.7.8:5670
- instance 4：5.6.7.8:5671

4.3.1. 自动化生成的标签和时间序列

当Prometheus拉取一个目标, 会自动地把两个标签添加到度量名称的标签列表中，分别是：

job: 目标所属的配置任务名称api-server。
instance: 采样点所在服务: host:port

如果以上两个标签二者之一存在于采样点中，这个取决于honor_labels配置选项。详见文档

对于每个采样点所在服务instance，Prometheus都会存储以下的度量指标采样点：

up{job="[job-name]", instance="instance-id"}: up值=1，表示采样点所在服务健康; 否则，网络不通, 或者服务挂掉了
scrape_duration_seconds{job="[job-name]", instance="[instance-id]"}: 尝试获取目前采样点的时间开销
scrape_samples_post_metric_relabeling{job="", instance=""}: 表示度量指标的标签变化后，标签没有变化的度量指标数量。
scrape_samples_scraped{job="", instance=""}: 这个采样点目标暴露的样本点数量

up度量指标对服务健康的监控是非常有用的。
为了方便大家学习，请大家加我的微信，我会把大家加到微信群（微信群的二维码会经常变）和qq群821119334，问题答案云原生技术课堂，有问题可以一起讨论

个人微信
640.jpeg
腾讯课堂
640-20200506145837072.jpeg
微信公众号
640-20200506145842007.jpeg
专题讲座

2020 CKA考试视频真题讲解 https://www.bilibili.com/video/BV167411K7hp

2020 CKA考试指南 https://www.bilibili.com/video/BV1sa4y1479B/

2020年 5月CKA考试真题 https://mp.weixin.qq.com/s/W9V4cpYeBhodol6AYtbxIA

网友评论

本文标题：监控系列讲座（四）Prometheus概念解释

本文链接：https://www.haomeiwen.com/subject/ktxvxktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！