系统优化-方法论-如何建立监控体系

我们如何建立有效的监控体系?我们可以从俩个维度来看,系统指标,应用指标。

系统指标

在开始监控系统之前,你肯定最想知道,怎么才能用简洁的方法,来描述系统资源的使用情况。不过不要忘记,每种资源的性能指标可都有很多,使用过多指标本身耗时耗力不说,也不容易为你建立起系统整体的运行状况。在这里,我为你介绍一种专门用于性能监控的 USE(Utilization Saturation and Errors)法。USE 法把系统资源的性能指标,简化成了三个类别,即使用率、饱和度以及错误数。

  • 使用率,表示资源用于服务的时间或容量百分比。100% 的使用率,表示容量已经用尽或者全部时间都用于服务。
  • 饱和度,表示资源的繁忙程度,通常与等待队列的长度相关。100% 的饱和度,表示资源无法接受更多的请求。
  • 错误数表示发生错误的事件个数。错误数越多,表明系统的问题越严重。

avator

工具有:zabix,Prometheus等

avator

应用指标

应用指标可以直观的反应出服务的运行状况,我们更关注,请求数,延迟,错误率等,分布式系统、微服务还需要把握整个请求链路。

  • 全链路分析:掌握整个请求链路的响应时间、成功率,有zipkin,还有各大公司的trace方案
  • 指标分析:还需要对重点的业务,逻辑字日志中大点进行监控,解决方案可以采用:elk或者efk。