• SpringBoot 使用Prometheus采集自定义指标数据


            我们在k8s集群成功搭建了Prometheus服务。今天,我们将在springboot2.x中使用prometheus记录指标。

    一、我们需要什么指标

            对于DDD、TDD等,大家比较熟悉了,但是对于MDD可能就比较陌生了。MDD是Metrics-Driven Development的缩写,主张开发过程由指标驱动,通过实用指标来驱动快速、精确和细粒度的软件迭代。MDD可使所有可以测量的东西都得到量化和优化,进而为整个开发过程带来可见性,帮助相关人员快速、准确地作出决策,并在发生错误时立即发现问题并修复。依照MDD的理念,在需求阶段就应该考虑关键指标,在应用上线后通过指标了解现状并持续优化。有一些基于指标的方法论,建议大家了解一下:

    • Google的四大黄金指标:延迟Latency、流量Traffic、错误Errors、饱和度Saturation
    • Netflix的USE方法:使用率Utilization、饱和度Saturation、错误Error
    • WeaveCloud的RED方法:速率Rate、错误Errors、耗时Duration

    二、在SrpingBoot中引入prometheus

            SpringBoot2.x集成Prometheus非常简单,首先引入maven依赖:

    1. io.micrometer
    2. micrometer-registry-prometheus
    3. 1.7.3
    4. io.github.mweirauch
    5. micrometer-jvm-extras
    6. 0.2.2

            然后,在application.properties中将prometheus的endpoint放出来。

    1. management:
    2. endpoints:
    3. web:
    4. exposure:
    5. include: info,health,prometheus

            接下来就可以进行指标埋点了,Prometheus的四种指标类型此处不再赘述,请自行学习。一般指标埋点代码实现上有两种形式:AOP、侵入式,建议尽量使用AOP记录指标,对于无法使用aop的场景就只能侵入代码了。常用的AOP方式有:

    • @Aspect(通用)
    • HandlerInterceptor (SpringMVC的拦截器)
    • ClientHttpRequestInterceptor (RestTemplate的拦截器)
    • DubboFilter (dubbo接口)

            我们选择通用的@Aspect,结合自定义指标注解来实现。首先自定义指标注解:

    1. @Documented
    2. @Retention(RetentionPolicy.RUNTIME)
    3. @Target(ElementType.METHOD)
    4. public @interface MethodMetrics {
    5. String name() default "";
    6. String desc() default "";
    7. String[] tags() default {};
    8. //是否记录时间间隔
    9. boolean withoutDuration() default false;
    10. }

            然后是切面实现:

    1. @Aspect
    2. public class PrometheusAnnotationAspect {
    3. @Autowired
    4. private MeterRegistry meterRegistry;
    5. @Pointcut("@annotation(com.smac.prometheus.annotation.MethodMetrics)")
    6. public void pointcut() {}
    7. @Around(value = "pointcut()")
    8. public Object process(ProceedingJoinPoint joinPoint) throws Throwable {
    9. Method targetMethod = ((MethodSignature) joinPoint.getSignature()).getMethod();
    10. Method currentMethod = ClassUtils.getUserClass(joinPoint.getTarget().getClass()).getDeclaredMethod(targetMethod.getName(), targetMethod.getParameterTypes());
    11. if (currentMethod.isAnnotationPresent(MethodMetrics.class)) {
    12. MethodMetrics methodMetrics = currentMethod.getAnnotation(MethodMetrics.class);
    13. return processMetric(joinPoint, currentMethod, methodMetrics);
    14. } else {
    15. return joinPoint.proceed();
    16. }
    17. }
    18. private Object processMetric(ProceedingJoinPoint joinPoint, Method currentMethod, MethodMetrics methodMetrics) {
    19. String name = methodMetrics.name();
    20. if (!StringUtils.hasText(name)) {
    21. name = currentMethod.getName();
    22. }
    23. String desc = methodMetrics.desc();
    24. if (!StringUtils.hasText(desc)) {
    25. desc = currentMethod.getName();
    26. }
    27. //不需要记录时间
    28. if (methodMetrics.withoutDuration()) {
    29. Counter counter = Counter.builder(name).tags(methodMetrics.tags()).description(desc).register(meterRegistry);
    30. try {
    31. return joinPoint.proceed();
    32. } catch (Throwable e) {
    33. throw new IllegalStateException(e);
    34. } finally {
    35. counter.increment();
    36. }
    37. }
    38. //需要记录时间(默认)
    39. Timer timer = Timer.builder(name).tags(methodMetrics.tags()).description(desc).register(meterRegistry);
    40. return timer.record(() -> {
    41. try {
    42. return joinPoint.proceed();
    43. } catch (Throwable e) {
    44. throw new IllegalStateException(e);
    45. }
    46. });
    47. }
    48. }

            代码很容易,没什么可说明的,接下来就是在需要记监控的地方加上这个注解就行,比如:

    1. @MethodMetrics(name="sms_send",tags = {"vendor","aliyun"})
    2. public void send(String mobile, SendMessage message) throws Exception {
    3. ...
    4. }

            至此,aop形式的指标实现方式就完成了。如果是侵入式的话,直接使用meterRegistry就行:

    meterRegistry.counter("sms.send","vendor","aliyun").increment();

            启动服务,打开http://localhost:8080/actuator/prometheus查看指标。

    三、高级指标之分位数

            分位数(P50/P90/P95/P99)是我们常用的一个性能指标,Prometheus提供了两种解决方案:        

            client侧计算方案

            summery类型,设置percentiles,在本地计算出Pxx,作为指标的一个tag被直接收集。

    1. Timer timer = Timer.builder("sms.send").publishPercentiles(0.5, 0.9, 0.95,0.99).register(meterRegistry);
    2. timer.record(costTime, TimeUnit.MILLISECONDS);

            会出现四个带quantile的指标,如图:

            server侧计算方案

            开启histogram,将所有样本放入buckets中,在server侧通过histogram_quantile函数对buckets进行实时计算得出。注意:histogram采用了线性插值法,buckets的划分对误差的影响比较大,需合理设置。

    1. Timer timer = Timer.builder("sms.send")
    2. .publishPercentileHistogram(true)
    3. .serviceLevelObjectives(Duration.ofMillis(10),Duration.ofMillis(20),Duration.ofMillis(50))
    4. .minimumExpectedValue(Duration.ofMillis(1))
    5. .maximumExpectedValue(Duration.ofMillis(100))
    6. .register(meterRegistry);
    7. timer.record(costTime, TimeUnit.MILLISECONDS);

            会出现一堆xxxx_bucket的指标,如图:

            然后,使用

    histogram_quantile(0.95, rate(sms_send_seconds_bucket[5m]))

            就可以看到P95的指标了,如图:

            结论:

            方案1适用于单机或只关心本地运行情况的指标,比如gc时间、定时任务执行时间、本地缓存更新时间等;

            方案2则适用于分布式环境下的整体运行情况的指标,比如搜索接口的响应时间、第三方接口的响应时间等。

  • 相关阅读:
    ubuntu apt-get update 失败 server certificate verification failed
    bm9 bm10
    【leetcode】【2022/8/27】662. 二叉树最大宽度
    记一次MySQL执行修改语句超时问题
    鸿蒙视频播放的实现
    用结构化思维解一切BUG(3):实际案例
    第十三届蓝桥杯省赛C++ C组《全题目+题解》
    doccano1.8.4 版本auto labeling中no data available解决的方法
    Doris单机安装
    Aop踩坑!记一次模板类调用注入属性为空的问题
  • 原文地址:https://blog.csdn.net/qq_19734597/article/details/127211312