近几年,程序的可观测的理论非常火,但很多同学对其三个概念一知半解。
Logging
对应到日志,Metrics
对应到监控指标,而Tracing
的概念最为复杂。推荐大家可以看看这篇文章作为入门。
最核心概念为2个:
Trace
一次请求的唯一标记。一般在入口处生成,串联了各程序、中间件之间的调用。常说的traceid
是一次Trace
的唯一标记Span
指具体的一个调用。如服务A调用了服务B、或服务A查询了MySQL,是不同的Span
。Span
有很多有意义的指标,如调用方法名、耗时、调用结果、父子关系,也可以添加自定义的标签tag
基于Trace
与Span
有很多玩法,但始终绕不开以下3点:
- 单个请求的视角:基于
Trace
的问题排查 - 单功能模的视角:基于
Span
的QPS/失败率的统计 - 系统视角:基于
Trace
和Span
的治理
前两点与开发同学的日常工作息息相关,而第三点则是基础架构组关注的重点,有许多衍生出来的玩法,如压测、容量规划等。
从社区来说,目前已基本由OpenTelemetry实现标准的大一统,有兴趣的同学可以适当关注。
Github: https://github.com/Junedayday/code_reading
Blog: http://junes.tech/
Bilibili: https://space.bilibili.com/293775192
公众号: golangcoding