I05 Observability 觀測平台系列

觀測是跨整條 request 流程的橫切面——怎麼把 Prometheus / Loki / Tempo / Grafana 架起來、scaling、HA、成本控制

Infra Roadmap


現有文章


計畫中(🌱)

#主題
01觀測平台全景(Logs / Metrics / Traces + Events / Profiles)
02為什麼用 Prometheus 不用 Nagios
03為什麼需要 Log 聚合而不是 ssh grep
04為什麼 Trace 在微服務時代變必要
05為什麼觀測成本會爆
08觀測演進驅動力
10Prometheus HA(Thanos / Mimir / Cortex)
11Grafana 部署與治理
15Loki vs ELK 選型
18OpenTelemetry Collector 部署
19Tempo / Jaeger 選型
24AlertManager 深入
25SLO / Error Budget 實作
26監控 → 告警 → Ticket 整合鏈
28Grafana Unified Observability
36觀測平台 Anti-patterns