I05 Observability 觀測平台系列
觀測是跨整條 request 流程的橫切面——怎麼把 Prometheus / Loki / Tempo / Grafana 架起來、scaling、HA、成本控制。
← Infra Roadmap
現有文章
計畫中(🌱)
| # | 主題 |
|---|
| 01 | 觀測平台全景(Logs / Metrics / Traces + Events / Profiles) |
| 02 | 為什麼用 Prometheus 不用 Nagios |
| 03 | 為什麼需要 Log 聚合而不是 ssh grep |
| 04 | 為什麼 Trace 在微服務時代變必要 |
| 05 | 為什麼觀測成本會爆 |
| 08 | 觀測演進驅動力 |
| 10 | Prometheus HA(Thanos / Mimir / Cortex) |
| 11 | Grafana 部署與治理 |
| 15 | Loki vs ELK 選型 |
| 18 | OpenTelemetry Collector 部署 |
| 19 | Tempo / Jaeger 選型 |
| 24 | AlertManager 深入 |
| 25 | SLO / Error Budget 實作 |
| 26 | 監控 → 告警 → Ticket 整合鏈 |
| 28 | Grafana Unified Observability |
| 36 | 觀測平台 Anti-patterns |