I05 Observability 觀測平台系列

觀測是跨整條 request 流程的橫切面——怎麼把 Prometheus / Loki / Tempo / Grafana 架起來、scaling、HA、成本控制。

現有文章

#	文章	Stage
15	Metrics & Monitoring（Prometheus + Grafana）	🌿
16	ELK）	🌿
17	Alerts & ChatOps	🌿
18	Alert Webhook Integration	🌿
19	Multi-node Monitoring	🌿

#	主題
01	觀測平台全景（Logs / Metrics / Traces + Events / Profiles）
02	為什麼用 Prometheus 不用 Nagios
03	為什麼需要 Log 聚合而不是 ssh grep
04	為什麼 Trace 在微服務時代變必要
05	為什麼觀測成本會爆
08	觀測演進驅動力
10	Prometheus HA（Thanos / Mimir / Cortex）
11	Grafana 部署與治理
15	Loki vs ELK 選型
18	OpenTelemetry Collector 部署
19	Tempo / Jaeger 選型
24	AlertManager 深入
25	SLO / Error Budget 實作
26	監控 → 告警 → Ticket 整合鏈
28	Grafana Unified Observability
36	觀測平台 Anti-patterns