Ops Notes:實戰踩雷筆記

這個目錄的軸是**「實戰踩雷」——不是教學文,是我踩過這個坑、怎麼找到根因、怎麼修**的原始紀錄。


每篇的格式

症狀(見到什麼錯)
   ↓
診斷(排除什麼、怎麼找到問題)
   ↓
原因(真正的根因)
   ↓
修法(commit 連結)
   ↓
可推廣教訓

跟其他系列的軸差

系列
ops-notes/(本目錄)事件:真實踩過什麼坑
infra/設施:平台建立 / 運維設計
management/engineering-process/流程:事故管理方法論
case-studies/案例:拆別人家的系統

15 個主題群導覽

基礎設施類

設定與部署類

協作與壓測

方法論

新興領域


資料來源

  • proto/infra/micro-service/(微服務壓測平台)
  • proto/infra/gitlab/ / proto/infra/monitor/
  • prd/quartz-blog/(本部落格)
  • tools/openclaw/(AI Agent 平台)

系列規劃

主題群詳細案例列表、子目錄預開規則、跟 I09 DR workflow 整合、寫作流程模板見 ROADMAP.md(計畫文件,不會被 Quartz 渲染)。


O01 K8s 部署阻斷

部署上不去、Pod 起不來、Service 連不通的系列。

#案例症狀
01PVC 名稱與 NetworkPolicy 缺漏P0 部署阻斷
02SecurityContext、Migration Job、Loki config部署驗證失敗
03Init Container resources 不足Migration 跑不起來
04emptyDir 沒設 sizeLimit + hostPath 沒驗證 type安全性問題
05RabbitMQ SecurityContext 過嚴寫入權限錯誤

O02 Kong Gateway

→ 全部 8 案例改歸屬到 kong(Kong 身份是 Gateway,不是純 ops 分類)。

已完成:yaml-indent 🌿

O03 Ingress

Ingress / 路由 / TLS 相關 5 案例(host-based routing、SSL redirect、SPA base path…)。

O04 Docker / Registry

地端 registry / DinD / .dockerignore / env schema 5 案例。

O05 Probe

Liveness / Readiness / Startup probe 調校 4 案例。

O06 Env / Secret

Docker Compose secret 跳脫、env file 對齊、SecretGenerator 5 案例。

O07 CI/CD

Rollback typo、GitLab runner、藍綠部署、Discord 通知 5 案例。

O08 Resource

HPA / PDB 壓測調校 4 案例。

O09 Observability

Prometheus scrape / Grafana PVC / Kong dashboards / OTEL / fluent-bit 5 案例。

O10 Frontend

SPA / SSR / dockerignore 3 案例。

O11 Submodule

Submodule 遷移、遠端切換、同步時機 4 案例。

O12 Stress Test

壓測驅動的 HPA / Resource / Rate limit 調校 3 案例。

O13 Methodology

跟 O01-O12 案例軸不同:O01-O12 是「踩過什麼」,O13 是「怎麼系統化處理這類問題」。

  • 為什麼需要 Runbook 系統
  • Runbook 系統設計
  • K8s Troubleshooting 方法論
  • K8s / Helm Upgrade 策略

吸收自 I10 Platform Engineering 的 methodology 段。

O14 AI Tools

新主題群。Claude Code / Cursor / Ollama / OpenAI API / MCP / Agent 踩雷。

O15 Blog Deploy

新主題群。Quartz / GitHub Actions / Pages / wikilink / plugin 設定踩雷。

此資料夾下有 8 條筆記。