「我想學 AI,可以做什麼 side project?」這個問題很多人問,但網路上的答案通常是「去做 RAG」、「去做 agent」——這個粒度太大。RAG 跟 agent 是技術概念,不是 project

前後端的學習路線天然有 progressive ladder:

前端後端
Calculator → Todo → Blog → SPA → E-commerce → SaaSREST API → Auth → CRUD → Microservices → Distributed

每個 tier 有具體 project、有學到的東西、有「這 tier ship 過再進下一 tier」的明確判斷。

AI 系列目前缺這條 ladder——這篇就是來補的。


怎麼用這個 ladder

不是嚴格順序,是建議:

  • 每個 tier 至少 ship 一個完整 project 再進下一 tier——不是讀完文件,是真的部署起來能用
  • 每 tier 列 2-3 個 project,挑一個做完就夠,不要全做
  • 「不要碰」那欄是真的不要碰——一開始就上太大會直接卡死,學不到核心能力
  • 跳級可以,但跳兩級以上失敗率很高(例如直接從 T1 跳 T4)

每個 tier 最後都列了對應的 hands-on 章節文章 pointer,可以照那邊的步驟做。


Tier 1:API call + Prompt 基本功(1-2 週)

第一個 tier 的目的不是「做出有商業價值的東西」,是讓 LLM API 變成你工具箱的一部分

學什麼

  • 怎麼呼叫 OpenAI / Anthropic / Google API
  • Streaming response 怎麼處理
  • Error / retry / rate limit 基本應對
  • Prompt 怎麼寫才穩定

推薦 project(挑 1 個做完)

  • Telegram / Slack / Discord bot 接 LLM——對話 bot,bonus 加上 inline command(/summarize, /translate
  • 個人 daily briefing——cron 跑一個 script,每天早上把你 RSS / Email / Calendar 整理成一封簡報寄到自己信箱
  • 批次文章摘要 / 翻譯工具——丟 100 個 URL 進去,跑出整理好的 markdown

不要碰

  • ❌ RAG(先把 API call 練熟)
  • ❌ Agent / Tool use(會混淆 API 跟 agent 抽象層)
  • ❌ Vector DB
  • ❌ Fine-tuning

對應章節

Ship 的判斷

你能在新的 task 下「30 分鐘從零寫一個能呼叫 LLM 的 script」就算 T1 ready。沒到這個程度,多 ship 一兩個 T1 project。


Tier 2:RAG / Embedding / Vector DB(2-4 週)

這個 tier 的目的是讓 LLM 能讀「不在它訓練資料裡」的內容。RAG 是 2024+ 最被用的 AI 應用模式,T2 ship 過你會懂這套架構在解什麼問題。

學什麼

  • Embedding 是什麼、怎麼選
  • Vector DB(pgvector / Qdrant / Weaviate)基本操作
  • Chunking 策略(為什麼這個是隱形決勝點)
  • Retrieval:dense / sparse / hybrid / reranking
  • Prompt 裡怎麼放 retrieved context 才不會 dilute

推薦 project(挑 1 個做完)

  • 個人筆記 chatbot——把 Obsidian / Notion / 個人 markdown 全部塞進 RAG,做一個能查自己筆記的 chatbot
  • 個人 SaaS 文件 Q&A——挑一個你常用的工具(Claude Code / Cursor / Stripe / 任何 docs 大的 SaaS),做一個能精準回答「我該怎麼做 X」的 bot
  • Email / Slack 歷史搜尋——RAG over your past communication

不要碰

  • ❌ Agent(你會被 retrieval+agent 兩個混合 debug 搞瘋)
  • ❌ Fine-tuning(RAG 在大多數場景比 fine-tune 划算)
  • ❌ Multi-tenant(一次只服務你自己)
  • ❌ Production-grade scale(10 個 doc 跟 100k doc 是不同問題)

對應章節

Ship 的判斷

你的 RAG 能對你自己的資料回答出「精準到讓你信任」的答案。如果回答常常 hallucinate / 抓錯文件 / 抓不到——別急著進 T3,先把 retrieval / chunking 調好。T2 沒過去進 T3 會撞牆


Tier 3:Agent / Tool Use / Memory(1-2 月)

這個 tier 的目的是讓 LLM 從「回答」進化到「執行」——能呼叫 tool、能多步驟 reasoning、能記住之前的 context。

學什麼

  • Tool / Function calling schema 設計(這個比想像中難)
  • Agent loop:reason → act → observe → repeat
  • Memory:短期 / 長期 / vector memory
  • Error handling(agent 在邊界失敗時怎麼處理)
  • Observability:怎麼看 agent 在想什麼

推薦 project(挑 1 個做完)

  • PR review bot——每次 PR 開出來自動 review、留 comment、提建議。挑戰:怎麼讓它不亂留沒意義的 comment
  • 自動化 research agent——你給一個題目,agent 去 search → 讀 → 整理成一份 brief
  • Personal task assistant——能讀你 email、calendar、notion 然後幫你 draft 回覆 / 排會議。這個 project 會踩到一個關鍵問題:tool 越多、agent 越混亂——這就是 T3 真正要學的東西

不要碰

  • ❌ Multi-agent orchestration(這是 T4 的東西)
  • ❌ Production multi-tenant(先做你自己用的)
  • ❌ Long-running durable agent(會引入 Temporal / LangGraph 這類複雜度)
  • ❌ Customer-facing UX(先做 CLI / 個人 internal tool)

對應章節

Ship 的判斷

你的 agent 能完成一個「需要 3-5 步驟 + 至少 2 個 tool」的任務,且失敗時你看 log 知道為什麼失敗。如果你看不懂 agent log,不要進 T4——T4 的複雜度會讓 debug 變不可能。


Tier 4:Production AI App(2-3 月)

這個 tier 的目的是做出能給別人用的 AI 應用。前面 T1-T3 都是「給自己用」,T4 開始要面對真實使用者、scale、cost、auth、billing 這些 production-grade 的問題。

學什麼

  • Multi-tenant 架構(怎麼隔離 user 資料 / cost / rate limit)
  • Auth + billing(Stripe / Clerk / Supabase 整合)
  • Observability(Langfuse / LangSmith / Helicone)
  • Cost control(每個 user 的 token budget 怎麼控)
  • AI Gateway(LiteLLM / Portkey)替換 provider 不用改 code
  • 完整的 eval framework + CI 整合

推薦 project(挑 1 個做完)

  • Multi-tenant SaaS with RAG——一個你自己想用的工具,付費版 + 免費版區分,10 個真實用戶在用
  • Coding assistant 雛型——VSCode extension + 自己的 backend,能讀 user 的 codebase 提建議
  • Open source AI tool——做一個小但完整的 OSS(例如 Claude Code skill / 特定 use case 的 RAG framework)

不要碰

  • ❌ 一次做太多 feature(先 ship MVP,feature 後加)
  • ❌ 想做 enterprise(先做 individual user / SMB)
  • ❌ Fine-tune custom model(除非你 retrieval / prompt 都調過還不夠)

對應章節

Ship 的判斷

至少 10 個非家人朋友的真實使用者在用,且你看得到每個 user 的成本 / 行為 / 失敗率。沒有真實 user 不算 T4 完成——「我自己跑得起來」是 T3。


Tier 5:Build Extensions(持續累積)

最後這個 tier 不是線性的「ship 完再下一個」,是累積你的 AI extension 工具箱。每寫一個都讓你日常用 AI 的效率往上一階。

學什麼

  • Claude Skill 格式跟 auto-load 機制
  • Subagent 設計與組合
  • Slash Command authoring
  • Hooks 設計
  • MCP Server 從零(最近的標準,2024-2026 廣泛採用)
  • Cursor rules / VSCode extension(IDE 擴展)

推薦 project(持續做)

  • 第一個 Claude Skill——挑一個你日常做的事(PDF 摘要、會議記錄整理、code review checklist),寫成 Skill
  • 第一個 MCP Server——挑一個外部系統(GitHub / Notion / Linear),寫一個 MCP server 讓 Claude 能操作
  • 個人 Coding workflow 集——CLAUDE.md + slash commands + subagents + hooks 組合成你個人的 dev workflow
  • OSS Extension——把你內部用的 Skill / MCP 開源出去,第一次體驗「你的工具被別人用」

不要碰(這 tier 比較沒「不要碰」清單,主要是節奏)

  • ❌ 一次寫 10 個 skill(每個都半成品)——一個 ship 完再下一個
  • ❌ 過度抽象(很多 extension 不需要 framework,純 markdown + script 就夠)

對應章節


跨 tier 共通建議

怎麼選 project

每 tier 三個 project 怎麼選?看這個 project 你願不願意自己用

  • 願意自己每天用 → 選這個
  • 純粹為了學的 demo → 跳過

「自己會用」這條準則很重要:完全不會用的 demo project ship 過後就丟在那、不會再回去看,學到的東西很快忘記。但你會用的 project,你會持續維護、持續 hit 真實使用 case、自然碰到 production 問題——這才是學習真正發生的地方。

怎麼判斷 ready 進下一 tier

每 tier 都有「ship 的判斷」清單。簡單說就是:

  • T1 → T2:30 分鐘能寫一個 LLM call script
  • T2 → T3:你的 RAG 能精準回答自己的資料,不亂 hallucinate
  • T3 → T4:能寫 3-5 步驟的 agent,看得懂 log
  • T4 → T5:production app 至少 10 個真實 user
  • T5:永遠不畢業,持續累積

Ship 比 polish 重要

每 tier 的 ship 標準是「能跑、有人用、有 feedback」,不是「完美」。把每個 project polish 到完美你會永遠停在 T1。

60% 完成度 + ship + 看到 feedback > 95% 完成度但沒 ship。


學 AI 跟學前後端最大的不同

最後給你一個我自己的觀察:

學前後端的 ladder 比較 deterministic——每個 tier 學的技術是已知的、用法是穩定的、你做完一個 todo app 跟下個人做完的 todo app 大致長得像。

學 AI 的 ladder 不是這樣。AI 工具半年大改一次,你 T2 的 RAG 用 LangChain 寫的,半年後可能要改成 LlamaIndex;你 T3 的 agent 用 OpenAI Assistants API,半年後 Anthropic 出了更好的 tool use;你 T5 的 MCP server 標準在 2024-2026 還在演化。

這代表兩件事:

  1. 不要過度投資在「特定工具的精通」——T1-T4 學的是「概念 + 架構決策」,工具是 implementation detail
  2. 半年後回頭看你 T2 / T3 寫的東西會覺得很爛——這是好事,代表你在進步。爛的 ship 過的 project 比完美但永遠沒 ship 的 project 學得多