AI Agent 困難的是讓它不要失控

從聊天到工作流

近半年，我花了不少時間，在不同的 AI Agent 工具裡反覆折騰。

一開始的念頭很單純，一方面是工作上的需求，另一方面我想知道，Agentic AI 這些被稱為下一代工作革命的東西，到底是真正能幫研發團隊分攤工作，還是另一波被媒體包裝得很漂亮的新玩具。

三年半以前，我主要透過 LLM 的 Chat，或是 GitHub Copilot 來協助開發。當時主要的 IDE是 VSCode，工作方式也很直覺：我問問題，AI 回答；我寫程式，用 tab 補全；遇到 bug，我將錯誤訊息輸入，由 AI 推測原因。那時候的 AI像顧問，或是一個很懂語法的自動完成器。它可以提高速度，但真正決定工作如何展開的人還是我自己。

後來開始使用 Cursor、Windsurf，情況就有些變化了。AI 不再只是回答問題，而是開始處理整個專案脈絡。它會讀檔案、理解 repo、跨檔案修改，也可以承接較完整的功能開發。這時明顯感覺到，提示工程正在變成另一種東西。過去我們在意的是 prompt 寫得好不好，現在更重要的是任務是否被拆解清楚、上下文是否乾淨、驗收條件是否明確。

而從 Antigravity 推出之後，我就改用 Antigravity 來開發。同時我也混用了 Codex、Claude Code、Claude Cowork 等 coding agent。到這個階段，我已經很難只用「哪個工具比較強」來形容它們。它們比較像不同性格、不同工作習慣的工程師。問題不只是能力，而是我們要把什麼工作交給誰，以及怎麼讓它照著我們的期待前進。

Antigravity 的規劃感

Antigravity 很像一位習慣先把白板規劃好的人。接到工作需求之後，它通常不會立刻動手，而是先拆解問題、安排步驟、建立 task list，然後才往下執行。很多時候，它會停下來，需要我確認下一步。剛開始我覺得這樣有點慢，因為使用工具時，總會希望它愈快愈好，最好一句話，就能讓 AI 將整件事完成。

但真正把複雜任務交給它之後，這種需要我確認的節奏反而重要。當任務不只是問答，而是包含下載資料、閱讀論文、整理摘要、翻譯、建立文件，甚至跨 browser 與 terminal 操作時，AI 若沒有節制地一路往前衝，其實很容易偏離原本的目標，重點是 token 的消耗都要錢。

最早我曾讓它處理十五篇專業論文的工作流程。從下載、抽取內容、摘要、翻譯，到最後輸出整理過的文件，那種感覺很奇妙。它不只是執行而已，它會規劃，而這個能力很重要。真正的大型任務，會失敗往往不是模型看不懂，而是作業流程在某個地方開始偏掉，接著 token、上下文、檔案與工具呼叫混在一起變得難以控管。

對齊不只是一個好 prompt

我現在喜歡用「對齊」來說明我使用 AI 開發的方式。這裡說的對齊，不只是把 prompt 寫得漂亮，而是讓 AI 知道任務的方向、邊界、格式、停止條件，以及什麼事情需要跟我確認。

以前談提示工程時，很多重點放在角色設定、語氣、範例與輸出格式。這些當然還是有用，但 Agent 能做的事情變多之後，溝通方式也必須跟著改變。我會更明確地告訴它：先讀資料，不急著改；先提出計畫，不急著執行；遇到成本、權限、不可逆操作、或需要價值判斷的地方，要停下來；輸出之後，要用我指定的角度檢查，而不是只給一份看似完整的結果。而這些過程，我會混著雲地模型來使用，部分工作我先進行處理，才讓它接手後續作業。

這也是我現在使用 AI 的核心變化。它不再只是回答者，而是可以執行複雜任務的協作者。既然它會執行，就必須有工作準則；既然它會消耗 token，就須要有成本意識；既然它會接觸檔案與工具，就必須有邊界。不然它雖然會工作，但也同樣會製造難以收拾的災難。

OpenClaw、Codex 與混合式工作模式

相較於 Antigravity，OpenClaw 的世界又是另一種風景。如果說 Antigravity 像一位習慣規劃的工程師，那 OpenClaw 更像把一整座工廠交到我們手上。我們可以自由配置模型、接 Telegram、串 LINE、建立 workflow、調整 memory、設計 sub-agent，甚至連整套系統都能架在自己的設備裡。除了有很多 Skill 可以直接下載使用，也可以自己開發 Skill。同時可以將不同主機上的 OpenClaw 組成一個團隊，我是透過 Gateway（WebSocket）進行健康檢查與連通測試，然後利用一個 Telegram 群組跟規則化協作，讓不同的 OpenClaw 來處理工作任務。

初次將本地模型接上 Telegram，讓 AI Agent 可以透過即時訊息開始工作時，會突然有一種「這東西好像活起來了」的錯覺。但自由度愈高，相對的問題也愈多。有時候是 workflow 卡住，有時候是 tool calling 漂移，更多時候是任務繞進重複流程裡出不來。使用這類框架，有太多事情需要使用者自己處理。

我目前有一些資料自動化蒐集與功能測試放在 OpenClaw 上執行。包含本地部署的 Qwen3.5-35B-A3B 4bit，透過 Mac 上的 oMLX 推論服務呼叫，再由 Telegram 當作遠端控制入口。主模型、搜尋模型、本地模型、小型 embedding 與翻譯模型會依任務分工。有些簡單任務，我會交給小模型或 translategemma-4b 這類模型處理，避免所有事情都丟給雲端高價模型。

Codex 則是另一條完全不同的路線。它給我的感覺，最像工程化之後的 AI Agent。它不是單純的聊天工具，而是試圖直接進入 software engineering workflow。從 CLI、IDE、GitHub、background task，到 review、sandbox、approval policy，整套思維都很接近真正的開發流程。而最近的一版還可以透過手機來控制電腦上的 Codex，我都開玩笑說最近我跟 AI 溝通已經超過跟人溝通了。太太還提醒我要注意跟 AI 協作的時間感，因為太過投入往往會忘了時間。

Claude Code 與 Claude Cowork，或其他付費模型，我更多時候拿來做對照、長文脈絡整理、設計另一種解法，或是在需要第二意見時使用（例 Code Review）。這些工具各有特性，也讓我愈來愈不想把問題簡化成哪一套最強。更實際的問題是：這個任務需要規劃、需要執行、需要文件化、需要進 repo，還是需要自動化排程？不同工具適合的位置並不一樣。