本文是人機協作搭配 Deep Research 的 AI 工具產出

引言

2024年以來,大型語言模型(LLM)引領的生成式 AI 突飛猛進,OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini 等相繼推出強大的對話式 AI。而近期中國團隊發布的 Manus 則號稱是全球首個全自主 AI 代理(fully autonomous AI agent),引發業界關注。本文將深入比較 Manus 與 ChatGPT、Google Gemini、Anthropic Claude、Elon Musk 主導的 xAI Grok、以及中國新銳 DeepSeek 在核心技術與應用層面的差異,探討 Manus 是否在核心技術上帶來重大突破,其應用創新是否形成新的技術門檻。同時分析 Manus 發布對 AI 發展路線與競爭格局的影響,包括主要 AI 公司可能的應對策略,以及企業和個人用戶的適應情況(如 AI 自動化是否導致裁員或催生新產業機遇,AI 技能普及對勞動市場的影響)。最後,展望未來 AI 技術發展路線,探討在 LLM 之後 AI 的演進趨勢,包括各產業的AI落地、新的訓練架構和可能興起的技術方向。

https://youtu.be/K27diMbCsuw?si=VBhxvGj9ht-gVIxQ

Manus 與主要 AI 模型的核心技術差異

OpenAI ChatGPT(GPT-4):OpenAI 的 ChatGPT 以 GPT-4 模型為後端,是大型Transformer架構的語言模型,透過在海量語料上預訓練並經人類反饋強化學習(RLHF)對齊人類意圖。GPT-4 展現出接近人類專家的能力,在專業考試中名列前10%。然而其架構屬於密集(Dense)Transformer,需調用所有參數處理每個請求,訓練成本極高(據傳預算達數億美元級別)。ChatGPT 擅長自然語言對話與多領域知識,但在推理複雜問題時需通過提示引導鏈式思考(chain-of-thought)來提升表現 。GPT-4 已具備多模態能力(接受圖像輸入),但主要輸出形式仍是文字。OpenAI 模型目前閉源且模型細節未公開。

Google Gemini:Gemini 是 Google DeepMind 推出的次世代模型家族,強調多模態和工具使用。最新的 Gemini 2.0(2024年底發佈)採用了 Google 定制的 TPU 大規模訓練 。Gemini 2.0 原生支持文字、圖像、影片、音訊等多種輸入,並可直接產生圖像和多語種語音輸出。技術上,Gemini 部分模型(如1.5 Pro)採用了Mixture-of-Experts (MoE) 混合專家架構,提高參數利用效率。Gemini 2.0 更內建調用工具能力,可自主調用如 Google 搜尋、代碼執行等函式,具有初步的代理式行為 。在權威評測中,Gemini-Exp 型在 Chatbot Arena 等基準的綜合得分已追平甚至超越OpenAI GPT-4 。例如,Gemini-Exp-1114 在Chatbot Arena評得1344分,與OpenAI GPT-4o 並列榜首。總體而言,Gemini 的核心技術特點是多模態融合工具調用高效架構,這使其在數學、圖像處理和創意寫作等方面表現出色 。

Anthropic Claude:Claude 系列是 Anthropic 公司開發的對話式 AI,其核心也是大型 Transformer 語言模型,但在訓練中採用了**“憲法式 AI” (Constitutional AI)** 原則替代部分人類反饋,以內建價值觀來對齊模型的回應。Claude 2 在2023年推出,特點是支持超長上下文(最高可達 100K tokens),善於處理長文檔和複雜對話。Claude 的技術重點在於安全性與穩健性,Anthropic 強調模型能遵循內置原則避免不良輸出。性能方面,Claude 在一般NLP任務上接近 GPT-4 水準,尤其在涉及總結長文、頭腦風暴等方面表現良好,但在代碼、數學等可能略遜於 GPT-4 和最新的 Gemini 等。Claude 屬於封閉源商業模型,通過 API 和對話產品提供服務。

xAI Grok:Grok 是 Elon Musk 創立的 xAI 公司研發的對話模型。Grok 1 於2023年11月首次發布,定位為 ChatGPT 的競爭者,但風格上有“Musk式”的叛逆幽默。技術上,Grok 亦基於大型語言模型架構,但具體參數未公開。xAI在2025年2月推出了升級版 Grok 3,提升了推理能力和速度。據報導,Grok 3 包含兩個高級推理模型和一個稱為 “Deep Search” 的強大 AI 代理。Grok 強調即時性連接網絡知識:與OpenAI模型知識截至2021年不同,Grok 據稱接入了實時資訊(尤其是來自 Musk 平台 X 的資料)。例如,用戶提問時,Grok 可基於網絡最新內容作答,彌補資訊時效性的不足。Musk 曾聲稱 Grok 3 是「地球上最聰明的 AI」(顯然帶有宣傳性質)。目前 Grok 在一些對話評測中已躋身前列——例如在某些排行榜上,Grok 2 是前五名中唯一非OpenAI/Google的模型。不過Grok 的內容審查相對寬鬆,早期版本曾出現對特定人物(如 Musk 本人和特朗普)的訊息屏蔽爭議,引發關於模型客觀性的討論 。總體而言,Grok 在核心技術上並無已知革命性架構創新,但其數據即時性和不同的對齊策略使之風格獨樹一幟。

DeepSeek:DeepSeek 是中國於2023年創立的AI初創公司推出的開源對話模型,在技術架構上有明顯差異。DeepSeek R1 採用了最新的Mixture-of-Experts(MoE)混合專家架構,擁有高達 6710億參數,但每次查詢只啟用其中約370億參數 。這意味模型在保持類GPT-4規模知識容量的同時,大幅降低計算開銷(因為非所有專家網路都參與每次推理)。得益於此,DeepSeek 訓練成本僅約 560萬美元,使用約2000塊 NVIDIA H800 GPU——相較之下,據估計 OpenAI 用於 GPT-4 的 GPU 資源以萬計、花費數億美元。DeepSeek 專門針對數學、編程和邏輯推理優化,能以更少算力在這些任務上達到與西方閉源大模型相當的水準。例如,DeepSeek 自稱其 R1 模型在鏈式思考等高階推理能力上可與OpenAI的先進模型「GPT-o1」旗鼓相當。優點方面,DeepSeek 開源提供模型,方便開發者本地部署和定制 ;推理高效、成本低,且對用戶無交談次數限制(ChatGPT 免費版有頻次限制) 。然而缺點是 DeepSeek 的對話能力相對生硬,回應偏簡潔直接,缺少ChatGPT那樣豐富的上下文和自然度 。它的對話歷史記憶有限,沒有內建語音交互等功能。總的來說,DeepSeek 在核心技術上引入了高效能的大參數模型設計思路,其在數理領域的表現和開源策略使其成為重要的新競爭者。

Manus:Manus 是中國團隊開發的自主 AI 代理(autonomous AI agent)。不同於上述主要透過聊天對話驅動的模型,Manus 的定位是可以自主執行複雜任務的智能體。核心上,Manus 也依託大型語言模型的能力,但重點在於引入決策與行動模組,使其不需要人類一步步指令即可連貫完成任務。根據 eWeek 的報導,Manus 在沒有人工介入的情況下即可執行如「尋找B2B供應商、繪製潛在客戶地圖、生成教育培訓材料、旅遊行程規劃」等任務。這意味著 Manus 結合了任務規劃工具使用(如網路搜尋、資料讀取等)以及 LLM 的生成能力,形成一個完整的智能代理系統。技術突破方面,Manus 團隊宣稱在 GAIA 基準(專為評測 AI 助手綜合能力的測試)上取得了超越以往SOTA(state-of-the-art)的成績 。在 GAIA 測試的三個難度級別中,Manus 的得分均高於先前最優模型,且全面領先 OpenAI 的對照組。例如:Level 1 任務 Manus 得分86.5%,而 OpenAI 模型為74.3%(先前SOTA為67.9%);Level 3 任務 Manus 57.7%,OpenAI 僅47.6%。這表明 Manus 在解決實際問題的綜合能力上取得了顯著優勢。不過,目前 Manus 尚處於邀請制預覽階段,具體架構細節和模型規模尚未披露。推測而言,Manus 很可能在架構上融合了LLM與類似AutoGPT的自主循環機制、長期記憶庫等,使其能在較少監管下自主產生行動序列。總結而言,Manus 的核心技術特色在於**自主性(Agent能力)**而非僅僅生成文本,它代表了從「大模型」走向「智能體」的一步。

小結:核心技術創新點

綜觀以上,各模型在核心技術上各有側重:ChatGPT/Claude側重模型質量和安全對齊,架構上延續Transformer;Gemini 和 DeepSeek 則在架構效率(MoE)和多模態方面創新;Grok 嘗試結合即時資訊;Manus 最特別之處在於引入自主代理架構,讓 AI 從工具升級為能執行任務的智能「代理人」。這是否構成重大技術突破取決於其自主決策能力的有效性。如果 Manus 確如其測試所示大幅超越現有模型,那麼這種 LLM+Agent 的結合可被視為一次重要突破,預示 AI 正從純粹的語言對話走向更高層次的智能。

應用層面的差異與 Manus 創新優勢

除了核心模型能力,不同AI產品在應用層設計上也存在明顯差異,包括用戶介面、功能特性、生態體系等。以下比較各方案在應用層的特點,以及 Manus 的創新之處: