本文是人機協作搭配 LLM 產出
在當代人工智慧的快速發展浪潮中,大型語言模型(Large Language Models, LLMs)無疑成為推動自然語言處理技術革新的核心力量。本課程聚焦於語言模型訓練中的一個關鍵架構——「預訓練–對齊(Pretrain–Alignment)」方法,從理論、實作到實驗驗證三個層面,深入剖析該訓練路徑如何賦予模型強大的語言能力,同時也誠實探討其所面臨的瓶頸與限制。
課程首先從語言模型的訓練三階段談起,亦即「預訓練(Pretrain)」、「監督式微調(Supervised Fine-Tuning, SFT)」與「強化學習搭配人類回饋(Reinforcement Learning from Human Feedback, RLHF)」。預訓練階段利用大量網路語料,建立起模型對語言的初步理解與生成能力;第二階段的監督式微調則進一步引導模型朝特定任務學習,以人類提供的輸入-輸出配對資料,建立起對「何謂正確回答」的概念;而 RLHF 則透過人類評分回饋,強化模型生成對人類偏好更一致的答案。後兩階段合稱為「對齊(Alignment)」,其核心目的是讓模型輸出的內容更貼近人類語用風格與價值觀。
然而,值得深思的是,Alignment 雖然在模型行為表現上產生了顯著差異,實則對模型本體的改變相當有限。從技術上來看,大多數 alignment 所進行的,不過是對已預訓練完成的模型進行微幅參數調整;但從結果上來說,這些微調卻往往能賦予模型極為顯著的語言組織能力與對話一致性。這形成一個有趣的矛盾:預訓練奠定了模型的知識基礎與生成能力,而 alignment 則以極小的資料與成本,賦予模型「表達得體」的特質,兩者互為表裡,缺一不可。
課堂透過實際模型對照(如 LLaMA 系列模型)與 Benchmark 測試(如 MT-Bench)進行實證比較,顯示 alignment 能讓模型從混亂冗贅的語句,轉變為結構清晰、有條理地回答問題。更令人驚訝的是,完成這項改變所需的資料量極為有限,例如 LLaMA-2 僅以約 27,000 筆資料就能完成 SFT,LIMA 更進一步證明僅用 1,000 筆精選資料便能顯著提升模型表現,幾乎與 GPT-4 不相上下。這些例證不僅凸顯「資料品質重於資料量」的重要性,也為模型開發者提供了更高效率的訓練策略思維。
除了傳統的一問一答式微調,課程也介紹了一系列創新 alignment 方法,包含「Response Tuning」(僅學習回答而不提供問題)、「Token Shift 分析」(檢視對齊前後模型在 token 機率分布上的變化),甚至是透過語言模型自行評分與修正輸出的「Self-Alignment」方式。這些技術進一步拓寬了 alignment 的應用疆界,顯示 alignment 並非必須依賴大量人工標註資料,也可能透過高效的自監督機制完成。
然而,alignment 雖然能顯著改變模型的輸出風格與對話形式,卻難以彌補知識的缺口。也就是說,若模型在預訓練階段未曾學習某項知識,單靠 alignment 難以讓其「裝出懂」。這反映出 alignment 的本質仍偏向「格式調整」與「風格修飾」,真正的知識獲取與理解仍必須仰賴大量且高品質的預訓練資料。因此,本課程也花費大量篇幅探討何謂有效的預訓練資料。
透過實驗證明,資料的「多樣性」與「非重複性」是提升模型能力的關鍵因素。若一筆資料僅有單一描述方式,模型容易誤將整段資訊視為一個不可分割的實體;反之,若資料對同一概念提供多樣敘述,模型更能歸納出其中的關聯與知識結構,進而具備良好的泛化能力。此外,重複資料(如爬蟲資料中常見的廣告、網頁模板)不僅無益於訓練,甚至會對模型學習造成傷害。因此,資料清洗(data filtering)成為預訓練流程中不可或缺的一環。
課堂中也介紹了 FineWeb、RefinedWeb、Focus 等由 Hugging Face 或微軟所主導的開源高品質資料集,說明這些資料集如何透過語言篩選、重複過濾、可讀性評估等多重機制,確保輸入語料具備高度訓練價值。這些策略展現了「資料即模型」的理念,也間接說明了語言模型性能背後真正的核心:資料策展能力(data curation)。
課程最後回到一個核心問題:「alignment 的極限是什麼?」儘管模型經 alignment 後回答看似正確、結構清晰,但在深入探討知識正確性時,常出現「形式對、內容錯」的現象。這再次強調了 alignment 並無法創造知識,只能調整表達方式。因此,在面對如邏輯推理、程式設計或複雜知識整合等任務時,單靠 alignment 是無法使模型擁有專業水準的。
總結而言,本課程以清晰的邏輯架構,從語言模型訓練流程的原理切入,層層剖析「預訓練–對齊」方法如何奠定語言模型能力的基礎與表現的邊界。透過大量實證分析與研究引用,學生將能理解語言模型的知識形成機制,並掌握未來開發與評估模型時的重要策略思維。本課為理解現代 AI 模型訓練核心的一門關鍵課題,也為從事人工智慧研究與應用者提供理論與實務兼備的深度洞見。
https://youtu.be/Ozos6M1JtIE?si=J7TNgs2C9ono71Sw
語言模型訓練三階段簡介
1.1 預訓練(Pretrain)基本概念
1.2 監督式微調(Supervised Fine-Tuning, SFT)
1.3 強化學習搭配人類回饋(Reinforcement Learning from Human Feedback, RLHF)
1.4 Alignment 的定義與範圍界定