李宏毅教授「生成式AI時代下的機器學習(2025)」第四堂課：Transformer 的時代要結束了嗎？介紹 Transformer 的競爭者們– 課程筆記

本文是人機協作搭配 LLM 產出

課程概述

在生成式 AI 席捲全球的當代語境中，Transformer 無疑是最具代表性的架構之一。它自 2017 年由 Google 提出的 "Attention is All You Need" 論文橫空出世以來，迅速取代傳統的循環神經網路（RNN）與長短期記憶網路（LSTM），成為語言模型、影像生成、語音辨識等多模態 AI 任務的骨幹技術。如今不論是 GPT、BERT、LLaMA，乃至於多模態模型如 Gemini，幾乎皆以 Transformer 為核心。然而隨著應用場景愈趨複雜、輸入序列愈加冗長，Transformer 的侷限性也逐漸浮現。在這樣的背景下，本堂課以「Transformer 的未來」為核心命題，帶領學生思考與探索：是否有其他架構，能在特定任務中超越 Transformer？如果有，它們是如何設計的？又解決了哪些 Transformer 無法有效處理的問題？

課程一開始，李教授首先介紹作業設計的初衷，強調學生將實際訓練一個基於 Transformer 架構的圖像生成模型。這樣的安排不僅讓學生避開語言模型的既有經驗誤區，也能更深刻體會 Transformer 的跨領域應用潛力。然而，課程的真正主題，並不止於應用層面，而是回到最根本的架構設計哲學：我們為什麼要選擇某種架構？這種架構是為了解決什麼樣的問題而被提出來的？

為了回答這個問題，李教授從歷史脈絡切入，帶領學生回顧類神經網路的演進過程。他首先以 CNN（卷積神經網路）為例，說明其設計來自對影像資料的空間結構的理解：透過局部感受野（Receptive Field）、參數共享等手段，大幅減少網路參數，從而降低過擬合風險，提高資料效率。接著，轉向 Residual Connection（殘差連結），李教授指出，這種連結的誕生則是為了解決深層網路在訓練過程中遇到的最佳化困難——它藉由引入跳躍連結，使得誤差反向傳播更為順暢，進而讓更深的網路也能有效學習。這些例子說明了一個重要觀念：每一個架構的出現，都源自於對特定問題的精準回應，而非為創新而創新。

延續這個脈絡，李教授回到 Transformer 的核心結構：Self-Attention Layer。他指出，Self-Attention 是一種將序列資料重新編排並整合的重要機制，其原理在於對輸入序列中每一個位置的資訊，計算其與所有其他位置的關聯性（透過 Query、Key、Value 的乘積計算），再以 Softmax 決定注意力權重，進行加權整合。這樣的設計不僅讓模型能夠處理長距依賴（Long-Range Dependency），更重要的是，它讓模型在訓練時可以平行化運算——這正是 Transformer 得以在 GPU 架構下大規模擴展的關鍵。

然而李教授也毫不避諱指出 Transformer 的缺點。尤其在推論（Inference）階段，由於每次預測下一個 token 都需重新訪問整段輸入資料，其記憶體與計算需求隨著序列長度呈線性甚至平方增長。在應對長序列（如小說、影音、跨回合對話、多模態輸入等）時，這樣的架構顯得笨重且低效。因此，人們開始重新審視 RNN 這一經典架構的潛力——儘管其訓練無法平行化，但推論時的記憶體與計算成本卻是固定的。

此時課程邁入關鍵段落。李教授提出一個發人深省的命題：**RNN 訓練真的無法平行化嗎？**他透過數學推導與系統性展開，展示如何將 RNN 的遞迴表示改寫為一種稱為「Linear Attention」的形式。這種架構去除了 RNN 的反射機制（Reflection Function），使其在訓練階段如同 Self-Attention 般可被展開並平行運算，但在推論階段則保有 RNN 的效率。更有趣的是，這種簡化版的 Attention，其運算形式與 Transformer 的 QKV Attention 幾乎相同，只是少了 Softmax 一步。這個發現打破了傳統對 Transformer 與 RNN 分屬兩類的認知，呈現出一種潛在的結構等價性。

不過，Linear Attention 並非完美解方。其最大問題在於記憶不可修改：一旦資訊寫入 hidden state，便無法被抹除或更新。這與人類記憶的動態特性相違，容易造成資訊冗積與語境混亂。為了解決這個問題，李教授介紹了 Retention Network（RedNet）與 Gated Retention 的設計。這些機制允許模型對過往記憶進行「遺忘」操作，透過引入衰減係數 γ 或時間依賴的遺忘門控（Gated Decay），讓記憶更新更加靈活。進一步的設計甚至允許使用矩陣級的門控方式，細緻控制記憶中每一個單元是否保留或淘汰。這樣的架構不僅具備平行化訓練的潛力，也在推論階段更具記憶效率，展現出成為下一代基礎模型的潛能。

課程最後，李教授提出了對未來的展望。他指出，當語言模型需要處理越來越長的序列、越來越複雜的模態融合時，單一架構難以滿足所有需求。這時，我們需要回到設計網路的本質思考：我們希望網路記住什麼、忘記什麼、如何學習、如何推論。Transformer 不會立刻消失，但它的地位正在鬆動。而包括 Linear Attention、Retention Mechanism、甚至類似 Mamba 的新興架構，正在爭奪下一個世代的主導權。

總結來說，本堂課不只是技術原理的教學，更是一場深刻的架構設計思辨。它引導學生從歷史、原理、實作與效能等多角度，審視當前主流技術的侷限與未來發展的可能。透過一系列的數學推導、概念簡化與系統重構，學生不僅學會如何使用 Transformer，更重要的是學會了如何思考架構、質疑權威、設計創新。在 AI 技術快速演化的今天，這種思維模式或許比任何一種單一架構都更加珍貴與長久。

https://youtu.be/gjsdVi90yQo?si=sXta8ork_IEiONHq

課堂大綱

課程導入：Transformer 的地位與應用
- Transformer 在語言、圖像、語音等領域的廣泛應用
- 課程作業重點：使用 Transformer 進行圖像生成
- 為什麼不再做語言模型：避免學生僅聚焦單一應用
- Transformer 作為跨模態核心架構的重要性
類神經網路設計哲學：每個架構存在的理由
- CNN 如何根據影像特性進行設計與參數簡化
- Residual Connection 解決深層網路難以訓練的問題
- 每個架構都為特定問題誕生，需了解其動機與背景
Transformer 的核心構件：Self-Attention 原理
- Q、K、V 的生成與 Attention 運算流程
- Softmax 的作用與注意力分配的意義
- Transformer 如何處理序列資料、取代 RNN