本文是人機協作搭配 LLM 產出
生成式 AI(Generative AI)是一種能夠自動產生內容的技術,包括文字、圖片、語音、影片與程式碼,並廣泛應用於聊天機器人、內容創作與程式開發。其核心技術基於 Transformer 架構 和 自回歸生成,透過大量數據訓練,讓 AI 學會預測並生成合適的輸出。
相較於過去的「專才 AI」,現代 AI 正朝向「通才 AI」發展,使單一模型能執行多種任務,如 ChatGPT 既能聊天,也能寫程式和翻譯。為了讓 AI 具備新能力,可以透過 指令微調、模型微調、模型編輯與模型合併 等技術,使其適應新知識並增強特定領域的表現。然而,模型調整可能帶來誤學問題,例如錯誤地套用特定回答到其他問題上,因此精準的 模型編輯 是避免這類問題的關鍵。
未來,AI 將進一步發展 終身學習 能力,使其能夠持續更新知識並適應環境變化,提升通用性與應用範圍,成為更強大的智慧工具。
https://youtu.be/QLiKmca4kzI?si=e6xuoRJW9jS7jjVD
生成式人工智慧 (Generative AI) 是讓機器能夠產生出具有複雜結構的內容。例如,讓機器寫文章(文章是由文字組成)、生成圖像(圖像由像素構成)、或者產生語音(語音由音頻取樣點構成)。這種能力意味著機器要從近乎無窮的可能性中選出一個合理的結果。例如,要機器產生100個字的中文文章,若常用漢字有1000個,所有字的排列組合多達1000^100(約10^300)種,幾乎不可能逐一列舉。因此,生成式 AI 的挑戰在於讓機器在這種天文數量的可能性中創造出有意義的內容。
相對地,非生成式 AI(如分類任務)處理的是有限選項的問題。比如垃圾郵件偵測(是或不是垃圾信)或貓狗影像分類(判斷圖片是貓還是狗)屬於分類問題,從有限的類別中挑選答案,不在生成式 AI 的範疇。生成式 AI 是人工智慧眾多目標之一,它專注於「創造新的內容」而非僅做判別。
值得注意的是,生成式 AI 並不是近年才出現的新技術。早在2010年代中期就已有相關研究和應用,只是當時沒有「生成式 AI」這樣通用的稱呼。例如Google 翻譯(Google Translate)在2006年上線的版本,就可被視為早期的生成式 AI 應用——它讓機器將一句話「生成」另一種語言的翻譯。然而,過去的這類系統通常只擅長單一任務。
今日生成式 AI 的厲害之處在於應用的廣泛性與多功能性。以 ChatGPT 為代表的最新大型語言模型不再只是單一用途的工具,而更像是能執行多種任務的通用對話助手。使用者只需以指令或提問的方式與之互動,模型就能產生對應的回答,從寫作、翻譯、程式碼生成,到知識問答、創意點子提供等,都難不倒它。除了 ChatGPT,業界還湧現許多強大的生成式 AI 模型,例如 Google 的 Gemini、Microsoft 的 Copilot 等,分別在不同領域展現了生成內容的能力。生成式 AI 已廣泛應用於聊天機器人、內容創作輔助、圖像生成工具、程式開發助手等各方面,在技術答疑、教育輔助甚至生活建議上都有不錯的表現。這樣的多元應用顯示出生成式 AI 正從早期的「單一功能工具」轉變為更通用的「智能助手」,在各行各業展現潛力。
現代生成式 AI 的核心技術基礎是機器學習,特別是深度學習中的神經網路模型。簡單來說,我們可以把像 ChatGPT 這樣的 AI 想像成一個函數:輸入一段內容,經過這個函數的計算,產生對應的輸出結果。這個函數非常複雜,內部包含了數億乃至數千億個參數,只有透過大量數據訓練才能決定這些參數的值,使函數具備我們期望的智慧行為。舉例而言,ChatGPT 背後使用的是一種稱為Transformer 的語言模型,它之所以能「有問必答」,就是因為經過訓練找出了上億個參數的最佳組合,使得給定任何提問,它都能輸出合理的回答。
在技術上,生成式模型通常透過序列預測的方式來產生內容。以語言模型為例,ChatGPT 等模型的核心原理是“文字接龍”:也就是逐字逐句地生成文字。 (image)例如,當我們提問「臺灣最高的山是哪座?」,模型不會一次就產生整句答案,而是一步一步地預測下一個字:它會先預測「…哪座?」之後最有可能接的字是什麼(模型可能預測出「玉」),接著再預測「…哪座?玉」之後最可能的下一個字(預測出「山」),如此反覆,直到預測出完整的答案「玉山」並產生結尾符號表示完成。透過將生成長文本的任務拆解成一系列小的預測步驟,每一步其實是從有限的選擇中挑選下一個字(或詞)——因為每一步都是在有限的字彙表中選取最可能的下一項——這就把原本無限可能的創作轉化為一連串分類問題來解決了。這種逐步產生序列的策略稱為自回歸生成 (Autoregressive Generation),對應的模型就是我們所說的語言模型。語言模型透過不斷預測下一個字,能生成整段有意義的文字內容。
語言模型是當前生成式 AI 的關鍵技術之一,但並非唯一的技術。對於圖像等其他類型的生成,還有不同的機制。例如,圖像生成模型常用擴散模型(Diffusion Model)等技術來產生高品質圖片。然而,不論具體技術細節如何,大多數生成式模型都遵循一個共同思路:將複雜的輸出拆解為較小的單位,並逐步產生。甚至曾經有研究嘗試過讓模型像文字接龍一樣逐像素生成圖片(OpenAI 曾開發過此類自回歸的圖像生成模型),只是相較於現在流行的擴散模型,逐像素生成的效率和效果並不突出,所以沒有流行起來。
值得一提的是,現代生成式模型之所以有飛躍性的進展,很大程度上歸功於Transformer 架構的發明。Transformer 是一種深度學習模型架構,它擅長處理序列數據,能夠高效地建模長距離的關聯。與早期的循環神經網路(RNN)相比,Transformer 更善於並行計算,能在訓練中處理海量的語料,因此成為訓練大型語言模型的標準架構。總結來說,Transformer 等新穎模型架構,加上自回歸的生成策略,以及強大的運算資源,使今日的生成式 AI 模型能夠產生令人驚艷的內容。