陳縕儂教授為國立臺灣大學資訊工程學系教授,長期投入自然語言處理與對話系統研究,研究主軸涵蓋語言理解、口語對話系統、機器智慧與深度學習應用。她曾於美國卡內基美隆大學取得博士學位,並於微軟研究院從事研究工作,近年持續關注語言模型在實際應用場域中的可靠性與可控性問題。此次研討會即以「搜尋、驗證與決策」為主軸,聚焦大型語言模型在專業領域對話與決策任務中所面臨的結構性限制。

一、大型語言模型的訓練架構與限制 演講一開始,陳教授回顧 GPT 類大型語言模型的基本訓練方式。此類模型以序列預測為核心,透過大量語料學習詞與詞之間的條件機率關係,建立語言生成能力。這種訓練方式能有效掌握語言表面結構與常見語境,但本質上仍是機率模型,並未具備對事實正確性的內在驗證機制。
接著說明大型語言模型常見的三個訓練階段,包括以海量資料建立基礎能力的預訓練、透過人工標註資料學習任務指令的指令微調,以及利用人類回饋進行行為對齊的強化學習。這些訓練流程能改善模型回應的可用性,但並未根本解決模型對知識正確性的掌握問題。
在此架構下,長尾知識成為關鍵限制。高頻出現的通用知識較容易被模型記憶與重現,而專業、低頻或語意相近但差異細微的知識,則容易在生成過程中被錯誤拼接,形成幻覺。陳教授指出,這類結構性問題在醫療等高風險場域中特別需要被正視。

二、RAG 架構與資訊檢索在系統中的角色 在演講中,陳縕儂教授將檢索增強生成(Retrieval-Augmented Generation, RAG)視為回應大型語言模型幻覺問題的核心架構之一。RAG 的基本流程可拆解為三個步驟:使用者提出問題後,系統先進行外部文件檢索,取得與問題相關的文本資料,再將這些檢索結果提供給語言模型,作為生成回應時的參考依據。透過這種「先查資料、再生成回答」的方式,模型不再完全依賴內部參數中隱含的知識分佈,而是引入外部資訊來源,以提升回應的事實性。
然而 RAG 並非單純在生成模型前方加上一層檢索模組即可解決問題,其實際成效高度取決於資訊檢索的品質。當檢索階段未能找出真正相關的文件時,生成模型即使具備良好的語言能力,也可能基於錯誤或不完整的資料產生誤導性的回應。在這種情況下,RAG 不但無法降低幻覺風險,反而可能放大錯誤內容。因此資訊檢索並非生成模型的附屬元件,而是整個系統效能與可靠性的關鍵基礎。
在目前主流的實作方式中,RAG 多採用 Dense Retrieval(密集檢索/稠密檢索,意指利用神經網絡生成語義向量來進行檢索的技術)作為核心檢索技術。此方法會將問題(Query)與文件(Document)轉換為高維度向量表示,並透過計算向量之間的相似度,判斷語義上的相關程度。相較於傳統以關鍵字為基礎的檢索方式,Dense Retrieval 能捕捉語意層面的相近關係,對自然語言提問具有較高彈性。
不過 Dense Retrieval 的表現仍受限於預訓練模型本身的語料分佈。當應用場景進入專業領域時,若模型在預訓練階段缺乏相關語料,其向量表示可能無法準確反映專業概念之間的細微差異,進而影響檢索結果的精準度,這也是後續訓練與調校需要特別處理的問題。