「歐米伽未來研究所」關注科技未來發展趨勢,研究人類在歐米伽點演化過程中面臨的重大機會與挑戰。將不定期推薦和發布世界範圍重要科技研究進展和未來趨勢研究。(關於歐米伽理論)
一、引言
在當今科技快速發展的時代,大語言模型如ChatGPT 等成為了人們關注的焦點。它們在許多領域展現了驚人的能力,從寫詩、寫程式到輔助醫療診斷,似乎無所不能。然而,隨著應用的深入,人們也逐漸發現大語言模型並非萬能,其在落地應用上面臨諸多挑戰,其能力邊界也逐漸成為研究的重要課題。復旦大學的這份報告對大語言模型的能力邊界與發展進行了深入探討,有助於我們更全面、深入地了解這項前沿技術。
二、大語言模型的基本原理與訓練過程
(一)基本原理
大語言模型的核心任務是根據現有的文本產生合理的延續內容。它透過對數十億個網頁、數位化書籍等人類撰寫內容的統計規律進行學習,推測接下來可能出現的文字。例如,當給定一段文字“今天天氣真好”,模型會基於其學習到的語言模式和常見搭配,生成諸如“適合出去遊玩”“讓人心情愉悅” 等合理的後續內容。
(二)訓練過程
1.預訓練階段
知識記憶與表示學習:在這個階段,模型接觸數千億字的圖書、百科全書、網頁等海量資料。透過這些資料的學習,模型進行知識壓縮和表示學習,將知識以特定的方式儲存在模型參數中。例如,對於一些常見的知識,如歷史事件、科學概念等,模型會學習其相關的表達方式和語意關係。
能力提升:模型能夠對輸入的文字進行初步的理解和處理,學習到語言的基本結構和語意資訊。同時,透過大規模的資料訓練,模型可以達到一定程度的知識儲存能力,例如2bit / 參數的知識儲存能力(在有足夠訓練的情況下)。
2.有監督微調階段
任務能力注入:利用少量資料訓練模式具備特定任務能力。例如,在知識問答任務中,針對「復旦大學有幾個校區?」 這樣的問題,標註人員建構目標答案「復旦大學現有4個校區,分別是邯鄲校區、新江灣校區、楓林校區與張江校區。校區位於浦東新區。
訓練策略:包含多種方式,如多工學習、順序訓練等。不同的訓練策略對模型表現有不同影響。例如,在一些實驗中發現,參數量大的模型在使用相同數量的資料進行訓練時表現出更優越的效能;混合資料來源在低資源場景中可能提高效能,但在高資源場景中效能可能下降。
3.獎勵函數與強化學習階段
提升表現:透過獎勵函數和強化學習,模型進一步優化其輸出。例如,在回答問題時,如果模型給出了準確、有用的答案,就會得到較高的獎勵,從而引導模型在後續的生成中更傾向於給出高品質的答案。
訓練框架:如RLHF(基於人類回饋的強化學習)訓練框架,透過人類對模型輸出的偏好標註,不斷調整模型參數,使模型的輸出更符合人類期望。
三、大語言模式的能力邊界
(一)知識記憶與運用
1.知識記憶能力
模型在預訓練階段能夠記住大量知識,但需要足夠的「曝光」 才能完成記憶。對於每個知識,要達到1000 次曝光才能較好地存儲,如果只有100 次曝光,知識記憶能力會顯著下降。例如,一些生僻的專業知識,如果在訓練資料中出現次數較少,模型可能無法準確記憶和運用。
訓練資料的品質對知識記憶至關重要。高品質、高知識密度的資料有助於模型更好地學習知識,而「垃圾資料」 會對知識獲取產生顯著影響。例如,在含有大量錯誤訊息或無關資訊的資料中,模型難以準確提取有用知識。
2.知識運用能力
檢索能力:模型在一定程度上可以回答如「person A 的屬性X 是什麼?」 這樣的問題,但準確性取決於模型對相關知識的記憶和理解。例如,詢問“愛因斯坦的出生日期”,模型可能能夠給出正確答案,但對於一些更複雜、模糊的檢索問題,可能會出現錯誤。
分類和比較能力:語言模型在分類和比較任務上表現較差。如對於「Is A 的屬性X 是偶數還是奇數?」「Is A 在屬性X 上大於B?」 這樣的問題,模型的準確率較低。例如,判斷兩個人的出生月份誰更早這樣的比較任務,GPT4 的準確率僅為52.3%(在1900 - 1910 年出生的人群中)。
逆向搜尋能力:模型通常無法進行逆向知識搜索,除非知識以逆序出現在預訓練資料中。例如,對於「那個人的屬性X 等於T?」 這樣的逆向問題,模型很難準確回答。
(二)推理能力
1.邏輯推理
在一些簡單的邏輯推理任務中,大語言模型能夠表現出一定的能力。但在需要複雜邏輯推理的任務中,模型的準確率會顯著下降。例如,在數學推理中,面對一些需要多步驟推理的問題,模型可能會出錯。如在高考數學題的測驗中,大模型雖然能回答部分題目,但即便正確回答的題目,計算過程和答案不符的比例也很高。
在處理分佈外資料集時,模型的邏輯推理能力面臨挑戰。例如,GPT - 4 擅長解決著名的邏輯推理閱讀理解基準,但在處理新建立的分佈外資料集合時,效能明顯下降。
2.歸納推理
當任務複雜度增加時,模型的歸納推理能力有限。例如,在乘法計算任務中,隨著數字位數的增加,模型的準確率接近0。即使在訓練過程中加入過程解釋(如在計算35 乘以90 時,詳細列出計算步驟),其作用也十分有限。
3.演繹推理
大模型在多跳知識問題的推理中可能有問題。例如,在涉及多步驟推理的知識問答中,模型可能會應用在預訓練階段學習到的事實捷徑,而不是進行準確的邏輯推導。如在詢問下一屆奧運舉辦地相關問題時,即使知識被編輯修改,模型可能仍給出錯誤答案。
(三)文本生成能力
1.語言生成的多樣性與準確性
模型可以產生看似合理的文本,但在語言多樣性方面存在一定問題。同樣的語意可以用多種不同文字來描述,但模型可能無法完全涵蓋所有合理的表達方式。例如,在創作故事時,可能會產生較為常規的情節和表達,缺乏創新性和獨特性。
產生的文本可能存在事實性錯誤或邏輯不連貫的情況。尤其是在涉及專業知識或複雜情境時,模型可能會產生不準確的內容。
2.對特定領域知識的理解與應用
在一些需要專業知識的領域,模型雖然能產生相關文本,但可能缺乏深入的理解。例如,在醫學領域,雖然能提供一些疾病的基本信息,但對於複雜疾病的診斷和治療建議可能不準確。
在處理特定格式或要求嚴格的文字時,模型可能無法完全滿足需求。如在起草合約等法律文件時,即使具備一定的知識,也難以產生完全符合法律規範和實際需求的文本。
(四)任務執行能力
1.單一模型多工處理
單一大語言模型可以處理數千種任務,但仍需要逐項進行最佳化。不同任務對模型的要求不同,模型在不同任務的表現也有差異。例如,在知識問答任務中表現較好的模型,在規劃任務中可能表現不佳。
2.規劃能力
在規劃任務中,如在Mystery Blocks World 的規劃任務測驗中,模型的表現並不理想。例如,對於讓橙色積木在藍色積木上面這樣的簡單規劃目標,不同模型的成功率都較低,Claude 3.5 Sonnet 在One Shot 情況下的成功率僅為3.1%,GPT - 4o 在Zero Shot 情況下成功率為0%。
四、大語言模型的發展思考
(一)當前面臨的問題
1.訓練資料與模型效能
訓練資料的規模和品質對模型效能影響巨大。雖然大規模資料有助於模型學習更多知識,但同時也帶來了資料管理和篩選的挑戰。例如,如何確保資料的準確性、多樣性和時效性,避免「垃圾資料」 的干擾,是目前需要解決的問題。
模型在不同任務上對資料量的需求不同,如何決定最優的資料量和資料分佈,以提高模型在各種任務上的效能,仍需進一步研究。
2.模型的可解釋性與安全性
大語言模型的決策過程和輸出結果往往難以解釋。這在一些關鍵應用領域,如醫療、金融等,可能會帶來風險。例如,在醫療診斷中,如果模型給出了診斷建議,但無法解釋其依據,醫生和患者難以信任和應用。
模型可能會產生有害、不道德或不符合社會規範的內容。如何確保模型的輸出安全、合規,是發展過程中需要關注的重要議題。例如,防止模型產生歧視性、虛假宣傳等內容。
3.模型的能力邊界與應用場景適配
對模型能力邊界的清晰認知有助於更好地選擇應用場景。但目前在實際應用中,往往存在對模型能力過度期望或錯誤應用的情況。例如,在一些需要高精度和專業知識的場景中,例如設計資料審核,如果僅依賴大語言模型,可能無法達到預期效果,還需要結合專業人員的判斷。
(二)未來發展路徑
1.追求AGI(通用人工智慧)
目標:OpenAI 等機構致力於發展AGI,旨在讓模型取代人類完成所有腦力勞動,具有自我學習、自我進化能力。例如,像人類一樣能夠自主學習新知識、適應新環境、解決各種複雜問題。
挑戰:這需要不斷擴大模型的參數規模(如達到1 兆、5 兆、10 兆等)、增加訓練資料量(10TB、20TB、40TB、100TB 等)以及擴大GPU 卡規模(1 萬、 5 萬、10 萬甚至100 萬張卡)。然而,目前在模型的推理和世界知識建模能力建構方面面臨巨大挑戰,並且資本消耗巨大。
2.聚焦特定任務應用
目標:針對特定任務進行最佳化,以相對較小規模的模型(如1B、3B、7B、14B、30B、70B 等參數規模),結合數千到數萬條訓練數據,在特定領域或任務中發揮作用。例如,在智慧客服、簡單文字生成等領域。
挑戰:需準確判斷模型在不同任務上的能力邊界,選擇適當的應用場景。同時,確保在特定任務中的應用具有實際價值,能夠真正提高效率或解決問題。
(三)推動發展的策略
1.基礎理論研究
深入研究大語言模型的基礎理論,如知識儲存、表示學習、推理機制等。例如,透過對知識容量縮放定律等的研究,更能理解模型如何學習和運用知識,為模型的改進提供理論基礎。
2.改進訓練方法
探索更有效的訓練方法,如優化監督微調的策略、改進強化學習演算法等。例如,研究如何在不影響模型世界知識的前提下,提升模型在特定任務上的效能,避免大規模微調所導致的知識遺忘等問題。
3.建立評估與驗證體系
建立完善的評估與驗證體系,並對模型的效能、能力邊界、安全性等進行全面評估。例如,在模型應用前,透過各種測試資料集和實際場景測試,準確評估模型的適用性和可靠性,確保模型在實際應用中的有效性和安全性。
五、結論
大語言模型在過去幾年中取得了顯著的發展,展現出了強大的文本生成和一定程度的知識處理能力。然而,透過對其能力邊界的深入分析,我們發現它們在知識運用、推理、任務執行等多方面仍然存在局限性。在未來的發展中,無論是追求AGI 或聚焦特定任務應用,都需要克服許多挑戰。一方面,要持續投入資源進行基礎理論研究與技術創新,提升模型的效能與能力;另一方面,要理性看待模型的能力,合理選擇應用場景,充分發揮其優勢,避免盲目應用帶來的風險。只有這樣,大語言模型才能在科技發展和社會進步中發揮更大的、積極的作用。同時,社會各界也需要共同關注模型的發展,加強監管與引導,確保其安全、可靠、有益地發展。(歐米伽未來研究所)