#LLMs
一文看懂大語言模型(LLMs):基於史丹佛大學 CS229 課程的小白能看懂版
1. 開場白與課程概述本段總結: 介紹了建構大語言模型的五個核心要素(架構、訓練演算法、資料、評估、系統)。講者指出,雖然學術界痴迷於模型架構,但在實際工業界中,資料、評估和系統工程才是決定模型成敗的關鍵。大家好,今天我們將探討如何建構大語言模型(LLMs)。簡單回顧一下,LLMs 指的是大家最近常聽到的那些聊天機器人,比如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini 以及 Meta 的 Llama。今天,我們將揭秘它們到底是如何運作的。在訓練 LLM 時,有五個關鍵元件至關重要:架構(Architecture):LLM 是神經網路,你需要決定使用什麼架構。目前大家都在使用 Transformer 或其變體。訓練損失與演算法(Training Loss & Algorithm):你將如何訓練這些模型。資料(Data):這是你用來訓練模型的素材。評估(Evaluation):你如何知道模型是否在朝著目標取得進展。系統(Systems):在現代硬體上高效運行這些龐大模型的方法。現在的系統層面比以往任何時候都重要。大多數學術界的研究(包括我職業生涯的大部分時間)都集中在架構和訓練演算法上,我們總喜歡發明新架構。但老實說,在實踐中真正起決定性作用的是另外三項:資料、評估和系統。這也是工業界投入最多精力的地方。因此,今天我不會過多討論 Transformer 的架構細節,而是重點講解其他更重要的部分。本次講座分為兩大部分:預訓練(Pre-training)——經典的語言建模階段,目標是讓模型學習整個網際網路的知識;以及後訓練(Post-training)——ChatGPT 誕生以來的新範式,目標是將這些語言模型轉化為真正的人工智慧助手。2. 預訓練與自回歸語言模型本段總結: 預訓練的核心任務是“自回歸語言建模”,即通過機率分佈預測序列中的下一個詞。模型通過交叉熵損失函數進行訓練,這等同於最大化文字的對數似然度。首先,什麼是語言模型?在宏觀層面上,語言模型就是一個關於單詞或 Token 序列的機率分佈模型。具體來說,它建立了一個分佈$P(X_1 ... X_L)$。例如,對於句子“老鼠吃了奶酪”,語言模型會評估這句話在人類對話或網際網路上出現的機率。如果句子存在語法錯誤,或者語義不通(比如“奶酪吃了老鼠”),模型賦予它的機率就會非常低。因為語言模型掌握了機率分佈,我們可以從中進行採樣,從而生成新的資料,這就是為什麼它們被稱為生成式模型(Generative Models)。目前大家使用的都是自回歸語言模型(Autoregressive Language Models)。它的核心思想是利用機率的鏈式法則,將整個句子的分佈拆解為:第一個詞的機率,乘以給定第一個詞後第二個詞的機率,依此類推。它的任務非常簡單:預測下一個詞。在訓練時,我們會把序列中的每個詞嵌入(Embed)為向量,通過 Transformer 網路獲取上下文表徵,再通過一個線性層對應到詞表大小的維度,最後用 Softmax 輸出下一個詞的機率分佈。我們使用的訓練損失是交叉熵損失(Cross-Entropy Loss),這本質上是一個預測下一個 Token 的分類任務。在數學上,最小化交叉熵損失,完全等價於最大化文字的對數似然度(Maximum Likelihood)。3. 為什麼需要分詞器(Tokenizer)?本段總結: 詳細解釋了分詞器存在的必要性,以及字節對編碼(BPE)的工作原理。分詞器解決了詞彙表過大和拼寫錯誤的問題,但也帶來了諸如數學計算和程式碼縮排理解等侷限性。很多人往往忽視了分詞器(Tokenizer),但它極其重要。我們為什麼不直接用“單詞”或“字元”作為基本單位呢?如果用單詞:遇到拼寫錯誤的詞彙(如 Typo),模型會遇到未登錄詞問題,且對於泰語等沒有明顯空格分詞的語言很不友好。如果用字元:雖然通用,但會導致序列極長。要知道,Transformer 的計算複雜度隨序列長度呈平方級增長(二次方複雜度),序列太長會導致算力崩潰。分詞器提供了一個折中方案,通常一個 Token 包含 3 到 4 個字母。目前最流行的方法之一是字節對編碼(BPE, Byte Pair Encoding)。BPE 的訓練過程如下:首先將大型語料庫中的所有內容拆分為單個字元,然後統計相鄰字元對的出現頻率。找到最常見的字元對(比如“t”和“o”),將它們合併為一個新的 Token(“to”),並賦予唯一的 ID。不斷重複這個合併過程,直到達到預設的詞表大小。不過,業界越來越意識到分詞器的侷限性。比如在處理數學問題時,數字往往被切分成奇怪的 Token,導致模型看待數字的方式與人類完全不同,影響了推理能力。此外,程式碼中的空格縮排(如 Python 的 4 個空格)過去也經常被分詞器錯誤處理,這是 GPT-4 專門重構程式碼分詞邏輯的原因。理想情況下,未來我們希望能擺脫分詞器,直接處理字元或字節。4. 評估指標:困惑度與學術基準本段總結: 評估語言模型的傳統方法是困惑度(Perplexity),而現在學術界更傾向於使用 MMLU 等客觀題基準測試。同時,評測標準的不一致和訓練集污染是目前面臨的重大挑戰。我們如何評估模型?在開發階段,最常用的是困惑度(Perplexity)。困惑度本質上是驗證集損失的一種可解釋轉化。公式是$2$的“平均每個 Token 的損失”次方。它的直觀含義是:模型在生成下一個詞時,正在幾個詞之間猶豫不決?如果模型完美預測,困惑度為 1;如果模型完全在瞎猜,困惑度就等於詞表大小。在 2017 年到 2023 年間,標準資料集上的困惑度從 70 驟降到了 10 以下,進步驚人。然而,困惑度在橫向對比不同模型時存在問題(比如 Gemini 和 ChatGPT 的詞表大小不同,困惑度就無法直接比較)。因此,目前的學術基準測試(如 Helm 或 Hugging Face 閉源排行榜)通常聚合大量的 NLP 任務。最典型的是MMLU(大規模多工語言理解),包含了大學物理、醫學等多個領域的單選題。評估方式有兩種:一是計算模型生成 A、B、C、D 四個選項的對數似然度,看正確選項的機率是否最高;二是直接限制模型輸出,看它生成的下一個 Token 是不是正確答案。評估面臨的巨大挑戰:評估方式不一致:不同的 Prompt 或評分指令碼會導致結果天差地別。比如 Llama 65B 在不同的測試平台上,精準率能從 48.8% 飆升到 63.7%。訓練集污染(Contamination):你的測試題是否已經被混入訓練集了?為了檢測污染,研究人員有時會故意打亂測試題的選項順序,如果模型依然按原順序生成答案,說明它很可能在訓練時背過這道題。5. 預訓練資料:從“髒資料”到高品質語料本段總結: 揭露了工業界處理預訓練資料的艱辛過程。通過爬取 Common Crawl、HTML 文字提取、去重、啟髮式過濾和模型分類,最終留下高品質的、配比合理的資料集進行訓練。大家常說“用整個網際網路的資料訓練模型”,這聽起來很簡單,但網際網路其實是一個“垃圾場”。Common Crawl 作為一個主流的開源爬蟲項目,包含了大約 2500 億個網頁,資料量高達 1 Petabyte。如果你隨機點開一個爬取的網頁,裡面全是不完整的句子和雜亂的程式碼。為了清洗這些資料,需要一個巨大的工程流水線:HTML 文字提取:去除網頁程式碼,提取純文字,同時還要處理棘手的數學公式提取和網頁頭部/底部的範本內容(Boilerplate)。過濾不良內容:剔除 NSFW(不適宜工作場所)、有害內容和 PII(個人身份資訊)。去重(De-duplication):剔除重複的論壇簽名或在全網被覆制貼上了上萬次的段落。啟髮式過濾(Heuristic Filtering):基於規則刪除低品質文字。比如檢查 Token 的分佈是否異常,單詞長度是否詭異,或者網頁是不是只有 3 個詞。模型分類過濾:這是一個非常聰明的技巧。研究人員會提取維基百科中引用的所有外部連結,訓練一個輕量級的分類器。然後用這個分類器掃描全網資料,保留那些“風格類似於維基百科引用來源”的高品質網頁。領域劃分與配比:將資料分為程式碼、書籍、娛樂等。通常會增加程式碼(據稱能提升推理能力)和書籍的權重,降低娛樂內容的權重。退火(Annealing):在預訓練的最後階段,降低學習率,並在維基百科等極高品質的資料上“過擬合”,以提升模型最終的表現。在業界,處理資料所需的 CPU 算力和團隊規模,有時甚至超過了研究架構本身的投入。Llama 3 訓練使用了高達 15 兆個 Token。高品質資料是絕對的核心商業機密。6. 縮放定律(Scaling Laws)與資源分配本段總結: 縮放定律證明了模型性能與算力、資料量、參數量成可預測的對數線性關係。這徹底改變了模型研發流程,讓研究人員可以通過訓練小模型來精準預測大模型的表現。在傳統機器學習課上,我們總是擔心“過擬合”。但在大型語言模型中,過擬合幾乎不存在:資料越多,模型越大,性能就越好。更神奇的是,這種提升是可以精確預測的。OpenAI 發現,如果把算力(Compute)、資料集大小或參數量放在對數坐標的 X 軸上,把測試損失(Test Loss)放在 Y 軸上,它們呈現出完美的線性關係。這徹底改變了研發管線(Pipeline):以前,如果你有 10000 張 GPU,你可能會訓練 30 個不同超參數的大模型,每個訓練 1 天,挑出最好的。現在,你會利用幾張 GPU 訓練一系列不同規模的“小模型”,擬合出一條 Scaling Law 曲線。然後,你可以極其自信地預測出那個 1000 億參數的終極模型如果訓練 30 天會達到什麼水平,並直接把所有算力押注在那個終極模型上。那麼,有限算力下,是該增加參數量,還是增加資料量?DeepMind 的 Chinchilla 論文給出了答案。通過繪製不同算力預算下的等高線圖(Iso-flops),他們發現計算最優解是:每增加 1 個參數,就應該增加 20 個訓練 Token。但在工業界實踐中,由於要考慮模型部署後的推理成本(Inference Cost),公司更傾向於訓練相對較小的模型,但在海量資料上進行超額訓練。所以目前的比例通常是 150 個 Token 對應 1 個參數(如 Llama 3)。7. 訓練成本與碳排放的“信封背面計算”本段總結: 通過基礎數學公式估算了 Llama 3 400B 模型的訓練成本,展示了前沿 AI 研發巨大的資金和算力門檻,以及在當前階段可控的碳排放規模。讓我們用 Llama 3 400B 模型做個粗略的計算。它有 450 億(此處講者口誤,應指 Llama 3 的大參數量版本計算)參數,訓練了 15.6 兆 Token。所需算力(Flops):計算公式大致為$C = 6 \times P \times N$(其中$P$為參數量,$N$為資料量)。計算結果約為$3.8 \times 10^{25}$Flops。拜登政府的行政命令要求算力超過$10^{26}$Flops 的模型需要接受特殊審查,Meta 恰好卡在這個紅線之下。訓練時間:使用 16000 張 H100 顯示卡,結合其吞吐量,大約需要持續訓練 70 天,耗費近 2600 萬 GPU 小時。訓練成本:假設 H100 的租金下限為每小時 2 美元,單純的顯示卡成本就超過 5200 萬美元。算上頂尖研究員的薪水(約 50 人,年薪 50 萬美元起),總成本至少在 7500 萬美元左右。碳排放:大約排放 4000 噸二氧化碳當量,相當於從紐約到倫敦的 2000 趟往返航班。目前來看,碳排放在整個大環境裡還算可控,但如果算力再提升 100 倍,這就會成為一個真正的環境問題。8. 後訓練:將模型轉化為 AI 助手(SFT)本段總結: 預訓練模型只會續寫文字。為了讓它聽從指令,必須使用監督微調(SFT)機制。研究表明,SFT 的關鍵在於格式對齊,而不需要大量資料。預訓練階段得到的只是一個“語言模擬器”。如果你給 GPT-3 純預訓練模型輸入“請向一個 6 歲的小孩解釋登月”,它可能會續寫出“請向一個 6 歲的小孩解釋引力”,因為它在模仿網際網路論壇的提問模式。要把它變成 AI 助手,我們需要進行對齊(Alignment),也就是後訓練(Post-training)。第一步是監督微調(SFT, Supervised Fine-Tuning)。我們收集人類寫好的高品質“問答對”,在這個資料集上繼續用語言模型的目標(預測下一個詞)來微調模型。因為人類編寫資料極其昂貴,現在流行用最強的 LLM(如 GPT-4)來生成合成資料(Synthetic Data)進行微調,比如我們之前做的 Alpaca 模型就是這樣做的。令人驚訝的是,Lima 論文指出,SFT 並不需要海量資料(幾千條足矣),從 2000 條增加到 32000 條並沒有帶來本質提升。原因在於:預訓練已經把所有的知識塞進了模型裡,SFT 的作用僅僅是教模型“如何格式化地輸出你期望的答案”,而不是教它新知識。9. RLHF 與 DPO 偏好最佳化本段總結: 僅靠 SFT 會導致幻覺和人類能力天花板問題。通過引入強化學習人類反饋(RLHF)或直接偏好最佳化(DPO),模型可以直接最佳化人類的偏好,產生更優質的輸出。僅僅做 SFT 有幾個致命缺陷:人類能力上限:SFT 屬於行為克隆(Behavioral Cloning)。但我評價一本書的好壞,比我自己寫一本書要容易得多。如果只模仿人類生成的內容,模型永遠無法超越人類專家的寫作水平。幻覺(Hallucinations):如果人類在 SFT 資料裡提供了一個冷門知識點,而這個知識點模型在預訓練時完全沒見過,模型就會學會“一本正經地胡說八道”,強行生成看似合理的錯誤答案。為瞭解決這個問題,我們需要引入偏好最佳化。核心流程是:給定一個指令,讓模型生成兩個不同的答案,讓人類標註員(或強大的 LLM)來選擇那個更好(比如綠色優先於紅色)。演算法 1:RLHF(強化學習人類反饋)配合 PPO 演算法這是 ChatGPT 最初突破的關鍵。首先用偏好資料訓練一個獎勵模型(Reward Model),將離散的偏好轉化為連續的打分(Logits)。然後用 PPO(近端策略最佳化)這種強化學習演算法,將 LLM 作為一個智能體(Agent)進行訓練,以最大化獎勵得分為目標。但這極度複雜!強化學習極度不穩定,包含了無數的裁剪(Clipping)和工程 Trick,連寫出 PPO 的原作者都覺得難以完美復現。演算法 2:DPO(直接偏好最佳化)史丹佛去年提出的一種優雅替代方案,現已成為開源界的主流。既然我們的目標是“多生成喜歡的,少生成不喜歡的”,為什麼不直接在數學上把它轉化為一個最大似然估計問題呢?DPO 直接將偏好資料帶入損失函數,最大化人類偏好答案的機率,懲罰被拒絕答案的機率。它徹底拋棄了獎勵模型和強化學習,僅僅用交叉熵的變體就達到了與 PPO 同樣的甚至更好的效果。10. 評估後訓練模型:LLM 裁判的崛起本段總結: 評估對齊後的模型非常困難。目前業界依賴於“聊天機器人競技場”進行盲測,為了降低成本,大量使用 LLM 作為裁判(如 Alpaca Eval)來自動化評估。經過 RLHF 之後,模型已經不再是一個標準的機率分佈模型了(它在努力讓最優解的機率逼近 1),所以困惑度(Perplexity)在這裡失效了。而且,開放式回答沒有標準答案。目前最權威的評估方式是Chatbot Arena(聊天機器人競技場),這是一種盲測系統,讓人類在兩個匿名模型中投票。但讓人類投票太慢且太貴,所以業界開發了基於 LLM 的自動化評估(比如 Alpaca Eval)。你只需要給 GPT-4 兩個回答,問它那個好。我們發現,LLM 的評判與人類投票的擬合度高達 98%,成本卻便宜了 50 倍。警惕虛假相關性(Spurious Correlation):LLM 裁判(和人類一樣)存在嚴重的**“偏好較長輸出”(Length Bias)**。如果在 Prompt 裡要求模型“囉嗦一點”,它的勝率會莫名其妙飆升至 64%;如果要求“簡明扼要”,勝率會跌穿 20%。這是對齊訓練中需要通過因果推斷等統計手段去消除的頑疾。11. 系統基礎知識與顯示卡最佳化本段總結: 計算系統的最佳化直接決定了訓練的成敗。因為 GPU 的記憶體通訊頻寬常常是瓶頸,業界廣泛採用低精度訓練(16 位)和算子融合技術來大幅提高算力利用率。對於開發 LLM 的任何人來說,算力永遠是瓶頸。簡單地“買更多 GPU”是行不通的,因為通訊開銷會拖垮多卡互聯系統。如果你想理解系統級最佳化,記住一點:CPU 最佳化的是延遲(Latency),而 GPU 最佳化的是吞吐量(Throughput)。GPU 天生為極速的矩陣乘法而生。但目前 GPU 最大的瓶頸在於:算力提升的速度遠大於記憶體通訊頻寬提升的速度。很多時候,由於資料無法及時從視訊記憶體(HBM)傳輸到計算核心(SMs),你的 GPU 大部分時間都在閒置。在工業界,模型浮點運算利用率(MFU)能達到 50% 就已經是極其出色的成績了。兩個關鍵最佳化技巧:低精度 / 混合精度訓練:在深度學習中,小數點後幾位並不關鍵。我們將龐大的矩陣乘法運算放在 16 位精度下進行,以成倍減少視訊記憶體佔用和通訊頻寬;只在儲存模型權重和執行參數更新時,保留 32 位精度以確保學習率生效。算子融合(Operator Fusion):如果你在 PyTorch 裡寫一行簡單的連續運算(比如求 Cosine 再求 Sine),傳統方法是將資料從視訊記憶體搬運到計算核心,算完搬回去,再搬出來算下一步,這是極其浪費的。使用torch.compile,系統會自動將程式碼在底層重寫為 C++ (CUDA) 的融合算子,把所有資料一次性送入核心,全部算完再取回,這能讓模型訓練速度直接翻倍。這就是從架構、資料到系統的 LLM 建構全貌,希望對大家有所啟發。 (The AI Frontier)
【以美襲擊伊朗】哈米尼之死,“誰”幫了美軍?
美國和以色列公然擊殺哈米尼,所謂“情報神話”的背後,還有什麼?據媒體報導,AI和演算法發揮了關鍵性輔助作用。“哈米尼面對的並非單一的武器,而是一個由Palantir、Anduril以及頂級大型語言模型(Claude)組成的全球監視和打擊網路。”《耶路撒冷郵報》稱,將大型語言模型(LLMs)融入軍事“殺傷鏈”標誌著現代戰爭的重大轉變。“最初用於編寫程式碼和詩歌的工具,如今已成為致命武力投射的關鍵組成部分。”01最先注意到這一點的是《華爾街日報》。報導引述知情人士的話證實,包括美國中央司令部(負責中東地區)在內的世界各地的指揮機構都在使用美國Anthropic 公司的Claude人工智慧工具。《華爾街日報》稱,Claude主要被用於情報評估、目標識別以及模擬作戰場景。之後,更多細節被深挖出來。在美軍的作戰行動中,用到了兩個重要的AI工具:Palantir和Claude。Palantir是一家美國軟體與服務公司,總部位於科羅拉多州丹佛市,以其在巨量資料分析領域的技術聞名。這個公司名,來自英國作家托爾金奇幻小說《魔戒》裡的可以觀察世界上其他地方發生事件的魔法球。這個名字也說明了這家公司產品的主要功能——觀察、監測與記錄。Palantir與美國軍事和情報界有緊密聯絡,其軟體服務是美國國防部為關鍵任務國家安全系統授權的五種產品之一。該公司也因參與美國政府監控監聽全球的行動而廣受批評。據報導,Palantir深度參與美國軍事幹涉行為,它曾通過巨量資料技術幫助美國軍方成功定位和擊殺本·拉登。在俄烏戰場上幫助烏軍炮兵更準確地打擊俄軍陣地和後勤補給線。它還在南海乾擾我相關部門正常維權行動。在對伊朗的突襲中,有報導稱,Palantir技術平台很可能某種程度上扮演了“戰場大腦”的角色。當然,它是否真如一些報導所說發揮了最關鍵的作用,促成了美軍“一擊必中“的神話,目前還無法印證。不過,這一平台確實能把複雜的戰場資料對應為易於理解的實體,將原本需要幾個月才能編制完成的系統部署,縮短到了幾小時。在行動決策方面,發揮了前所未有的輔助性作用。“在哈米尼被殺的時候,正是Palantir在後台調整衛星調度邏輯,確保目標在離開地堡的一瞬間,有超過三顆衛星同時進行了交叉驗證。”Claude是由美國Anthropic公司開發的生成式預訓練模型,具備自然語言處理、程式碼生成及多工協作能力。據稱,Claude在行動中扮演的角色並非直接操控武器,而是處理海量的非結構化戰爭資料。根據解密資料,美軍在2026年初針對馬杜洛的行動中,首次大規模使用了Claude進行“情報合成”。有報導這樣形容:分析人員不再需要撰寫漫長的簡報,他們只需像訂餐一樣詢問:“如果我們在此時對德黑蘭實施電子壓制,並同步進行空中打擊,哈米尼最可能的逃生路線是那一條?”Claude會基於海量的軍事理論訓練和即時注入的情報流,給出最佳化的攔截機率圖表。簡而言之,Palantir解決“把世界拼成一張圖+把行動跑起來”;Claude解決“把材料讀懂說清楚”。從軍事學角度而言,的確可以大大增加戰鬥力。這類平台把影像、訊號、報告、地理等多源情報融合為“共同作戰圖像”,並將分析—派工—覆核—執行串成流程,從而壓縮決策時間。02除了美國,以色列國防軍開發的AI系統也值得一說。如果說Palantir和Claude提供了戰略層面的算力,那麼以色列國防軍(IDF)開發的三個AI系統,則在戰術層面發揮重要作用。這三套系統被統稱為“大規模暗殺工廠”。它們曾在以色列針對加薩的行動中被大量使用。有報導稱,在針對德黑蘭的襲擊中,“美軍借鑑了IDF在加薩實戰中磨煉出的演算法”。第一套系統是“哈布索拉”(The Gospel)。這是一個專門推薦建築目標的AI系統。它能以每天100個的速度生成打擊名單,“而人類在過去每年只能生成50個”。第二套系統是“薰衣草”(Lavender):對數百萬人口進行打分,通過分析社交網路、移動軌跡和通話記錄,自動標記疑似武裝分子。最具爭議的部分在於人類在其中的角色。據《衛報》披露,在這些AI系統推薦目標後,人類指揮官往往只花費“20秒”來審查。然而20秒的時間“僅夠確認目標性別”。也就是說,誤殺的機率極高。而在巔峰時期,該系統標記了37000個目標。第三套是一個名為“爸爸在那兒?”(Where's Daddy?)的系統,“它更加殘酷”。這個系統會自動監控被標記人員何時進入家宅。因為指揮官認為,在目標人員與家人團聚時發起攻擊,比在軍事據點發起攻擊更為容易。這同時也意味著整棟建築的平民都可能成為“附帶傷亡”。報導稱,在哈米尼遇刺的過程中,演算法不再尋找哈米尼的座駕,而是在蒐集他的每一個細微特徵。03這些資訊曝光的主要導火線,是Anthropic公司的“翻臉”。據美國媒體報導,在強抓馬杜洛行動之後,Anthropic提出抗議,表示其使用條款禁止將 Claude 用於暴力目的、開發武器或進行監視。但五角大樓那會聽它的。要麼移除“安全護欄”,讓軍方在“合法”的情況下無限制使用,要麼就滾蛋。2月27日,就在美以對伊朗發起突襲前不久,美國防長赫格塞思宣佈Anthropic構成 “供應鏈風險”,白宮要求所有聯邦機構停止使用該公司的AI工具。川普還在社交媒體上痛罵該公司:“美利堅合眾國絕不會允許一家激進左傾、覺醒主義的公司來決定我們偉大的軍隊如何作戰並贏得戰爭!”“這些公司是由根本不懂現實世界的人在掌控。”《華爾街日報》的爆料,正是基於這一背景,認為儘管白宮宣佈與Anthropic斷絕關係,但美軍在實戰中還是用了Claude。但現實是,Anthropic不干,有的是人幹。五角大樓第二天就找到了新的合作夥伴。2月28日,另一家美國頂級人工智慧公司OpenAI就宣佈與五角大樓簽約,將該公司的大模型部署於美軍的機密網路。OpenAI首席執行長奧爾特曼說,與五角大樓的合作遵循該企業堅持的原則,即人工智慧不得用於“國內大規模監控”、包括自主武器系統在內的武力使用必須由人類負責。他說,公司設立了“安全保障”。但很多媒體注意到,OpenAI近年來不斷放寬與美軍的合作。這家公司過去曾禁止將其技術應用於軍事領域,但2024年開始放寬相關限制,公司目前的宗旨說明中也去掉了“安全”兩字,只說要通過人工智慧技術“造福全人類”。04當然,還有一種可能性不能排除。借助中東戰場局勢,美國軍工複合體是否正在建構一個“美國AI全球無敵”的神話。畢竟,美國AI公司不少陷於泡沫中,如果藉機能吸引投資,豈不很好。撇開這些紛紛擾擾,有四點我們得擦亮眼睛。第一,戰爭的形態的確在變。未來戰爭,肯定是智能化戰爭。誰擁有更全面的資訊,誰決策速度更快,誰的演算法更強,再配合先進的現代化武器,誰的贏面就更大。在很難完全依靠道德和倫理對各國行為進行約束的背景下,一方面要推動國際社會共同制定人工智慧倫理規範,另一方面我們必須堅持獨立自主的AI研發。要看到,AI真正比拚的是國家戰略力量的對比,是電力、是算力、是科技儲備、是國家政策、是產業發展等更加強大的工業底座和頂層規則。第二,華盛頓未來會進一步逼科技公司“站隊”。不服從,就被踢出局。儘管OpenAI宣稱有“安全護欄”,但許多輿論認為這只是“面子工程”。OpenAI、Google、xAI都簽了類似合同,條款寬鬆到“所有合法用途”。不少分析認為,美國AI公司為軍方服務,已成趨勢。第三,傳統情報管道和反諜報網路的建設仍至關重要。從美以一些消息人士最新披露的情況看,美以情報機構近期一直在通過通訊訊號及內部資訊,秘密監控哈米尼的行蹤,掌握其日常行蹤、通訊方式、會面對象。通訊訊號攔截和內部線人提供關鍵情報的可能性非常大。所以,時刻不能低估反諜報的重要性。第四,今後一段時間,美國針對別國AI、半導體等領域的打壓會更加密集。賊的眼裡看誰都是賊。看了美國的操作,就不難理解為什麼華盛頓政客每每打壓別國公司,拿出的總是同一套劇本:“與該國軍方有關聯”。因為美國自己就是這麼幹的。對中國來說,我們既要堅定維護自身合法權益,戳破其“賊喊捉賊”的謊言,也要沉下心築牢科技底座,穩步推進技術創新。 (補壹刀)
有錢也買不到更好的ChatGPT,比爾·蓋茲用的和你一模一樣:大語言模型如何顛覆技術擴散的傳統路徑?
變革性技術通常遵循一種自上而下的擴散路徑:起源於政府或軍事領域,隨後傳遞到企業,最終惠及個人——比如電力、密碼學、電腦、航空、網際網路或GPS。這種發展軌跡很符合直覺,因為新技術在早期通常是稀缺的、資本密集型的,並且需要專業的技術知識才能使用。然而,讓我感到獨特且值得注意的是,大語言模型(LLMs)卻戲劇性地逆轉了這一模式——它們為普通人帶來了不成比例的巨大好處,而在企業和政府中的影響則相對微弱且滯後。ChatGPT是有史以來增長最快的消費級應用,每周活躍使用者高達4億,他們用它來寫作、程式設計、翻譯、輔導、總結、深度研究、頭腦風暴等。這不僅僅是對現有工具的小幅升級,而是對個人能力的一次重大倍增,覆蓋了廣泛的能力範圍。更重要的是,這些模型使用的門檻極低——它們便宜甚至免費,響應迅速,只需通過瀏覽器連結或個人電腦即可隨時訪問,而且還能用你熟悉的語言、語氣、俚語甚至表情符號與你交流。這簡直令人難以置信。據我所知,普通人從未經歷過如此劇烈、如此迅速的技術躍遷。那麼,為什麼企業和政府從中獲得的好處卻相對有限?我認為第一個原因是,大語言模型具備一種特定的能力特徵——在許多領域都擁有類似專家但並不深入且容易犯錯的“准專家”水平。換句話說,它們很全能,但也相對淺顯易錯。相比之下,一個組織真正的超級能力在於,它能通過僱傭工程師、研究人員、分析師、律師、行銷專家等,將深度的專業技能集中到單一實體中。雖然大語言模型可以提高這些專家的個人效率(如初步起草法律條款、生成程式碼範本等),但對於組織整體而言,它們的作用更像是錦上添花,讓原本就能完成的任務變得稍微更好一些。而個人通常最多隻精通一個領域,因此大語言模型提供的廣泛准專業能力,使他們能做此前根本做不到的事。現在人們可以輕鬆編寫應用程式,接近法律檔案,理解深奧的研究論文,進行資料分析,生成多媒體的品牌行銷內容,所有這些都能以足夠的能力完成,而無需額外聘請專家。其次,企業和政府面臨的往往是複雜得多且需要高度協調的問題,例如各種系統整合、遺留系統、品牌規範、嚴格的安全協議、隱私保護、國際化需求、監管合規以及法律風險。這裡面變數更多、限制更多、顧慮更多,犯錯的餘地卻更小。這種複雜性遠不是一個上下文窗口就能簡單解決的。你不能僅憑直覺編寫企業級程式碼,因為可能一次嚴重的“幻覺”錯誤就足以讓你丟掉飯碗。第三,大型組織還存在著眾所周知的慣性問題:文化、歷史積澱、政治鬥爭在快速變化中會加劇,溝通成本增加,重新培訓分佈式員工隊伍的挑戰,以及傳統官僚主義。這些都是迅速採用一種新穎但淺顯易錯工具的重大阻礙。我無意低估大語言模型在企業或政府中的影響,但至少就當前而言,對社會整體來說,這些模型對個人生活的改變遠超過組織。真正享受大部分好處的是普通的瑪麗、吉姆和喬,而不是Google或美國政府。展望未來,大語言模型的進一步擴散當然取決於其性能持續提升及能力特徵的發展。整體“收益分配”將是個特別有趣的話題,並高度依賴於性能與資本投入之間的動態範圍。目前,頂級大語言模型的性能極易獲取且成本低廉,現階段你無法通過花更多錢獲得顯著更好的性能、可靠性或自主性。有錢買不到更好的ChatGPT。比爾·蓋茲使用的GPT-4o與你使用的完全相同。但這種狀況能持續多久呢?增加訓練規模(參數、資料),增加推理時間,以及使用模型組合策略,這些都會增加動態範圍。另一方面,模型蒸餾技術(通過訓練小型模型模仿大型模型的能力)卻在縮小這種差距。一旦金錢可以明顯買到更強的ChatGPT,形勢就會發生巨大變化。屆時,大型組織將能利用龐大的資源購買更多智能;在個人層面上,精英階層或許也會再次與大眾拉開差距。他們的孩子可能接受GPT-8超級高級版的私人輔導,而你的孩子只能用GPT-6迷你版。但至少在當下,我們發現自己處於技術史上一個獨特且前所未有的局面。如果你回顧各種科幻作品,你會發現很少有人預測到人工智慧革命會以這種方式展開。按照想像,它原本應當是一個由政府主導的絕密超級大腦計畫,由軍事將領掌控,而不是像ChatGPT這樣一夜之間免費出現在每個人口袋裡的裝置上。記得威廉·吉布森那句名言嗎?——“未來早已降臨,只是分佈並不均勻”。出人意料的是,現在未來不僅已經到來,而且驚人地公平分佈。權力回歸大眾。說實話,我特別喜歡這樣的未來。 (超算百科)
7000字詳解火爆全網的Claude 模型上下文協議 (MCP)
人工智慧領域正在經歷快速發展,大型語言模型(LLMs)的能力日益增強。然而,將這些強大的模型與現實世界的資料和工具整合仍然面臨著諸多挑戰。傳統上,連接 AI 模型與各種資料來源通常需要為每個資料來源編寫定製化的程式碼,這不僅耗時,而且容易出錯 。這種為連接 M 個不同的 LLM 和 N 個不同的工具而產生的“MxN”問題,導致了整合過程的複雜性,並阻礙了 AI 應用的廣泛採用和不同系統之間的互操作性 。為了應對這些挑戰,Anthropic 近期推出了模型上下文協議(Model Context Protocol,簡稱 MCP),作為一種開放標準,旨在提供一個統一的解決方案,以取代這些臨時性的整合方法 模型上下文協議(MCP)可以被定義為 Anthropic Claude 專門設計的一種開放協議標準,其目標是在 AI 模型和開發環境之間建立標準化的上下文互動 。通過提供對上下文資訊的標準化訪問,MCP 使得 AI 模型能夠更好地理解和處理程式碼 。該協議通過引入客戶端和伺服器的概念來運作:客戶端通常嵌入在基於 LLM 的應用程式中,例如 Claude Desktop 應用,它們負責發起對資源的請求;而 MCP 伺服器則由客戶端啟動,處理這些請求並執行所需的操作,這些操作可能涉及到使用額外的工具、程式語言或處理程序 。MCP 的核心功能在於標準化上下文互動,這預示著在 AI 領域,“上下文”正日益成為實現超越簡單問答等高級功能的關鍵要素。Anthropic 將 MCP 定位為一個開放協議,這表明其戰略意圖是圍繞 Claude 模型建構一個協作生態系統,鼓勵更廣泛的採納和社區貢獻 為了幫助讀者快速理解 MCP 的本質,可以將其比作 AI 領域的 USB-C 介面 。正如 USB-C 提供了一種連接各種裝置和外設的通用方式,MCP 也為連接 AI 系統和各種工具及資料來源提供了一種統一的方法 。它就像一個通用介面卡,使得 AI 模型能夠與各種外部系統進行無縫互動 。這種類比有效地傳達了 MCP 的核心價值主張:標準化和普遍相容性。這表明 AI 領域正朝著對這種通用標準的需求發展,以促進不同 AI 模型和工具之間的互操作性 MCP 的技術詳解