OpenAI 的GPT-4 發布一年後,終於有了一個評測指標全面超越它的大模型。
3 月4 日,Anthropic 發布三個版本的大模型系列Claude 3,性能由強到弱分別是:Opus (拉丁語“作品”)、Sonnet(英語“十四行詩”)和Haiku(日語“俳句” 的音譯)。
Anthropic 列出的十項常用模型能力評估資料集表現,Opus 得分全都超過GPT-4,視覺辨識能力評估資料集上的情況也一樣。
Claude 3 的另兩款模型智能等級不如Opus,但用起來更便宜,適用需要快速回應的場景,例如Haiku 可以3 秒閱讀1 萬字的論文。Anthropic 沒有公佈兩個模型的參數,也沒有提是否能用在手機上。
從部分開發者的評量回饋來看,Opus 的能力似乎與GPT-4 接近。有一些開發者用Opus 的視覺辨識能力打撲克牌、麻將,還贏了幾把。
Google 上月發布的Gemini Ultra 版本大語言模型被認為在技術上追平GPT-4,但很快就陷入「政治不正確」泥潭。Anthropic 出現類似問題的機率更低——它比大多數公司都更看重大模型的「普世價值觀」。
相較於Google,Anthropic 的模型追上GPT-4 給OpenAI 的衝擊更大。與OpenAI 相比,它花費的時間和資源更少。Anthropic 稱,大模型還沒有達到極限,他們計劃在未來幾個月內密集更新Claude 3 模型系列。
最熟悉OpenAI 的團隊
Anthropic 的模型趕上GPT-4 並非只靠堆砌資源,他們本來就是熟悉OpenAI 技術路線的團隊。成立於2021 年的Anthropic 早期的團隊成員全部來自OpenAI,他們具備開發一款大模型所需的不同能力。
Anthropic 共同創辦人、CEO 達里奧·阿莫代(Dario Amodei)在OpenAI 工作5 年,離職前擔任研發副總裁,參與了GPT-2、GPT-3 的研究。最初OpenAI 嘗試多種方法探索AI 的可能性,例如遊戲、機械手。是阿莫代和OpenAI 首席科學家伊利亞·蘇茨克維爾(Ilya Sutskever)一起確定了OpenAI 專注研究大語言模型。
另一位共同創辦人薩姆·麥坎利甚(Sam McCandlish)在OpenAI 負責研究如何擴展大模型,是大模型規模定律(Scaling Law)的核心作者。
Scaling Law 被稱為大模型成功的關鍵之一。它可以較為準確地預測,隨著大模型參數成長,模型的訓練效率、能力上限會到什麼程度,從而幫助研究者更好地設計模型架構、分配訓練模型的資源等。
此外,團隊中還有負責GPT-3 訓練基礎設施的湯姆·布朗(Tom Brown)、參與資料處理的本傑明·曼恩(Benjamin Mann)、參與演算法研究的尼古拉斯·約瑟夫(Nicholas Joseph)等人。
Anthropic 因此也被稱為最有可能與OpenAI 競爭的公司。接下來兩年,讓Anthropic 開發大模型的資源迅速補齊。截至2023 年底,Anthropic 從亞馬遜、Google、Salesforce 等投資者手中籌集70 多億美元,融資規模僅次於OpenAI。
這些投資人不只為Anthropic 提供資金,還提供稀缺的算力資源,Claude 3 就是用AWS 和Google 的雲端運算平台的硬體訓練出來的。
重點研究RLHF,追求安全帶來性能提升
Anthropic 與OpenAI 最大的分歧是如何讓大模型更安全。根據多家媒體報道,達裡奧·阿莫代等人2020 年底離開OpenAI 是因為不滿公司更偏重盈利,降低大模型的安全研究的優先級。當時OpenAI 發布GPT-3 的API,加快商業化節奏。
在Anthropic,他們的目標是開發一個「有用、誠實、無害」 的大模型,而且無害的重要性不比有用低。
去年7 月,《紐約時報》的專欄作家凱文·羅斯(Kevin Roose)到Anthropic 採訪多位工程師,發現大多數人都更願意談論自己對人工智慧的恐懼,還有人因此失眠。“我感覺自己像一個美食作家,去報道一家時尚的新餐廳,而廚房的工作人員只想談食物中毒。”
對安全的關注,讓Anthropic 投入大量資源研究基於人類回饋的強化學習(RLHF)技術。
訓練一個大模型有預訓練(pre-training)加精調(fine-tuning)兩個步驟,前者是用龐大資料訓練出初版的大模型,它不針對具體任務。精調是給模型一些具體任務的數據,提升模型的效果,它也會調整模型的價值觀以跟設計者保持一致。
RLHF 是一種精調大模型的方法,現在被證明是提升模型能力的關鍵。RLHF 的具體做法是,模型開發者招募大量人類標註員,讓他們寫回答教大模型什麼是人類想要的答案,還會對大模型反饋的不同答案評分,告訴它哪個更好,讓機器按人類的反饋改進。
去年發布GPT-4 時,OpenAI 稱,與GPT-3.5 相比,僅經過預訓練的GPT-4 在回答事實性測試題時表現沒什麼改進,但經過RLHF 訓練後,其評估得分提升了40%。
Anthropic 對RLHF 的研究走得更遠。他們在一篇論文中提到,因為RLHF 訓練環節靠人評估,而人會偏向符合自己預期的答案,所以會導致大模型出現阿諛奉承的情況,即反饋的答案迎合人類需求,但不一定正確。
在RLHF 的基礎上,Anthropic 發展出「憲法式人工智慧」(Constitutional AI)來解決這些問題。Anthropic 在技術文件中寫道,「憲法式人工智慧」 是他們訓練Claude 3 的關鍵步驟。
用普通人為AI 設立“價值”
在最近這次新模型發布前幾天,Anthropic 聯合創始人丹妮拉·阿莫代(Daniela Amodei)在一次訪談中再次提到RLHF 和他們重點研究的「憲法式人工智慧」 的差異。「RLHF 改變模型行為相當有效,但很難調整模型深層的一些反應和信念。」她說,「所以我們想賦予模型一種更廣泛的『憲法』,就像在人類社會裡的那些基本原則,讓模型知道哪些行動和參與社會的方式是好的。”
Anthropic 在一篇介紹「憲法式人工智慧」的公告中寫道:「無論有意無意,AI 模型會形成自己的價值體系。」 他們比其他大模型創業公司花更多精力研究人類社會,試圖將一些跨越國界、種族的「基本共識」 用來培養AI 的價值觀。
Anthropic 撰寫給AI 模型的初版「憲法」 中,幾個原則來自1948 年出版的聯合國人權宣言,另有幾個原則受到蘋果公司服務條款的啟發,補充回應1948 年人類還沒遇到的數據隱私問題。「憲法」 還包括Anthropic 訓練模型時總結的、以及DeepMind 等其他前沿AI 實驗室所建立的價值觀。Anthropic 聲稱他們也試圖“鼓勵模型考慮不僅僅來自西方、富人階層或工業化文化的價值觀和觀點。”
2023 年10 月,Anthropic 公佈了「憲法式人工智慧」 的最新成果,把這個有關「基本共識」 的研究延伸成一場更廣泛的公民實踐。他們邀請約1000 位美國公民協助他們制定大語言模型回答問題時的原則。
這1,000 多位參與者中,近400 人年齡在50 歲以上,還有約100 位超過70 歲——總是中青年在主導科技前沿浪潮,老年人在其中近乎隱形,Anthropic 的樣本選擇或將減少年齡帶來的偏見。
Anthropic 在這次研究的報告中總結,這次公開徵集的原則比Anthropic 團隊的原始版本更注重大模型回應時的“客觀性和公正性”,如新增的原則“選擇最平衡客觀信息、反映事情各方面的回應」「選擇對殘障人士最包容、適應、友善和靈活的回應。」一些人類自己還在爭論不休的價值觀不會納入新準則,如AI 到底該優先考慮集體利益還是優先考慮個人的責任和自由。這項研究最終確定了75 項原則——其中四成是本次研究中新增的——用於後續的模型訓練。
在達裡奧·阿莫代的設想中,想把Anthropic 的理念變成現實,最有效的方法就是自己研發出領先大模型,這樣才能理解先進的大模型會遇到什麼問題,從而找出解決辦法。
在研發出更安全的大模型後,他也不打算延續OpenAI 最初的願景──靠著開放、開源讓更多人用上好的AI。
Anthropic 成立至今,都沒有詳細公佈Claude 系列模型是具體如何訓練出來的,也不打算開源。他們認為,如果沒有做好充分的保護措施,開源大模型會導致濫用。
在曾經普遍擁抱開源的矽谷AI 界,今天模型產品技術最領先的三個團隊OpenAI、Google DeepMind、Anthropic 都帶著類似的自負走向另一個方向:AI 是個危險的技術,不能開源開放,必須商業化營運. 畢竟,只有自己才靠得住。(晚點LatePost)