當地時間3月4日,Anthropic發布了最新的Claude 3模型系列,包括Claude 3 Opus、Sonnet和Haiku三個模型,其中Claude 3 Opus在多個測試資料集中全面超過了GPT-4。
Anthropic是一家由 OpenAI 前成員Daniela Amodei、Dario Amodei和Jared Kaplan共同創立的美國人工智慧(AI)新創公司,專注於開發通用 AI 系統和大型語言模型。
Claude 3 Haiku、Sonnet和Opus三款模型的能力和成本依序遞增,推理速度依序遞減。Claude 3 Opus性能最強,相對的輸出成本最高和輸出時間最長,Claude 3 Opus模型在數學、程式設計、多語言理解和視覺等多項基準測試中超越了GPT-4和Gemini 1.0 Ultra。
與GPT-4相比,Claude 3 Opus在多個測試資料集中全面超過了GPT-4。
Anthropic在Claude 3系列模型中首次放出了多模態能力,使用者可以上傳各類非結構化資料如照片、圖表等供AI分析。這三個模型均支援200K token的長上下文窗口,並向特定客戶開放超過100萬token的上下文輸入能力。
不過,Claude 3模型的定價也高於GPT-4。能力最強的Claude 3 Opus比GPT-4 Turbo貴得多:GPT-4 Turbo每百萬token輸入價格為10美元,輸出價格為30美元,Claude 3 Opus每百萬token輸入5美元,輸出75 美元。
目前Claude 3 Haiku 尚未推送,Sonnet已開放在Claude的官方網站上可以免費試用,Opus也已經上線,不過要體驗Opus需要花每月20美元(不含稅)訂閱Claude Pro。相對於ChatGPT,目前Claude的全系產品均無法直接連結網路查詢資料。
「安全、穩定」一直被認為是Claude的一大特點。
Anthropic發展了所謂的「憲法AI」技術,旨在將一系列原則賦予模型,以引導模型產生符合這些原則的文本,例如非有害、有益的內容。這種方法旨在使Claude 2的行為更易於理解和調整,儘管公司承認在預測模型在所有情況下的行為方面仍面臨挑戰。
Claude 2的另一個重點是降低模型產生有害、偏頗或不準確回應的機率。例如,與Claude 1.3相比,Claude 2在內部評估中在給予「無害」回應方面表現得「兩倍」更好。但是,這種改進的具體含義並未詳細說明,例如是指兩倍不太可能回應帶有性別歧視或種族歧視的內容,還是兩倍不太可能支持暴力或自殘等。
由此,Claude模型曾被質疑「道德標準過高」。
此次發布的Claude 3,在安全性和倫理性方面也進行了改進,包括對有害內容的更好管理和對有益行為的支持,同時減少了對良性提示的拒絕反應。
在訓練資料方面Anthropic也格外小心,盡量規避可能的風險。
Claude 3的訓練資料來自2023年8月之前公開可取得的網路資訊、第三方提供的非公開資料、資料標註服務和付費合約工提供的資料以及Anthropic專門製作的資料集上訓練的。Anthropic採用了多種資料清洗和過濾方法,包括去重和分類。值得注意的是,Claude 3的模型系列並沒有使用任何使用者或客戶提交給我們的使用者提示或輸出資料進行訓練,包括免費使用者、Claude Pro使用者和API客戶。
在獲取透過爬取公共網頁的資料時,Anthropic遵循行業實踐,尊重網站經營者透過robots.txt指令和其他訊號用來指示是否允許爬取其網站內容的做法。根據Anthropic的政策,其爬蟲不會存取受密碼保護或需要登入的頁面,也不會繞過CAPTCHA控制。
Anthropic對所使用的數據進行了盡職調查,並以透明的方式運營其爬蟲系統,這意味著網站經營者可以輕鬆識別Anthropic的訪問並向Anthropic表達他們的偏好。
OpenAI的尷尬處境
Claude「過於安全」的屬性,也成了OpenAI的壓力。
Claude發布前月餘,業界一直有傳聞認為,OpenAI將在Claude 3發布之際,迅速跟進發布最新的GPT-4.5(5),或是秘密研發的Q*模型。
不過就在2月29日,馬斯克突然對OpenAI提起訴訟,指控OpenAI執行長Sam Altman為了追求商業利益,違背了OpenAI「確保AI造福人類」的非營利初衷。馬斯克要求法院強制OpenAI回歸開源,並阻止公司及其創始人以及微軟等背後支持者從中獲利。
在此之前OpenAI在AGI研發方面就一直飽受質疑,人們對「巨型」AI模型和AGI安全性的擔憂與日俱增,有些人甚至認為OpenAI及其他AI大模型公司應該暫時停止研發,等待相關法律、監管制度的逐步健全。
此番全新發表的Claude 3,在模型能力方面持續主打安全、穩定。在Claude 3的襯託之下,如果OpenAI此時發布新模型,能力強則很可能在安全方面刺激監管和輿論敏感的神經,而能力弱,則自然會影響「大模型之王」的形象。
馬斯克的突襲,似乎搞得OpenAI有點左右為難。Sam Altman如今也不得不把注意力從產品、模型中抽出來,轉而關注當下輿論焦點的AI安全問題。
正在發大火箭的馬斯克還特地跑來Anthropic點了個贊
就在Claude 3發布幾分鐘後,Sam Altman也發布了一條X推文,但他的推文卻與AI大模型技術和產品無關,而是關於一封公開信。
創投家Ron Conway 和他的公司SV Angel 發起了一場名為:Build AI for a Better Future(建立人工智慧,共創美好未來)的聯名公開信活動,旨在強調「最大限度地發揮人工智慧的好處並減輕風險」對社會的「集體責任」。OpenAI、Google、Meta、Y Combinator等科技公司、投資機構參與並簽署了這份聯名公開信。
目前,關於GPT-4.5(5)和Q*的猜測仍未停止,而OpenAI近期是否真的會發布新模型,讓我們拭目以待。
GPT-4和Claude誰強?
「跑分」戰勝了GPT-4,但具體模型能力方面,Claude 3和GPT-4的差別到底在哪呢?
首先是多模態理解與處理能力,Claude 3能夠處理和理解圖像和視訊幀輸入,從而解決超出簡單文字理解的複雜多模態推理挑戰。
在AI2D科學圖表基準測試中,Claude 3的能力得到了展示,尤其是在視覺問答評估方面。這項評估涉及理解和分析圖表,然後根據圖表資訊回答多項選擇題。簡單來說,就像在考試中,你被給了一些圖表(例如長條圖、線圖等),然後要回答一些基於這些圖表的問題。Claude 3不僅要理解圖表顯示的數據,還要準確地選擇正確的答案。
在這個測試中,Claude 3展現了非常高的準確率,特別是Sonnet版本,在沒有任何預備知識(即0-shot設置,也稱為零樣本學習)的情況下就達到了89.2%的準確率,這表明它非常擅長理解圖表和回答相關問題,即使在沒有特定訓練的情況下。這種能力對於執行需要圖像和文字結合理解的任務非常重要,例如在學術研究、市場分析等領域。
在長文本處理方面,Claude 3模型支援至少1M(1,000,000)個token的上下文,而目前在生產中僅提供最多200k(200,000)token的上下文。在長文檔理解、跨文檔分析、金融資料分析等方面提供了更詳細和可操作的用例。這一點在處理大規模文字資料時,相對於GPT-4可能更有優勢,尤其是在需要綜合分析和提取大量資訊的場景中。
此外,Claude 3的多語言能力也被Anthropic認為是一大亮點。Claude 3 Opus在多語言數學(MGSM)基準測試中達到了超過90%的0-shot成績,並在8種語言中實現了超過90%的準確率,包括法語、俄語、簡體中文、西班牙語、孟加拉語、泰語、德語和日語。這顯示Claude 3在多語言理解和推理方面具有較強的能力,尤其是在數學問題解決方面。
最後,Claude 3在長文本理解、推理、程式設計以及科學查詢處理方面均表現出良好的效能。其在長文本問題回答基準測試QuALITY中的表現尤其突出,0-shot和1-shot設定下的表現均優於早期模型,顯示了其在理解和處理長文本上的高效能力。
在Claude的技術論文中也提到了一些模型的不足之處。
首先Claude不能連網。雖然使用者可以透過直接分享的文件方式互動互動,但Claude只能基於2023年8月之前的數據回答問題,並拒絕辨識影像中的人物。
其次是所有大型語言模型(LLMs)都會遇到的問題,生成內容的準確性和偏見,Claude也會產生錯誤訊息(confabulations)、展現偏見、犯事實錯誤,並可能被「破解」(jail-broken )。
多語言推理能力的不完備,處理小語種時表現較不穩定。
多模態能力的準確性有待提高,Claude模型有時可能會產生關於影像的不準確資訊和描述。性能有時也會在處理小圖像或低解析度圖像時降低。
最後是新能力的「潛在」負面效應。Claude 3引入了新的多模態、多語言能力等,開發人員認為這些能力有時可能會打破模型原有的“平衡”,某些新改進的能力在其他領域可能造成潛在影響。
論文中提到:隨著時間的推移,決定Claude「個性」和能力的數據和影響因素變得相當複雜。在簡單可自動化的方式中平衡這些因素,追蹤它們,以及一般減少訓練Claude的複雜性,仍然是我們的關鍵研究問題。
走OpenAI沒走的路
Anthropic在Claude 3的發布部落格中介紹了三款模型的潛在應用方向,帶著濃厚的ToB商業化氣息。
Claude 3 Opus:任務自動化,跨 API 和資料庫規劃和執行複雜的操作、互動式編碼;研發,研究回顧、集思廣益和假設生成、藥物發現;策略,圖表、財務和市場趨勢的高級分析、預測。
Claude 3 Sonnet:資料處理,RAG 或對大量知識的搜尋和檢索;銷售,產品推薦、預測、定向行銷;節省時間的任務,程式碼生成、品質控制、從圖像中解析文字。
Claude 3 Haiku:客戶互動,即時互動、翻譯中快速、準確的支援;內容審核,捕捉危險行為或客戶要求;節省成本的任務,優化物流、庫存管理、從非結構化資料中提取知識。
外界一直認為Anthropic是一家有著重度ToB基因的公司。
Anthropic在C輪融資中,引入了Google、Salesforce、Zoom等技術和服務市場上的ToB科技巨頭,這些合作夥伴對AI公司的訴求必然是將先進的AI技術集成到自己的產品和服務中,以提高效率、創新能力和競爭力。
此外,Anthropic已經與Zoom合作,旨在“建立以可靠性、生產力和安全性為中心的面向客戶的AI產品”,也清晰地表明了公司的B2B基因。這種合作通常涉及開發能夠為企業提供具體價值的解決方案,如改善客戶服務、自動化工作流程或提供決策支援等。
Anthropic也與波士頓顧問集團(BCG)合作,旨在將負責任的生成式AI技術引入企業客戶。透過這項合作,BCG的客戶可以直接利用Anthropic的AI系統,包括其最先進的模式Claude 2,這些系統專注於可靠性、可解釋性和可控性。
目前,Anthropic聲稱已擁有多個來自不同行業(包括醫療保健、人力資源和教育等)的客戶。
在企業服務和ToB市場上,雖然OpenAI也推出了ChatGPT Enterprise版以及企業的API接口,但相對於Anthropic與企業的深度合作,則ToB屬性輕得多。
從這次Claude 3的中提及的許多重點也可以看出,Anthropic希望在商業化方面,走出一條與OpenAI不同的道路。(虎嗅)