Anthropic的創始人達里奧·阿莫迪(Dario Amodei)和丹妮拉·阿莫迪(Daniela Amodei)告訴《福布斯》,該公司週一發布的以企業解決方案為重點的新模型——Claude 3優於競爭對手GPT-4和Google (Google)的Gemini 1.0 Ultra。
Open AI或Google被追平比分可能只是Anthropic發布新產品的一個小噱頭,更大關注點應該落在人工智慧公司面對未來所選的商業化路徑上。頭部大模型公司已經站在了一個十字路口上,當Inflection、Character.AI甚至OpenAI等公司進一步涉足消費者用例時,Anthropic一頭扎向了企業客戶。
聯合創始人達里奧·阿莫迪和丹妮拉·阿莫迪兄妹說,Claude 3的發布再次表明,“Anthropic更像是一家企業公司,而不是一家消費者公司。”
Anthropic在台北時間昨晚,發表了一系列新的大型語言模式。這家人工智慧公司稱這些模型是迄今為止世界上最聰明的模型,性能超過了競爭對手OpenAI和Google。
Anthropic的新「家族」模型稱為Claude 3,有Opus、Sonnet和Haiku三個版本,效能和價格各不相同。該公司表示,Opus是功能最強大、最昂貴的版本,在一系列衡量智慧的基準測試中,其性能超過了OpenAI的GPT-4和Google的Gemini 1.0 Ultra。Opus和中級產品Sonnet已於週一上市,Haiku將在稍後公佈的日期發布。
聯合創始人兼執行長達里奧·阿莫迪在接受採訪時說,該機型系列在設計時考慮了不同的業務應用案例。他補充說:“至少從評估結果來看,Claude 3 Opus在許多方面都是全球範圍內執行各種任務性能最好的機型。”
根據該公司公佈的基準,在包括本科常識(MMLU)、小學數學(GSM8K)、電腦程式碼(HumanEval)和問答知識(ARC-Challenge)在內的一些熱門測驗科目上,Claude 3 Opus的表現優於OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra。在一般知識基準測試中,Claude 3 Opus的表現也優於開源人工智慧獨角獸Mistral上週發布的頂級模型Mistral Large。
不過,大多數用戶會看到的Claude 3版本,即Claude 3 Sonnet,其性能與GPT-4不相上下:在某些基準測試中領先,而在其他基準測試中落後。阿莫迪承認,Anthropic 的基準測試沒有考慮OpenAI和Google最近的更新(GPT-4 Turbo和Gemini 1.5 Pro),因為它們的同行尚未發布相應的測試評估。他說:“如果我們的表現沒有競爭力,我會非常驚訝。”
Claude 3 Opus的價格為每百萬字串輸入15美元(相當於2500頁書的文字),每百萬字串輸出75美元,比OpenAI的GPT-4 Turbo預覽版還要貴,後者的價格分別為每百萬字串10美元和30美元。阿莫迪和聯合創始人兼妹妹丹妮拉·阿莫迪告訴《富比士》,他們希望Opus能被那些需要最尖端性能的企業用於複雜數據分析和生物醫學研究等功能。
他們補充說,相較之下Claude 3 Sonnet(價格便宜五倍)對大多數任務都有意義,其用途包括大型資料儲存的搜尋和檢索、銷售預測、有針對性的行銷和程式碼產生。
成本最低的Claude 3 Haiku型號的成本僅為Claude 2的幾分之一,便於與客戶進行即時互動、內容管理和物流庫存管理。Haiku版本的效能仍與Anthropic八個月前發表的前代機型Claude 2旗艦版相當。達裡奧·阿莫迪說:“與同級別的其他機型相比,它非常具有競爭力。這是很大的進步。”
據報導,Anthropic的基準效能使Claude 3 Opus領先OpenAI的GPT-4等競爭對手。圖片來源:ANTHROPIC
所有三種型號都將允許提示多達20萬個字串(大約一本書的大小),超過GPT-4 Turbo支援的128,000個字串。Anthropic 表示,Opus用戶在某些用途上可以申請100萬個字串的限制,這與Google為Gemini 1.5 Pro部分用戶提供的上限相符。
Anthropic由從OpenAI辭職的七名研究人員組建,其目標歷來是透過更深入地關注人工智慧的安全性,將自己與其前身以及該領域的其他公司區分開來。一些業內人士不禁想問,這是否已經拖慢了該公司的腳步,並且他們最近幾個月在社交媒體以及其他地方對其模型性能提出了質疑。在一個很受歡迎的由人類評估者組成的眾包排行榜上,Claude 1目前的評分高於其後繼者Claude 2.0和更新版Claude 2.1。
達里奧·阿莫迪認為,這些評價只是人類對數量有限的消費任務進行的評估。他承認,雖然Claude 2比其前身更安全,Anthropic的研究人員對此表示滿意,但這是以更高的"錯誤拒絕率"為代價的,即拒絕接受模型認為過於接近其安全界限的提示。Anthropic聲稱,Claude 3系列在避免這些拒絕方面的表現比前幾代產品要好得多。內容接近其安全限制的無害提示被拒絕的比例約為10%,而Claude 2.1則為25%。阿莫迪說:“現在,我們正朝著在二者之間取得更多平衡的方向邁進,以求兩全其美。以正確的方式劃定複雜的邊界真的很難。我們一直在努力完善。”
Inflection、Character.AI甚至OpenAI等公司已經進一步涉足消費者用例,而Anthropic則專注於企業客戶。Anthropic的免費消費者聊天機器人(也稱為Claude)的用戶現在可以存取Sonnet,而想要試用Opus的個人則需要訂閱每月20美元的付費版本。但丹妮拉·阿莫迪說,Claude 3的發布更多考慮的是商業用例。Claude的客戶包括科技公司Gitlab、Notion、Quora和Salesforce(Anthropic的投資者);金融巨頭橋水公司(Bridgewater)和企業集團SAP,以及商業研究入口網站LexisNexis、電信公司SK Telecom和丹娜法伯癌症研究所(Dana-Farber Cancer Institute)。
專注於人工智慧的高階主管Eric Pelz)在一份聲明中說,在Claude 3的早期測試用戶中,生產力軟體製造商Asana發現初始回應時間縮短了42%。同一家軟體公司Airtable表示,它已將Claude 3 Sonnet整合到自己的人工智慧工具中,以幫助加快內容創建和資料匯總。
至於Claude 3的訓練成本——計算量和時間——Anthropic的聯合創始人拒絕透露。雖然Claude 2是去年7月發布的,但阿莫迪說,這並不意味著什麼,因為公司有時會同時訓練多個模型,這取決於圖形處理器叢集的可用性。
根據《富比士》報道,Anthropic公司最近以184億美元的估值融資7.5億美元,該公司計劃在未來幾個月內增加程式碼解釋、搜尋功能和原始碼引用等功能。阿莫迪說:「我們將繼續擴大模型規模,讓它們變得更加智能,同時也繼續努力讓更小、更便宜的模型變得更智能、更有效率。一整年都會有不同程度地更新。」(Forbes福布斯)
本文譯自
https://www.forbes.com/sites/alexkonrad/2024/03/04/anthropic-releases-claude-3-claims-beat-openai/?sh=12350c3357bc