全全球首個混合推理模式降世!程式設計師集體過年,最強AI程式秒全場,多平台火速接入

今天,Anthropic重磅發布首個混合推理模型-Claude 3.7 Sonnet 。這個模型在編碼和前端Web開發方面表現突出,使用者既可以讓模型給出即時答案,也可以給出經過深思熟慮的答案。


可切換兩種思考模式,精準把控思考時間。


Anthropic也推出了代理程式編碼工具Claude Code,可以搜尋和讀取程式碼、編輯檔案、編寫和執行測試、提交和推送程式碼到GitHub以及使用命令列工具。在早期測試中,Claude Code可以一次完成通常需要45分鐘手動操作的工作。

目前,Claude 3.7 Sonnet已經在全平台上線,包括亞馬遜雲端服務Bedrock平台、Google雲,而要想要擴展思考模式,除免費版外其他都可以用。在標準和擴展思維模式下,Claude 3.7 Sonnet的價格與先前產品相同:每百萬輸入tokens收費3美元,每百萬輸出tokens收費15美元——其中包括思考tokens。

剛剛,Perplexity Pro也宣布上線Claude 3.7 Sonnet,已經在內部測試了該模型一段時間,發現代理工作流程和程式碼生成有了顯著改進,用戶現在可以透過在設定中切換AI模型來進行嘗試。

不少網友上手實測發現,這個模型可以一次性給出了3287行代碼、十秒鐘完成會計分析數據可視化,但是知識儲備滯後,以至於搞出“美國現任總統是卡瑪拉”的烏龍,還有存在收費過高的問題。

值得一提的是,根據華盛頓郵報消息,Anthropic正在進行一輪高達35億美元(約 254億元人民幣)的融資,融資後估值將達615億美元(約合人民幣4,462億元)。投資者包括創投公司Lightspeed VenturePartners、General Catalyst和Bessemer Venture Partners、阿布達比的投資公司MGX。 Anthropic最初打算籌集20億美元,但後續在與投資者的談判中增加了融資金額。

儘管上個月DeepSeek的橫空出世為產業帶來了顛覆性的變化和擔憂,但Anthropic的CEO Dario Amodei認為,DeepSeek的成就並沒有改變開發AI技術的經濟計算。從其新一輪的融資進度來看,投資人依舊青睞Anthropic這類開發專有AI模型的公司。


01 .首個混合推理模型,可切換兩種思考模式

就像人類不會有兩個不同的大腦來分別處理可以立即回答的問題和需要思考的問題一樣,Anthropic覺得,推理只是前沿模型應具備的能力之一,它應與其他能力順暢融合,而不是一個完全獨立的模型。

Claude 3.7 Sonnet從多個方面體現了這個理念:

首先,Claude 3.7 Sonnet集LLM和推理模型於一身:使用者可以選擇讓模型即時作答,也可以選擇讓其進行更深入的思考。

標準模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版。在擴展思考模式下,它會在回答前進行自我反思,從而提高了它在數學、物理、指令執行、編碼以及許多其他任務上的表現。在這兩種模式下,對模型的提示方式大致相同。


其次,使用者還可以控制思考的「預算」。 API使用者可以告訴Claude思考所用的token不超過N個,N的值域可以是0到128000,從而在速度(以及成本)和答案品質之間進行權衡。

例如,在回答2024年美國數學邀請賽問題時,Claude 3.7 Sonnet會根據每個問題允許使用多少token,即使允許Claude使用整個思考預算,它通常也會停止。


另外,把重點放在使用者有更大需求的現實世界任務上,減少了對數學和電腦科學競賽問題的最佳化程度。


在評估多模態AI代理能力的OSWorld上,可以看到Claude 3.7 Sonnet開始時表現稍好,隨著模型繼續與虛擬計算機交互,性能上的差異隨著時間的推移而增加。


除了傳統基準測試外,Claude 3.7 Sonnet在寶可夢遊戲測試中甚至超過了所有先前的模型。

Anthropic為該模型配備了基本內存、螢幕像素輸入和函數調用,以按下按鈕並在螢幕上導航,使其能夠連續玩寶可夢遊戲。與無法離開故事開始的Pallet Town的房子的Claude 3.0相比,Claude 3.7成功與三位神奇寶貝道館長戰鬥並贏得了他們的徽章。

圖中,x軸表示Claude在玩遊戲時完成的互動次數;y軸表示遊戲中涉及收集特定物品、導航到特定區域和擊敗特定遊戲頭目的重要里程碑。




02 .首個編碼工具亮相,一次完成人工45分鐘的工作

Anthropic也推出了首款智慧編碼工具-Claude Code。它能夠搜尋和讀取程式碼、編輯檔案、編寫並執行測試、提交程式碼並推送到GitHub上,還能使用命令列工具,並且在每一步都讓用戶了解進度。

目前還是有限的預覽版形式,使用者可以直接從終端將大量任務委派給Claude。


在早期測試中,Claude Code能夠一次就能完成那些需要人工花費45分鐘以上才能完成的任務,從而減少了開發時間和工作量。

在接下來的幾周里,Anthropic計畫根據使用情況不斷對其進行改進:提高工具呼叫的可靠性,增加對長時間運行命令的支持,改進應用程式內的呈現效果,並加深Claude對自身能力的理解。

另外,Anthropic也改進了Claude.ai上的程式設計體驗。 GitHub整合功能現在對所有Claude套餐都已可用,開發者可以將他們的程式碼儲存庫直接連接到Claude。


03 .一口氣產生數千行程式碼,十秒出會計報表

不少網友已經上手對Claude 3.7 Sonnet進行實測。例如,讓它“建立一個基於Next.js的軟體即服務(SaaS)行銷範本”,咻一下,它就產生了26個程式碼文件,堪比世界級開發者。



網友讓Claude 3.7 Sonnet使用HTML、CSS和JavaScript創建一個響應式的圖片庫,並說明該圖片庫應顯示一個圖片網格,用戶可以透過點擊來開啟一個遊標(全螢幕視圖),在其中可以瀏覽圖片。從結果來看,Claude 3.7 Sonnet非常適合前段開發,甚至被稱之為是有史以來最好的編碼基礎模型。


讓Claude 3.7 Sonnet創建一個Pygame2D平台遊戲,需要包含5個關卡、多個敵人還有一個終極boss,模型一次給出了3287行程式碼,並且只在2260行出現了一個錯誤(RGB值出界)。


不由得讓人感慨:都不用再工作了,反正Claude 3.7 Sonnet十秒就把會計分析數據可視化做完了。


網友稱讚:Claude 3.7 Sonnet是一個巨大的進步,大模型之間的競爭正在升溫,這是一個令人興奮的時刻。


有設計師讓Claude 3.7 Sonnet創建一個樣式「像玻璃一樣」的設計系統,模型一次就能創造出一整套設計系統,而且包含了所有的組件。



不過,也有用戶吐槽Claude 3.7 Sonnet的知識庫好像還停留在去年10月之前。針對「現任美國總統是誰」的問題,Claude 3.7 Sonnet自信回答:是卡瑪拉·哈里斯,她在2024年總統選舉中獲勝。被用戶指出回答錯誤後,它才重新回答是川普。


有網友覺得Claude 3.7 Sonnet為了追求「道德正確」而受到了很大限制,總體來說還不如馬斯克的Grok 3。


也有人質疑Claude 3.7 Sonnet收費太高了:每百萬輸入tokens收費3美元,每百萬輸出tokens(包括思考tokens)收費15美元。如果使用者在API請求中使用思考功能,思考tokens的數量很容易達到數百,甚至有時會達到數千。

使用者關心的是最終結果而不是模型思考時間,思考tokens不應和常規輸出tokens以一樣的價格出售。




04 .結語:體驗優先,Anthropic探索重構AI易用性邊界

從Claude 3.7 Sonnet可以讓使用者選擇不同的思考方式、Claude Code將複雜開發流程簡化為終端指令等來看,Anthropic似乎希望能夠簡化用戶體驗,不僅重新思考什麼時候才真正需要AI系統來模仿人類推理,也在進一步重構AI易用性邊界,以體驗體驗優先度來增強人機協作流暢度。

儘管業界已將推理定位為AI的下一個前沿領域,但Anthropic押注用戶有時可能渴望更簡單一點的方法。 Anthropic的首席產品長Mike Krieger也談道,「我們真正想做的是,在真正有意義的地方採用這項功能,而不是在沒有意義的地方使用它。」在不斷白熱化的AI企業競爭態勢中,這種方法或許能幫助Anthropic脫穎而出。(智東西)