可切換兩種思考模式,精準把控思考時間。
智東西2月25日報導,今天,Anthropic重磅發佈首個混合推理模型——Claude 3.7 Sonnet。這個模型在編碼和前端Web開發方面表現突出,使用者既可以讓模型給出即時答案,也可以給出經過深思熟慮的答案。
Anthropic還推出了代理編碼工具Claude Code,可以搜尋和讀取程式碼、編輯檔案、編寫和運行測試、提交和推送程式碼到GitHub以及使用命令列工具。在早期測試中,Claude Code可以一次性完成通常需要45分鐘手動操作的工作。
目前,Claude 3.7 Sonnet已經在全平台上線,包括亞馬遜雲服務Bedrock平台、Google雲,而要想要擴展思考模式,除免費版外其他都可以用。在標準和擴展思維模式下,Claude 3.7 Sonnet的價格與此前產品相同:每百萬輸入tokens收費3美元,每百萬輸出tokens收費15美元——其中包括思考tokens。
剛剛,Perplexity Pro也宣佈上線Claude 3.7 Sonnet,已經在內部測試了該模型一段時間,發現代理工作流程和程式碼生成有了顯著改進,使用者現在可以通過在設定中切換AI模型來進行嘗試。
不少網友上手實測發現,這個模型可以一次性給出了3287行程式碼、十秒鐘完成會計分析資料可視化,但是知識儲備滯後,以至於搞出“美國現任總統是卡瑪拉”的烏龍,還有存在收費過高的問題。
值得一提的是,據華盛頓郵報消息,Anthropic正在進行一輪高達35億美元(約合人民幣254億元)的融資,融資後估值將達615億美元(約合人民幣4462億元)。投資者包括風險投資公司Lightspeed VenturePartners、General Catalyst和Bessemer Venture Partners、阿布扎比的投資公司MGX。Anthropic最初打算籌集20億美元,但後續在與投資者的談判中增加了融資金額。
儘管上個月DeepSeek的橫空出世給行業帶來了顛覆性的變化和擔憂,但Anthropic的CEO Dario Amodei認為,DeepSeek的成就並沒有改變開發AI技術的經濟計算。從其新一輪的融資進展來看,投資者依舊青睞Anthropic這類開發專有AI模型的公司。
就像人類不會有兩個不同的大腦來分別處理可以立即回答的問題和需要思考的問題一樣,Anthropic覺得,推理只是前沿模型應具備的能力之一,它應與其他能力順暢融合,而不是一個完全獨立的模型。
Claude 3.7 Sonnet就從多個方面體現了這一理念:
首先,Claude 3.7 Sonnet集LLM和推理模型於一身:使用者可以選擇讓模型即時作答,也可以選擇讓其進行更深入的思考。
在標準模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版。在擴展思考模式下,它會在回答前進行自我反思,從而提高了它在數學、物理、指令執行、編碼以及許多其他任務上的表現。在這兩種模式下,對模型的提示方式大致相同。
其次,使用者還可以控制思考的“預算”。API使用者可以告訴Claude思考所用的token不超過N個,N的取值範圍可以是0到128000,從而在速度(以及成本)和答案質量之間進行權衡。
比如,在回答2024年美國數學邀請賽問題時,Claude 3.7 Sonnet會根據每個問題允許使用多少token,即使允許Claude使用整個思考預算,它通常也會停止。
另外,把重點放在使用者有更大需求的現實世界任務上,減少了對數學和電腦科學競賽問題的最佳化程度。
在評估多模態AI代理能力的OSWorld上,可以看到Claude 3.7 Sonnet開始時表現稍好,隨著模型繼續與虛擬電腦互動,性能上的差異隨著時間的推移而增加。
除了傳統基準測試外,Claude 3.7 Sonnet在寶可夢遊戲測試中甚至超過了所有之前的模型。
Anthropic為該模型配備了基本記憶體、螢幕像素輸入和函數呼叫,以按下按鈕並在螢幕上導航,使其能夠連續玩寶可夢遊戲。與無法離開故事開始的Pallet Town的房子的Claude 3.0相比,Claude 3.7成功與三位神奇寶貝道館長戰鬥並贏得了他們的徽章。
圖中,x軸表示Claude在玩遊戲時完成的互動次數;y軸表示遊戲中涉及收集特定物品、導航到特定區域和擊敗特定遊戲boss的重要里程碑。
Anthropic還推出了首款智能編碼工具——Claude Code。它能夠搜尋和讀取程式碼、編輯檔案、編寫並運行測試、提交程式碼並推送到GitHub上,還能使用命令列工具,並且在每一步都讓使用者瞭解進展情況。
目前還是有限的預覽版形式,使用者可以直接從終端將大量任務委派給Claude。
在早期測試中,Claude Code能夠一次性就能完成那些需要人工花費45分鐘以上才能完成的任務,從而減少了開發時間和工作量。
在接下來的幾周裡,Anthropic計畫根據使用情況不斷對其進行改進:提高工具呼叫的可靠性,增加對長時間運行命令的支援,改進應用內的呈現效果,並加深Claude對自身能力的理解。
另外,Anthropic還改進了Claude.ai上的編碼體驗。GitHub整合功能現在對所有Claude套餐都已可用,開發者可以將他們的程式碼儲存庫直接連接到Claude。
不少網友已經上手對Claude 3.7 Sonnet進行實測。比如,讓它“建構一個基於Next.js的軟體即服務(SaaS)行銷範本”,咻一下,它就生成了26個程式碼檔案,堪比世界級開發者。
網友讓Claude 3.7 Sonnet使用HTML、CSS和JavaScript建立一個響應式的圖片庫,並說明該圖片庫應顯示一個圖片網格,使用者可以通過點選來打開一個游標(全螢幕檢視),在其中可以瀏覽圖片。從結果來看,Claude 3.7 Sonnet非常適合前段開發,甚至被稱之為是有史以來最好的編碼基礎模型。
讓Claude 3.7 Sonnet建立一個Pygame2D平台遊戲,需要包含5個關卡、多個敵人還有一個終極boss,模型一次性給出了3287行程式碼,並且只在2260行出現了一個錯誤(RGB值出界)。
不由得讓人感慨:都不用再工作了,反正Claude 3.7 Sonnet十秒就把會計分析資料可視化做完了。
網友稱讚:Claude 3.7 Sonnet是一個巨大的進步,大模型之間的競爭正在升溫,這是一個激動人心的時刻。
有設計師讓Claude 3.7 Sonnet建立一個樣式“像玻璃一樣”的設計系統,模型一次性就能建立出一整套設計系統,而且包含了所有的元件。
不過,也有使用者吐槽Claude 3.7 Sonnet的知識庫好像還停留在去年10月之前。針對“現任美國總統是誰”的問題,Claude 3.7 Sonnet自信回答:是卡瑪拉·賀錦麗,她在2024年總統選舉中獲勝。被使用者指出回答錯誤後,它才重新回答是川普。
有網友覺得Claude 3.7 Sonnet為了追求“道德正確”而受到了很大限制,總體來說還不如馬斯克的Grok 3。
還有人質疑Claude 3.7 Sonnet收費太高了:每百萬輸入tokens收費3美元,每百萬輸出tokens(包括思考tokens)收費15美元。如果使用者在API請求中使用思考功能,思考tokens的數量很容易達到數百,甚至有時會達到上千。
使用者關心的是最終結果而不是模型思考時間,思考tokens不應和常規輸出tokens按一樣的價格出售。
從Claude 3.7 Sonnet可以讓使用者選擇不同的思考方式、Claude Code將複雜開發流程簡化為終端指令等來看,Anthropic似乎希望能夠簡化使用者體驗,不僅重新思考什麼時候才真正需要AI系統來模仿人類推理,也在進一步重構AI易用性邊界,以體驗優先來增強人機協作流暢度。
儘管行業已將推理定位為AI的下一個前沿領域,但Anthropic押注使用者有時可能渴望更簡單一點的方法。Anthropic的首席產品官Mike Krieger也談道,“我們真正想做的是,在真正有意義的地方採用這項功能,而不是在沒有意義的地方使用它。”在不斷白熱化的AI企業競爭態勢中,這種方法或許能幫助Anthropic脫穎而出。 (智東西)