#MCP
MCP之後,Anthropic再放大招!
Anthropic這次確定了AI智能體產品形態2025年10月16日,Anthropic正式推出Claude Skills(簡稱Skills),這是一個專為Claude AI模型設計的可組合技能系統,旨在提升AI在專業工作流程中的實用性和可靠性。該功能標誌著Anthropic從通用對話AI向“代理式”(agentic)AI轉型的關鍵一步,允許使用者和開發者通過簡單資料夾結構“教導”Claude特定任務,避免了傳統提示工程的低效和不一致性。Skills目前面向Pro、Max、Team和Enterprise使用者開放,支援Claude.ai、Claude Code、API以及Claude Agent SDK等多平台無縫整合。具體使用體驗和邏輯上來看,Claude Skills有點像指令碼程序,基於特定規則實現某種功能服務。甚至,你可以直接將其理解為指令碼智能體技術,只不過借助Claude大模型,這種指令碼達到了通用、低程式碼實現。從某種層面上來講,是工具能力更強大更豐富版本的GPTs。而且是以便於傳播的檔案壓縮包的形態存在。預計未來Claude Skills會成為大模型們的一個統一服務形態,就像MCP協議一樣快速被全行業接受並支援。這一技術進一步展示了,Anthropic致力於借助各種工具來提高大模型精準率和降低算力消耗的技術路線。1. 具體原理:模組化載入與安全執行機制Claude Skills的核心是一個輕量級、可擴展的框架,其設計哲學強調“漸進式披露”(progressive disclosure)和“按需載入”,以最小化計算開銷並提升一致性。不同於傳統RAG(Retrieval-Augmented Generation)或提示鏈,Skills將知識封裝成自包含的“技能資料夾”,讓Claude像人類專家一樣“即時掌握”專長。結構與載入機制:每個Skill是一個資料夾,包含:SKILL.md:核心指令檔案,使用Markdown格式描述技能的用途、輸入/輸出規範和執行邏輯。Claude通過Bash工具(如cat SKILL.md)讀取此檔案,僅在任務相關時載入,避免上下文窗口膨脹。指令碼與資源:支援Python、Bash等可執行程式碼,以及輔助檔案(如範本、資料表)。例如,一個Excel技能資料夾可能包含生成公式的指令碼和示例資料集。中繼資料:技能名稱、描述和版本資訊,便於Claude自主決策是否呼叫(初始僅用數十個token掃描描述)。Claude在處理使用者查詢時,會先評估任務語義匹配度(如通過嵌入向量比較),然後動態載入匹配技能的全內容。這使得Skills“可組合”(composable):多個技能可疊加,形成複雜工作流(如資料分析+可視化)。執行與安全保障:Skills依賴Anthropic的Code Execution Tool beta(一個沙箱化REPL環境),支援安全運行程式碼。程式碼執行隔離在容器中,防止惡意注入;Anthropic強調“僅信任來源”安裝,並提供審計指南。相比純token生成(如排序演算法),程式碼執行更快、更廉價(減少80%+ token消耗),並確保確定性輸出。建立與管理:使用者可通過Claude的“skill-creator”互動式聊天建構技能(非技術使用者友好),或用API的/v1/skills端點版本化管理。Anthropic提供GitHub倉庫(anthropic/skills)和Cookbook範本,加速開發。這一機制源於Anthropic的“憲法AI”原則,確保技能載入符合倫理邊界。總體而言,Skills將Claude從“通用聊天機器人”升級為“模組化代理”,其原理巧妙平衡了靈活性與效率,適用於長時任務(如30小時自主編碼)。2. 競對分析:針對OpenAI和Google的差異化定位Skills並非孤立創新,而是Anthropic在AI代理領域的精準反擊,聚焦企業級可靠性和安全性,與競品形成鮮明對比。當前市場,OpenAI的GPT-4o和Google的Gemini主導通用AI,但代理功能仍碎片化。vs. OpenAI:Skills直接挑戰OpenAI的AgentKit(2025年9月推出),後者依賴工具呼叫建構代理,但易受提示變異影響,導致輸出不穩。Skills的資料夾格式更易分享和版本控制,Anthropic強調“非基準導向,而是企業上下文最佳化”。 2 8OpenAI生態更成熟,但Skills在成本(程式碼執行節省token)和安全性上領先。vs. Google:Gemini的代理更偏基礎設施(如Vertex AI),適合雲整合,但缺乏Skills的“即插即用”簡易性。Anthropic的移動/桌面支援更強,針對中小企業。新興競對:xAI的Grok強調即時搜尋和幽默,但代理功能較弱;Meta的Llama代理依賴開源社區。Skills的封閉生態(市場+SDK)提供更可靠的企業入口。3. 能用來幹嘛:從日常辦公到代理自動化Skills將Claude轉化為“工作專家”,適用於重複性高、精度要求嚴的任務。Anthropic預置了Excel、PowerPoint、Word和PDF技能,使用者可自訂擴展。典型應用包括:文件與資料處理:生成帶公式的Excel報表、PowerPoint演示(e.g., 市場分析幻燈片)、可填PDF表單,或從Notion提取資料。品牌與合規工作流:自訂“品牌指南”技能,確保輸出符合公司風格;金融/醫療場景下,整合合規檢查指令碼。編碼與自動化:Claude Code中載入偵錯技能,自主運行30+小時編碼任務;建構代理鏈,如資料清洗+可視化。整合擴展:與Microsoft 365/Box無縫協作,Canva計畫用Skills定製設計代理。 012 早期反饋顯示,複雜任務從一天縮短至一小時。總體,Skills適合知識工作者和開發者,強調“一次建立,到處使用”。4. 對市場生態的改變:加速智能體時代,注入安全與模組化範式Skills的推出正值AI智能體從炒作轉向落地(2025年市場規模預計超500億美元),它將重塑生態格局。企業級轉型:推動AI從“輔助工具”到“核心代理”,減少提示工程依賴,提升ROI。Anthropic首席產品官Mike Krieger指出,企業已過“AI FOMO”階段,轉向可量化指標;Skills的確定性執行填補這一空白。生態開放與分享:通過marketplace和GitHub,Skills催生“技能經濟”——開發者可售賣/分享模組(如Datasette外掛),類似於App Store,但專注AI工作流。 45 這將刺激開源社區,降低進入門檻。安全與監管影響:Anthropic的沙箱+倫理設計強化AI在高規行業(如金融、醫療)的採用,緩解“黑箱”擔憂,推動標準制定。競爭動態:加劇與OpenAI的“代理戰”,可能迫使競品跟進模組化設計;同時,擴展Claude在中小企業滲透(當前企業使用者佔比30%+)。長期看,Skills或加速“AI技能市場”形成,價值鏈從模型訓練轉嚮應用層創新。 (AI頓悟湧現時)
Google Chrome 終於出手了,我又可以摸魚了
大家好,我是艾倫。最近一直在當全端開發工程師,但開發前端遇到報錯的時候,總是要f12 看介面看各種報錯,然後再截圖給ClaudeCode。流程倒是不長,但就是很繁瑣。前段時間我還在想,Chrome 啥時候能出個能看網頁運行情況的MCP 啊。結果,就在前幾天,答案來了。Chrome 直接推出了一個叫做ChromeDevTools 的MCP。能夠直接在Chrome 瀏覽器中調試網頁,享受DevTools 的調試功能和效能分析能力。讓AI 終於能夠"開眼"寫程式碼了!知道這個MCP 的第一時間我就火速的打開ClaudeCode 進行安裝了。第一步,讓AI 學會登錄,像個真人一樣,能不能完成最基礎的操作。使用的方法很簡單,輸入前端的URL,然後輸入關鍵字"Chrome MCP"就可以將瀏覽器喚醒。然後再輸入我的要求,就可以看到瀏覽器在模擬我們的操作行為。點擊"登錄"按鈕,輸入使用者名稱和密碼,最後再點擊"登錄"。這不僅僅是自動化,這是「可視化」的自動化。它能重現Bug、測試複雜的使用者流程,這對於定位那些偶發性的、難以復現的Bug,價值無可估量。第二步,讓AI擁有“眼睛”,自己檢查工作。如果只是模擬操作,我覺得還不夠驚豔。真正的自動化,我覺得得讓它能自己檢查DevTools,自己檢查工作結果。http://localhost:3000/ 使用Chrome MCP 打開這個頁面,並輸入使用者名稱和密碼super_admin/123456,進入到我的頁面,在帳號設定中將手機號綁定/更換以及設定密碼這兩個填空欄全部刪除。最後核實這次修改是否按照預期進行。當我在最後加上了最後核實這次修改是否按照預期進行。 這句話時,Chrome MCP 會對介面進行一次截圖去檢視和記錄修改的結果。相當於他用自己的"眼睛"幫我們檢查了一遍,真正做到了我前面所說的"開眼"寫代碼。它不再是盲目執行指令的工具,而是一個能驗證結果、有閉環思維的夥伴。第三步,從前端開發到效能分析優化。Chrome MCP 在前端開發上的能力還遠不如此。我們還能讓它自動進行效能追蹤分析,診斷具體的效能瓶頸,例如過高的LCP(最大內容繪製)指標等。這個前端的終極難題,我現在把它拋給Chrome MCP。前端的頁面載入有點慢,Chrome MCP 去分析原因,讓它變快一些,再給我一個效能瓶頸的報告。Chrome MCP 發揮了它的優勢,我也直接一大個解放。再也不需要打開Chrome DevTools 效能介面去看渲染、指令碼執行、網路請求等耗時點了。現在Chrome MCP 自動幫我分析,找到了問題並直接上手改代碼。最後,一份詳盡的效能優化報告自動產生。我需要做的,僅僅是檢查一遍它的修改,然後提交。模擬器- 有"眼睛"的測試員- 性能優化專家。Chrome MCP 的出現,可以說徹底的改變了前端開發的方式,也可能徹底改變了前端開發者的命運。從繁瑣、重複的實現細節中解放出來,將更多精力投入更高維度的思考:系統架構的設計、業務邏輯的梳理、產品體驗的創新等。我們不再是那個需要時刻盯著儀表板的司機,而更像一個設定好目的地,並信任副駕駛能處理好路上一切狀況的領航員。讓機器做機器擅長的事,讓人回歸人擅長的創造。我想,這便是這場技術革命,帶給我們開發者最激動人心的未來。(阿倫AI工具庫)
多角度全面對比Google最新的A2A、ANP、MCP
Google剛剛發佈了一個新的智能體通訊協議A2A(Agent to Agent),本文會從多個方面全面對比A2A、ANP、MCP。解決的問題ANP和A2A都是為瞭解決智能體之間的通訊問題,都看到了MCP在智能體通訊上的侷限性:MCP更加擅長於讓模型連接工具與資源。同時,ANP和A2A都認為自己是和MCP互補的。ANP與A2A則有很大的重合,之所以不是百分比重合,是因為看下來,A2A好像想解決的是企業內部的智能體協作,雖然官網沒有明確地說明這一點,但是我從他們的設計中能夠感受到這一點,特別是在Task的設計上。設計原則在設計原則上,ANP與A2A有很多相似之處:強調簡單,並且復用現有的協議。強調身份,智能體身份是ANP最核心的模組。解耦(不透明):智能體不必共享思考過程、計畫或工具。這是ANP、A2A與MCP在設計細節上最大的區別。A2A應該也看到了MCP的複雜性,選擇使用Task來作為核心的概念,Task確實是比Tools、Resources更加抽象,更高level的概念。MCP的Tools和Resources也是非常適合MCP的概念,但是sampling、root的設計我認為需要斟酌一下。協議架構ANP與A2A在協議架構上都可以看做P2P架構。MCP是典型的C/S架構,不單單是連接上,也包括協議的概念、角色設定上。無疑P2P架構更適合智能體網路。傳輸層都支援HTTP,除此之外,MCP由於需要訪問本地資源,為了方便,還支援stdio。核心概念MCP的核心概念是Tools、Resources、Sampling、Root、Prompts。A2A的核心概念是Task、Artifact(工件)、Message、Part。ANP的核心概念是Interface:包括NaturalLanguageInterface(自然語言介面)、StructuredInterface(結構化介面)。ANP是將智能體互動方式的定義下放到了Interface中。比如,Interface可以是一個預訂酒店的API,這個API直接返回結果。也可以是類似A2A的Task,在Interface中定義Task的狀態。但是在協議層,我們沒有直接顯式的定義Task以及狀態。從不透明程度看:MCP是白盒,能夠查看對方內部的檔案、工具、資源等資訊A2A是灰盒,雖然不共享智能體的思考過程、計畫或工具,但是仍然定義了智能體之間的任務,以及任務的狀態等ANP是黑盒,兩個智能體完全不透明,只交付最終結果。同時保留靈活性。智能體身份這塊的差異非常的大。ANP協議本身會攜帶身份資訊、身份驗證資訊,目前主要是使用W3C的DID方案,一個智能體可以用自己的身份資訊,與其他所有的智能體進行互動,不必在其他智能體平台申請帳號。我們認為DID是最適合智能體的身份方案,特別是在網際網路場景下。當然也可擴展其他的身份認證方式。A2AA2A採用OpenAPI支援的認證方式,包括:HTTP 認證(如 Basic、Bearer)、API Key(可放在要求標頭、查詢參數或 Cookie)、Cookie 認證、OAuth 2.0 以及 OpenID Connect。A2A協議本身不攜帶身份資訊,只攜帶身份驗證資訊,身份驗證資訊在帶外獲得,即在A2A協議之外通過其他的手段獲得,比如通過Oauth。A2A的設計使其能夠充分利用企業現有的身份體系。但是,在智能體網際網路的場景中,如果要實現任意智能體之間的連接,A2A用起來會麻煩一些。MCPMCP使用Oauth做的身份驗證,也是一個中心化的方案,在連接工具和資源這個場景是適合的。智能體描述ANP與A2A比較類似,都是使用JSON。A2A的智能體描述文件命名為Agent Card,本質上是一個json文件。ANP的智能體描述則是基於JSON-LD和schema.org,這是語義網的技術,目的是提高兩個智能體對資訊理解的一致性。智能體發現MCP的發現規範還沒有看到,不過大機率用和ANP、A2A類似的發現機制。ANP和A2A都是基於RFC 8615做的,相當於在一個域名的.well-known目錄下增加一個中繼資料文件,A2A的檔案名稱是agent.json,ANP的檔案名稱是agent-descriptions。使用這個方案,都可以被搜尋引擎非常方便地抓取到。智能體資訊組織在智能體或者MCP server對外的資訊組織上,A2A和MCP都使用的是JSON-RPC,類似一種遠端呼叫技術。ANP在這裡比較獨特,ANP採用的是語義網的Linked-Data技術,目標是建構一個便於AI訪問和理解的AI原生資料網路。從這個角度看,ANP的技術路線更加靠近Web,我們認為未來的智能體網際網路是一個非常開放的網路,只有這樣才能夠讓資訊自由地流動,進而釋放AI的能力。開源licenseANP的license是MIT,Google-A2A的license是Apache 2.0。我仔細研究了一下,後面如果要推到大廠、參與標準化、走國際化路線,Apache 2.0 會是企業法律部門優先認可的協議。MIT 雖然簡單,但在你這種有專利潛在風險和商業化路徑的協議項目裡,容易被企業法律團隊卡住。開源許可上ANP會修改為Apache 2.0。趨勢雖然說A2A號稱與MCP是互補的,但是在閱讀文件的過程中,我隱約看到一個可能:工具Agent化,Agent工具化。現有的工具,是否可以進化成一個Agent?未來的Agent,是否也是一個工具?如果從這個角度看,MCP和A2A,包括ANP,應該會有一定的重疊。對行業智能體協議的影響MCP已經成為模型連接工具與資源的事實標準,A2A短期是難以撼動的。不過對於ANP是有很大的影響的。好的影響是,讓智能體通訊與協作被更多的人看到。之前MCP火的時候,我們去講ANP,很多人是不理解的。現在我們不用再強調智能體通訊協作的重要性了。壞的影響是,A2A和ANP有很大部分功能是重疊的,A2A背靠Google,影響力非常大,ANP主要靠開源社區,影響力無法比。這對ANP的發展是不利的。最後ANP最有價值的部分,其實是社區對未來智能體網際網路的設想,社區獨特的網際網路理念(連接即權力),以及DID+語義網的技術路線。 (長山的隨筆)
全球首個開源MCP交易平台撬動百億美元市場,獲數千萬融資|早期項目
硬氪獲悉,近期,深圳銀雲資訊技術有限公司(簡稱“深圳銀雲”)推出的全球首個開源MCP交易平台—XPack.AI正式上線。截止目前,深圳銀雲已完成Pre-A輪、A輪融資,獲數千萬元融資,投資方為紅杉資本和國宏嘉信。公司創立於2017年。創始人劉昊臻具備10年API行業經驗,是Linux Tars基金會成員,團隊亦在API領域積累豐富的技術和行業經驗,陸續推出Eolink、XRoute.AI等產品。其中,Eolink已是國內最大的API全生命周期治理平台,服務了100多萬開發者使用者,管理的API數量達20億個,業務涵蓋API研發管理、自動化測試、閘道器資料打通等領域。2024年,全球API交易市值約180億美金,到2030年可能接近500億美金,但在Anthropic發佈MCP協議,OpenAI、微軟、阿里雲、騰訊雲紛紛跟進搭建MCP平台、上線服務後,局面發生了根本性變化,市場至少比API大100倍。“AI時代應該會有一個平台,將所有第三方資料、工具、服務轉換為卡片並通過AI Agent分發給全球使用者。”Eolink、XPack.AI創始人劉昊臻說。正是看到MCP這種統一連接範式的前景,今年劉昊臻迅速帶領團隊開發新產品,推出MCP服務交易平台XPack.AI。據瞭解,這是全球首個開放原始碼的MCP交易平台,它既可以為開發者找到目標使用者,實現獲益、獲客的良性循環,也能為AI Agent找到服務資料,有效解決目前MCP生態不繁榮、缺少利益動力的痛點。目前任何MCP、SaaS軟體和API的開發者,通過開源版本的XPack.AI,10分鐘內就能從0到1部署一個MCP交易平台,並且將自己已有的API一件轉換為MCP並定價銷售。XPack目前也推出了線上版本,任何人都可以免費註冊帳號,在30秒內建立並且銷售自己的MCP,還可以為設定自己的域名,將其變成一個獨立的MCP交易站。後續XPack還會提供一鍵將任何網站轉換為MCP的服務,幫助內容創作者將內容轉換為MCP並接入全球AI。服務推廣方面,使用者在開源版或線上版建立MCP站點後,獨立站會在XPack官網、社交媒體及MCP發佈管道公開展示,提高站點曝光。開發者不需要自己投流,平台後續會做大量的SEO、通過KOL傳播、投流廣告,幫使用者推廣。並且,每個站點相對獨立,可設定自己的域名、品牌、logo,不會出現XPack.AI相關資訊。XPack.AI會重點關注三類供應商:其一是垂直領域的SaaS公司,可以將SaaS的功能通過MCP接入AI,或者將SaaS產品內脫敏的資料提供給AI Agent完成更複雜的任務;二是即時資料來源,可提供金融、天氣、物料、媒體等即時資訊,彌補大模型即時資料獲取能力的不足;三是垂直工具型API,比如能提供專業設計、多模態生成、資料分析等細分領域服務,填補大模型在相關領域的能力短板。面對同大廠競爭的問題,劉昊臻認為,XPack.AI屬於中立平台,全球各種語言、地區的MCP都可以入駐,而大廠出於自身品牌、定位及戰略考量,採用的資料來源有限,且MCP服務更多是其售賣AI Agent或大模型的附屬,“MCP提供者也不會只把服務放在一個市場,我們中立同時,又能做全球化連結。”劉昊臻介紹,今年,公司目標是對接100家以上AI agent產品,擁有超10萬個第三方MCP獨立站,吸引供應商1w+,接入50+主流Agent應用。除了已有的API轉MCP,之後還會推進網站、內容轉MCP,豐富平台的SKU,建立完整的MCP服務生態。 (硬氪)
微軟重磅佈局AI作業系統!Windows將迎來“智能體革命”
微軟正悄然醞釀一場作業系統革命!繼去年推出Copilot Plus PC和Windows AI功能後,這家科技巨頭近日宣佈將深度整合Model Context Protocol(MCP)協議,並推出全新Windows AI Foundry平台,目標直指打造“AI代理原生”的未來Windows系統。🚀 微軟的野心:讓Windows成為AI代理的“主戰場”“我們希望Windows進化成一個AI代理深度參與的系統,”微軟Windows部門負責人Pavan Davuluri在專訪中透露,“使用者將通過智能體與裝置持續互動,這將成為未來操作的核心模式。”這場變革的關鍵,正是被業界稱為“AI應用的USB-C介面”的MCP協議。Windows如何提供原生MCP支援 (圖源:微軟)這個由Anthropic提出的開源標準,如同USB-C統一了裝置介面,MCP將讓AI應用、服務與作業系統無縫連接。微軟的加入,意味著Windows將首次為AI智能體開放底層功能存取權。🔌 MCP是什麼?AI應用的“萬能介面”想像一下:▶️ 你的AI助手能直接呼叫Windows檔案系統,無需手動選擇資料夾▶️ 在Excel中通過自然語言查詢網頁資料,自動生成分析報表▶️ 跨應用協作:讓AI同時操作日曆、郵件和文件這正是MCP的魔力。微軟演示中,AI搜尋工具Perplexity通過MCP直接連接Windows檔案系統,使用者只需說“尋找我文件中所有度假相關檔案”,AI就能自動完成搜尋——就像給電腦裝上了“數字大腦”。🔒 安全挑戰:微軟的“三重防護網”開放介面也意味著風險。微軟安全副總裁David Weston坦言:“我們正把大語言模型視為‘不可信元件’。”為此,他們設計了三層防護:1.MCP登錄檔所有AI服務需通過安全認證才能接入系統2.動態權限管理每次AI呼叫功能時,使用者會收到類似“應用請求位置權限”的提示3.攻擊防禦機制防止令牌竊取、服務入侵和提示詞注入等新型攻擊“這有點像Windows Vista的UAC彈窗,但我們會找到安全與便利的平衡點,”Weston強調。微軟正與AMD、英特爾、輝達等晶片巨頭合作,確保從硬體到應用的全方位安全。🏭 Windows AI Foundry:開發者“智能工廠”伴隨MCP協議,微軟還推出了Windows AI Foundry平台,整合:✅ 本地化AI模型庫(Foundry Local)✅ 第三方模型市場(支援Ollama、NVIDIA NIM等)✅ 開發者工具鏈(Windows ML簡化部署流程)Windows AI Foundry 平台(圖源:微軟)開發者無需打包複雜執行階段環境,就能直接呼叫PC硬體的AI算力。這意味著未來我們可能看到:🎮 遊戲AI即時分析玩家習慣,自動調整難度💻 辦公軟體自動生成會議紀要+行動清單📊 設計軟體通過語音指令完成複雜操作🌍 作業系統的新戰場:從“人機互動”到“智能體協作”微軟的佈局預示著作業系統的新紀元:當AI代理能像人類一樣作業系統,PC將從“工具”進化為“合作夥伴”。這條路註定充滿挑戰——既要打破應用壁壘,又要防範安全風險,還要避免像UAC彈窗那樣幹擾使用者體驗。 (元透社)
繼火爆全網的MCP後,Anthropic 推出全新整合功能,Claude再添連接利器
五一快樂(最近很多朋友反應不能及時看到內容更新,只有關注並且⭐️才會第一時間收到更新)Anthropic 宣佈推出全新的功能:Claude 現在能夠與使用者的各種工具和應用進行無縫連接。這一功能名為 Integrations,通過該功能,Claude 能夠訪問並執行更多複雜任務,顯著提升其協作能力整合功能:無縫連接各種應用早在 2024 年 11 月,Anthropic 發佈了 模型上下文協議(Model Context Protocol,簡稱 MCP),這是一個開放標準,旨在將人工智慧應用與不同工具和資料來源進行連接。MCP已經火遍全網了,各大公司紛紛宣佈支援,但到目前為止,MCP 僅支援 Claude Desktop 通過本地伺服器工作,現在,隨著 Integrations 功能的推出,Claude 能夠通過 Web 和桌面應用與遠端 MCP 伺服器無縫協作這意味著,開發者可以建構和託管能夠增強 Claude 功能的伺服器,而使用者則可以通過整合任意數量的工具,進一步拓展 Claude 的能力通過這些整合,Claude 不僅能深刻理解你的工作內容,比如項目歷史、任務狀態以及組織知識,還能夠跨平台執行任務,成為一個更加智能的協作夥伴。在此基礎上,Claude 能夠幫助你在一個地方執行複雜的項目,提供專家級的協助目前,使用者可以選擇連接10個熱門服務,包括 Atlassian 的 Jira 和 Confluence、Zapier、Cloudflare、Intercom、Asana、Square、Sentry、PayPal、Linear 和 Plaid 等工具。未來,還將有更多來自 Stripe 和 GitLab 等公司的整合開發人員還可以使用官方文件或 Cloudflare 等提供內建 OAuth 身份驗證、傳輸處理和整合部署的解決方案,在短短 30 分鐘內建立自己的整合增強的研究能力:更深入的調研與報告除了整合功能外,Claude 的 研究能力(Research)也得到了極大的提升。通過這一新功能,Claude 能夠更深入地研究多個內外部資料來源,為使用者提供詳細且權威的報告。Claude 目前可以在 5 到 45 分鐘 內完成複雜的研究任務,而通常這些工作需要幾小時的人工調研在新的研究模式下,Claude 會將一個請求拆解成多個小部分進行深入研究,並在報告中明確標明來源,確保每一條資訊都有確鑿的出處,增強研究結果的可靠性。隨著 Integrations 功能的加入,Claude 不僅能夠訪問 web 搜尋和 Google Workspace,還可以通過連接任何應用來進一步拓展資料訪問能力。如何開始使用:適用於不同計畫目前,Integrations 和 高級研究 功能正在 Max、Team 和 Enterprise 計畫中測試,並將很快在 Pro 計畫中推出。同時,全球所有付費計畫的使用者現在都可以使用 Web 搜尋 功能。通過這些新功能,Claude 不僅成為了一個更強大的研究工具,還能在工作流中發揮更多作用,幫助使用者更高效地完成任務 (AI寒武紀)
阿里Qwen3深夜開源!8款模型、整合MCP,性能超DeepSeek-R1,2小時狂攬16.9k星
開源大模型新王!Qwen3連發8種規格支援119種語言。阿里通義大模型新成員Qwen3系列模型終於亮相!智東西4月29日報導,今日凌晨4點,阿里雲正式開源Qwen3系列模型,包含2個MoE模型、6個稠密模型。發佈2小時,Qwen3模型在GitHub上的star數已超過16.9k。其中旗艦模型Qwen3-235B-A22B,在程式設計、數學、通用能力等基準評估中的表現優於DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3和Gemini-2.5-Pro等業界知名模型。此次全新升級的Qwen3系列有以下5大關鍵特性:8種參數大小的稠密與MoE模型:0.6B、1.7B、4B、8B、14B、32B和Qwen3-235B-A22B(2350億總參數和220億啟動參數)、Qwen3-30B-A3B(300億總參數和30億啟動參數);引入混合思考模式:使用者可切換“思考模式、“非思考模式”,自己控制思考程度;推理能力提升:在數學、程式碼生成和常識邏輯推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下);支援MCP(模型上下文協議),Agent能力提升:可以在思考和非思考模式下實現大語言模型與外部資料來源和工具的整合,並完成複雜任務;支援119種語言和方言:具備多語言理解、推理、指令跟隨和生成能力。目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上開源,均遵循Apache 2.0許可證。在部署方面,其部落格提到,建議開發者使用SGLang和vLLM等框架,並推薦本地部署的開發者使用Ollama、LMStudio、MLX、llama.cpp等工具。值得一提的是,Qwen3模型採用了不同的命名方案,後訓練模型不再使用“-Instruct”後綴,基礎模型的後綴是“-Base”。體驗地址:https://chat.qwen.ai/部落格地址:https://qwenlm.github.io/blog/qwen3/GitHub地址:https://github.com/QwenLM/Qwen3Hugging Face地址:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f01.以小搏大!啟動參數僅1/10 實現性能反超6個稠密模型中,0.6B~4B參數規模的模型上下文長度為32K,8B~32B參數規模的模型上下文長度為128K。2個MoE模型的上下文長度均為128K。小型MoE模型Qwen3-30B-A3B,在啟動參數是QwQ-32B的1/10的情況下,實現了性能反超。且參數規模更小的Qwen3-4B模型,實現了與Qwen2.5-72B-Instruct的性能相當。其他基準測試評估結果顯示,Qwen3-1.7B/4B/8B/14B/32B-Base的性能分別與Qwen2.5-3B/7B/14B/32B/72B-Base相當。其部落格還特別提到,在STEM、程式設計和推理等領域,Qwen3稠密模型的性能甚至優於參數規模更大的Qwen2.5系列模型。▲Qwen3系列與Qwen2.5系列基準測試對比02. 引入混合思考模式支援119種語言、MCP協議Qwen3系列模型的關鍵特性包括引入混合思維模式、支援119種語言和方言、整合MCP協議以提升Agent能力。其中,混合思維模式指的是支援思考和非思考兩種模式。思考模式下,模型會逐步推理,花費時間給出最終答案,這適用於需要深入思考的複雜問題;非思考模式下,模型提供快速、幾乎瞬間的響應,適用於對響應速度敏感的問題。▲思考和非思考模式對比這使得使用者可以根據任務需求控制模型進行的“思考”程度。例如,對於更難的問題可以使用擴展推理來解決,而對於較簡單的問題則可以直接回答,無需延遲。此外,這兩種模式的整合還增強了模型實施穩定和高效思考預算控制的能力,這種設計使使用者能夠組態特定任務的預算,平衡實現成本效率和推理質量。在多語言方面,Qwen3模型支援119種語言和方言。此外,Qwen3系列模型在程式設計和Agent能力方面性能提升,整合了MCP協議。03. 預訓練資料集翻番 模型兼顧逐步推理、快速響應與Qwen2.5相比,Qwen3的預訓練資料集大小翻了兩倍。Qwen2.5在1800億個token上進行預訓練,Qwen3基於大約3600億個token進行預訓練。為了這一大型資料集,研發人員收集了網路資料、PDF文件資料等,然後使用Qwen2.5-VL從這些文件中提取文字,並使用Qwen2.5提高提取內容的質量。同時,為了增加數學和程式碼資料量,研發人員使用了Qwen2.5-Math和Qwen2.5-Coder來生成教科書、問答對和程式碼片段等合成資料。預訓練過程分為三個階段:在第一階段,模型在超過3000億個token上進行了預訓練,上下文長度為4K個token。這一階段為模型提供了基本語言技能和一般知識;在第二階段,其通過增加STEM、程式設計和推理任務等知識密集型資料的比例來改進資料集,並讓模型在額外的500億個token上進行預訓練;第三階段,研發人員使用高品質的長上下文資料將上下文長度擴展到32K個token,使得模型可以處理較長的輸入。在後訓練階段,為了開發既能逐步推理又能快速響應的混合模型,研發人員採取了四階段訓練流程:思維鏈(CoT)冷啟動、基於推理的強化學習、思維模式融合、通用強化學習。第一階段,其使用多樣化的長思維鏈資料微調模型,涵蓋各種任務和領域,如數學、程式設計、邏輯推理和STEM問題,這個過程旨在使模型具備基本的推理能力。第二階段專注於擴大強化學習的計算資源,利用基於規則的獎勵來增強模型的探索和利用能力。第三階段,通過在長思維鏈資料和常用指令微調資料組合上微調,將非思考能力整合到思考模型中。這些資料由第二階段增強的思考模型生成,確保推理能力和快速響應能力的無縫融合。第四階段,其將強化學習應用於超過20個通用領域任務,包括指令遵循、格式遵循和Agent能力等任務,以進一步增強模型的一般能力和糾正不良行為。04. 結語:Agent生態爆發前夜最佳化模型架構和訓練方法推進智能升級通過擴大預訓練和強化學習的規模,可以看到Qwen3系列模型以更小的參數規模實現了更高的智能水平,其整合的混合思考模式,使得開發者能更靈活控制模型預算。研發人員還提到,未來其將圍繞以下幾個維度繼續提升模型能力:最佳化模型架構和訓練方法,以實現擴展資料規模、增加模型大小、延長上下文長度、拓寬模態的目標,並通過環境反饋推進長期推理的強化學習。如今,AI產業正從關注模型訓練的時代過渡到一個以訓練Agent為中心的時代,未來大模型能力的實際應用價值將逐漸被放大,通義大模型系列也正以此為目標繼續推進升級。 (智東西)
百度開發者大會:一口氣九個重磅發佈,全方位支援MCP,百度在大模型應用時代的出招與押注
4月25日,一年一度的百度開發者大會會場如約到來,這是中國國內首家AI巨頭在後DeepSeek時代的全新產品的公開亮相。進入2025以後,李彥宏帶領下的百度正在如何思考新的AI應用形態?百度在AI應用爆發時代都做了那些準備?開發者都有那些機會和方向值得關注?非常值得各位細細研究一番。“模型的世界、應用的天下。”百度創始人李彥宏在主題演講中,一口氣發佈了9款新發佈。 主打多模態、強推理和低成本的文心大模型4.5 Turbo和推理模型X1 Turbo,全球首個內容領域作業系統滄舟OS、高說服力的直播數字人、秒噠、通用多智能體協作App心響發佈、全面擁抱MCP的百度新宣發、百度AI開發計畫,可以說把百度的一季度的成績單全都公開了。當然,最為震撼的、最重磅的發佈,百度全鏈路自研的崑崙芯3萬卡叢集的彩蛋!相信大家看完下面的幾個發佈後,都會有所思考。話不多說這就為大家逐一梳理下精彩看點。01. 從文心大模型X1,看後DS時代的模型研發走向:多模態、強推理、低成本Deepseek R1發佈之後,可以說將全球模型研發的節奏打亂了,比如說OpenAI都被影響到了,新模型版本號的混亂命名就是一個好的證明,甚至連此前的一些AI應用的壁壘被先進的大模型打沒了。那百度作為國內首家發佈對標GPT4的模型廠商而言,如何思考接下來AI界的研究方向呢?李彥宏給出了一個堅定的訊號::找對場景、選對基礎模型、會調模型,應用就不會過時。“針對模型迭代太快,應用價值是否會被覆蓋的行業疑慮,只要找對場景、選對基礎模型、會調模型,做出來的應用就不會過時。而隨著模型能力的增強,大模型和應用場景結合的機會將越來越多,能夠滲透場景、帶來實在價值的AI應用,是屬於開發者的真機會。”而對於百度模型的研究方向,李彥宏也通過正式發佈的文心大模型4.5 Turbo和文心大模型X1 Turbo給出了答案。這兩款模型主打這三個特性:多模態、強推理、低成本。他表示,當下的部分模型,仍然存在模態單一、幻覺高、速度慢和價格貴等問題。百度發佈這兩款新模型,正是為瞭解決這些問題。其中,性能更優、價格更低的文心大模型X1 Turbo,每百萬token輸入價格1元,輸出價格4元,僅為DeepSeek-R1的25%。據悉,文心大模型X1 Turbo是基於4.5 Turbo的深度思考模型,性能提升的同時,具備更先進的思維鏈,問答、創作、邏輯推理、工具呼叫和多模態能力進一步增強,整體效果領先DeepSeek R1、V3最新版。篇幅關係,這裡曬一下官方提供的幾個測評實例,可謂非常amazing:02. 李彥宏看好的突破性AI應用:高說服力數字人主播錄製2分鐘,讓人人都能當主播數字人直播在近兩年來一直火爆,那麼AI大模型加持下的數字人究竟可以做到什麼水平呢?李彥宏會上發了一項突破性十足的高說服力數字人,即聲形超擬真、內容更專業、互動更靈活,實現數字人超越真人體驗,能在電商直播、遊戲、消費等領域發揮巨大價值。李彥宏表示,高說服力數字人超越真人主要歸功於百度慧播星背後的“劇本生成”能力,實現口播指令碼與數字人表情、語氣、動作的高度融合,以及順暢的情緒轉折和動作切換,表現“超擬真”。另外,高說服力數字人還具備“AI大腦”,能根據直播間即時熱度和轉化情況,靈活調度助播、場控、營運等角色共同促進轉化,譬如適時切換鏡頭畫面、調度圖片、視訊素材,真正實現了一個人就是一個行銷團隊。目前,百度慧播星已上線“一鍵克隆”功能。使用者只需錄製一條最短2分鐘的直播視訊上傳訓練,即可擁有自己的專屬數字人,人人都能做主播。03. 全球首個內容作業系統:“滄舟OS”百度文庫AI月活使用者近1億緊接著,在百度Create大會現場,李彥宏拋出了第二款看好的方向:多模態內容創作工具。眾所周知,百度文庫、百度網盤一直是李彥宏推崇的百度內部應用的場景重地。這次,李彥宏直接拋出了百度文庫、百度網盤聯合推出的全球首個內容領域作業系統 :滄舟OS。這款作業系統以Chatfile Plus為核心元件,對多模態內容進行解析和向量化處理。亮點可以理解成“三庫”和“三器”——三庫是指:公域知識庫、私域知識庫、記憶庫,三器則是:閱讀器、編輯器、播放器。兩者可根據使用者需求被大模型組合呼叫。此外,滄舟OS整合百度文庫、網盤已被數億使用者驗證過的數百項AI Agent,生成模態涵蓋了圖文影音等各種類型。同時,依託滄舟OS,百度網盤和百度文庫聯合推出“AI筆記”,是業內唯一的多模態AI筆記,使用者在網盤內觀看學習視訊時,可一鍵生成全面、清晰、結構化的AI筆記,還能生成AI思維導圖、基於視訊內容AI出題,實現視訊和筆記在同介面的絲滑聯動。未來,百度文庫和網盤將基於滄舟OS持續推出更多更好用的AI功能,成為AI時代聰明又能幹的“超級生產力”。截至目前,百度文庫的AI功能付費使用者已超4000萬,AI月活使用者達到9700萬;百度網盤AI月活使用者超過8000萬。其實,在視覺模型方面,李彥宏,還特別提到了自動駕駛,他認為這是一個視覺大模型的典型應用。李彥宏透露,目前安全、舒適、便捷的無人駕駛的理念正在為世界各國逐漸接受,百度將會將蘿蔔快跑等無人駕駛應用在全球持續擴大規模。我相信,在不久的將來,世界上各個國家、各個城市,不同種族的人都能夠享受到無人駕駛的安全、舒適和便利。04. 智能體已成AI應用的代名詞,新品心響發佈:AgentUse是看點大概在一年前,別人問我最好看最這個最看好的 AI應用方向是什麼,當時我說是智能體,但那個時候這是個非共識,但現在僅僅一年不到,智能體幾乎已經成為了 AI應用的代名詞。”李彥宏首先肯定了近半年以來程式碼智能體的火熱。“全世界只有三千萬的程式設計師,卻要服務的人口卻是80億。每個公司都需要依賴程式碼智能體來完成任務。”這方面,百度其實很早就做了佈局。針對技術人員推出了文心快碼Comate、而針對非技術人員則推出了具備無程式碼、多智能體、多工具呼叫特性的秒噠,都是為瞭解決這個問題。有了秒噠,可以讓果農開發賣蘋果的應用,蘇州繡娘工作室可以開發蘇繡AI博物館等等,這些都是非常有想像空間的事情。不過這還沒完,這次李彥宏還帶了一款新的通用多智能體協作應用,可以一句話解決複雜任務「心響」,更難得的是,全民免費可用。據介紹,「心響」是一款以“AI任務完成引擎”為核心的通用超級智能體產品,通過自然語言互動幫助使用者實現複雜任務拆解、動態執行與可視化結果交付。已覆蓋深度研究、智慧圖表、遊戲開發等十大場景超200個任務,目前產品已上線Android版,iOS正在上架中。具體任務上看,目前心響App已上線了包括例行任務、城市旅遊、AI相親、深度研究、法律諮詢、健康諮詢、智慧圖表、試題講解、AI繪本、遊戲開發在內的十大場景超200個任務類型,未來計畫將任務類型擴展到10萬以上。還有一個非常讓開發者備受期待的功能:該應用開放了外部 MCP 呼叫,並獨創Agent Use多智能體協作機制。除了常見的外部 MCP 工具呼叫(Tool Use),在健康、法律等專業場景中,它還實現了「多智能體協作」(Agent Use)機制。比如,面對健康諮詢時,系統可自動調度多位“醫生AI分身聯合會診”;在法律服務中,則支援由多個律師AI分身組成的“律師智囊團”協同答覆與服務。「心響」App負責人黃際洲用一句話表達了該產品的願景:難題交給心響、時間交給生活。05. 開發者的又一福音 百度的AI開放計畫:全方位擁抱MCP眾所周知,找場景是PM或者創業者的命題範疇,而找到場景如何開發才是真正的AI開發者所關心的。李彥宏對這些開發者們普遍難題做了梳理:比如使用工具方面,缺少統一的規範,開發效率不夠高,需要反覆去適配各種不同類型的平台,耗時耗力。再比如開源社區中提供的工具和元件良莠不齊,整合和維護的難度很大等等。那解決這一問題的良藥就是大家都遵循一項標準。MCP協議則成了當下大家更認可的選擇。李彥宏認為,MCP協議提供了全新的解決思路,它就像是給AI裝上了一個萬能插座,開發者不再需要啊為每個工具在編寫定製化的程式碼。只要按照 MCP的標準編寫一次介面即可,大大降低了開發的負擔。基於此,李彥宏宣佈:百度搜尋開放平台·AI開放計畫(sai.baidu.com)正式發佈。這也意味著,百度搜尋將在AI時代更加開放,擁抱智能體、H5、小程序、獨立App等不同形態的AI應用,建立多樣的內容和服務分發機制,不僅為使用者提供最新最全的AI服務,更為開發者提供流量和收益。同時,百度搜尋將全面索引市場上的各類MCP server,為開發者提供最全的開發工具。此外據介紹,目前百度搜尋開放平台已率先接入AI面試助手、專業醫學諮詢、視覺內容製作等領域的一批應用,未來歡迎更多應用開發者加入AI開放計畫。06. 全球首個電商交易MCP、搜尋MCP伺服器這次百度開放計畫誠意滿滿,李彥宏在會上發佈了全球首個電商交易MCP、搜尋MCP等MCP server,供開發者呼叫。據介紹,百度最佳化了文心基礎大模型,提升了模型在使用MCP server時的任務規劃和調度能力;百度智能雲千帆大模型平台已率先全面相容MCP,不僅提供大量第三方server,也支援開發者建立和發佈MCP server;百度搜尋建構了MCP server發現平台,可索引全網優質的server;文心快碼,成為國內首個支援MCP server的智能編碼助手;百度的商品檢索、商品交易、商品詳情、商品參數對比、商品排行榜能力等也已經通過百度電商的MCP server對外提供,這是國內首家支援電商交易的MCP服務;百度文庫、百度網盤、百度地圖等應用全面對外提供MCP Server服務。最重要的是,文心大模型使用的聯網搜尋工具也變身為百度搜尋MCP server供開發者呼叫,“這是目前市場上最好的搜尋MCP”李彥宏強調。他表示,百度將持續加大對MCP的支援,推動更多應用和服務介面相容MCP。07. 未來5年,百度再培養1000萬AI人才最高獎金達7000萬元,“文心杯”創業大賽啟動這還沒完,既然是開發者大會,李彥宏為此還特別宣佈了利多AI應用開發的兩件真金白銀的大事:一件是正式啟動第三屆“文心杯”創業大賽,將進一步加大對創業者的支援力度,單一項目的獲獎金額將翻倍,特別大獎的投資額最高可達7000萬元。另一件事,則是百度繼續堅持在AI人才培養投入資源和成本,且一直為開發者提供模型、開發工具,以及資金和資源等多方面的支援。5年前,百度提出的500萬AI人才計畫已在2024年提前完成。會上,李彥宏宣佈未來5年,百度將加大力度,再為社會培養1000萬AI人才。08. One more thing:最重磅的首個國產3萬卡叢集試問國產萬卡叢集誰能建?百度肯定少不了。這可以說是全場最為重磅、最為激動人心的發佈!會上,作為主題演講最後的壓軸發佈,李彥宏非常自豪的宣佈:百度點亮國內首個全自研的3萬卡叢集。李彥宏激動的解釋道:3萬卡叢集意味著什麼?它意味著可同時承載多個滿血版DeepSeek滿血版等千億參數大模型的全量訓練,可以支援1000個客戶同時做百億參數的大模型精調。建構萬卡叢集難在那裡?“其實從硬體到軟體,這個挑戰是全方位的。百度的百舸易購計算平台為瞭解決這些問題啊,發揮了至關重要的作用。”據瞭解,該叢集建設了超大規模的高性能網路,能夠保證大規模叢集執行訓練任務時的穩定性,創新性地設計了顯著降低能耗的散熱方案。09. 百度的底氣,也讓中國AI開發者看到了底氣全程1個小時,可以說既有百度僅半年以來的新模型、新內部應用的成績亮相,也有誠意滿滿的AI開放計畫、創業者扶持計畫、人才培養計畫的堅定決心,讓大家看到了一個大模型不如推理階段下,不斷探索前行的百度。“所有這些發佈都是為了讓開發者們可以不用擔心模型的能力,不用擔心模型的成本,更不用擔心開發工具和平台,可以踏踏實實的做應用,做出真正的好的應用。”“讓每個需求都有迴響,讓每次互動都產生心跳,讓每個創新都能夠引爆浪潮。”這句話,可以說作為廠長李彥宏長達1小時的主題發佈的初衷和總結,非常恰當。期待更多中國開發者在AI應用上的千帆競發,也慶幸中國模型廠商為此付出的不懈努力!百度的底氣,從某種程度上看,也讓中國AI開發者看到了中國先進技術的底氣! (51CTO技術堆疊)