鏖戰AI Agents:矽谷修路,中國造車

基於當下修路還是面向未來造車。

AI Agent產業的全球圖景,中國和矽谷正走上兩條路線。

矽谷正逐步拆掉影響Agent發展的牆,從0-1的建立規則。從Anthropic推出了MCP開放協議,統一了大模型連接應用的方式,到Google發布名為Agent2Agent(A2A)的全新開放協議,建立了Agent與Agent之間的對話語言。越來越多的網路公司開始加入MCP陣營,包括Anthropic的老對手OpenAI,矽谷超過2000+企業,國內阿里百煉平台、魔搭開發社區開始建構基於MCP的平台,騰訊雲、百度雲等雲平台也在陸續加入。

看起來節奏清晰井然有序。

而國內的AI Agent領域,則顯得更加躁動。一邊Manus以「全自動Agent」的故事引爆資本熱潮,另一邊則是曾經的行業獨角獸瀾碼科技遭遇發展危機,被曝出停薪資、停社保已經超過三個月,並於近期對數十名員工解除勞動合約。

「Manus爆火後,投資人把相關文章甩給我們質問『人家這麼牛,你們為什麼不行?』」某Agent公司創始人在收到如此詢問時,她甚至找不到合適的語言向資方解釋,什麼是模組「縫合怪」。但與此同時,這種混亂又在給他們帶來實打實的新增訂單需求。客戶不再問AI Agent是什麼,而是直接提需求下訂單。

它們都指向一個重要的信號:Agent行業正從“概念驗證期”邁入“生態定型期”,技術標準與商業模式的“分水嶺”已然浮現。在這兩種不同的氛圍背後,是兩種不同的路線,矽谷沉迷於對AI Agent制定規則,而中國公司已經在搶跑了。

中國為什麼沒有MCP?

首先我們必須明確的是:Agent不僅僅是一種應用形態,將其簡單地對比「超級應用」實際上是對其本質的誤解。 Agent代表了一條全新的產業鏈,它連接並整合了多個技術環節,需要調動幾乎整個互聯網生態的軟件資源。

我們簡單製作了目前Agent產業生態的圖譜(當然它是動態變化的)以供大家理解。當前,建構真正通用的智能體需要兩個核心要素:一是強大的“大腦”:能夠接收任務並進行精細拆解,對每個步驟的微操作都能完美執行,這要求大模型具備強大的多模態能力;而是可靠的“手腳”,則能夠穩定執行在各種環境中,確保跨平台、跨裝置的一致性表現。

針對To C和To B兩種場景,對Agent的能力要求截然不同:To C的通用型Agent不必追求極高精準性,但需要更強的通用性和靈活性,依賴強大的“大腦”進行決策;而To B場景下的“數字員工”則要求極高的精確性,對靈活性要求相對較低,更依賴高效穩定的“手腳”執行能力。

因此,產業內幾乎形成共識:通用型Agent深度依賴基礎模型能力,本質上是模型廠商能力的延伸,會隨模型升級而進化,創業公司在此領域能施展的空間極為有限。

從這個視角來看,Anthropic作為基礎模型廠商率先推出MCP,並非因其擁有最強話語權,而是因其最需要與互聯網現有軟件生態建立連接,實現底層能力的整合與打通。

矽谷與中國在Agent領域的發展差異,正是兩地軟件生態長期積累形成的根本區別的直接反映。矽谷軟件生態以高度標準化和互聯互通為核心特徵。製造業Agent數字員工打造者語核科技創始人翟星吉精準指出:「美國市場中,每個細分場景往往會有獨立的SaaS公司提供垂直服務,這使得互通互聯成為Agent發展的必要條件」。在SaaS普及率超過80%的環境下,Salesforce、Slack等頭部產品成為企業標配,自然催生了對標準化介面的強烈需求。

在MCP等統一協議架構下,現有SaaS服務自然成為生態組成部分,既服務終端使用者,又能被其他Agent呼叫。企業級數字員工AI Agent平台來也科技CTO胡一川形像地比喻:「MCP對行業的影響類似於USB-C標準化對電子裝置的影響,它大幅降低了開發成本。以前100個開發者連接100個工具需要10000項工作,現在通過MCP,雙方只需準備好對應介面,即可實現全面連接,呈指數級下降。

相較之下,中國軟件生態發展不均衡,而這種軟件生態的根本差​​異,最終導致了中國缺乏類似MCP的統一協議標準。這不只是Agent技術路徑的不同,更顯現了數字基礎設施發展階段的差異。

一旦MCP與A2A建構起智能體世界的「水電煤」基礎設施,後來者不是接取這套體系成為生態參與者,就是被排除在主流互動網絡之外。

那麼制定標準的人將掌握了最重要的話語權,如同我們所見的Android系統,或是Cuda,當下國內Agent公司都正面臨著是加入還是獨立發展的重要節點。

從目前的情況來看,似乎中國互聯網的基礎模型公司,並沒有另起爐灶的打算。 4月15日,魔搭推出全新MCP廣場,上架千餘款熱門的MCP服務。魔搭MCP產品經理告訴矽星人:“我們正在成為MCP的生態共建者,包括建立一些MCP應用的BenchMark,以及給一些應用提供啟動流量等等。”

本該是兵家必爭之地的標準制定者,為什麼基模廠商輕易讓給了Anthropic?

據矽星人的理解,一部分原因是因為統一協議本身可能只是AI發展的階段性產物,從技術的角度來說,一旦建立了Agent的通用行動模型(參考機器人模型),就可以繞過API或者協議介面,直接完成操作,爭也只是一時;另一方面,互聯網大廠們快速加入MCP陣營後,能夠將此前的優勢積累釋放,比如魔搭接入了收割支付寶提供的支付MCP介面,一旦Agent採用了通用的支付介面,支付生態可以在AI時代復利,這或許是一個比掌握協議本身更大的市場。

矽谷修路  中國造車

矽谷透過推動統一協議標準,對Agent生態而言就像是在“修路”,建立基礎設施和互聯互通的標準。而中國企業則專注於“造車”,打造能在特定場景下高效運行的實用解決方案。加入MCP、A2A或其他協議,對中國企業而言只是時間和選擇問題。無論那種路徑,最終要讓Agent生態完整運轉,都需要一輛輛「車」真正跑起來。

在中國市場,C端Agent仍處於非常早期階段,以智譜AutoGLM為代表的通用智能體正在積極打磨產品形態、技術路線和商業模式,而絕大多數創業公司則將目光聚焦在2B領域。

「我們認為未來2-3年是智能體商業化落地的關鍵窗口期。端到端的純大模型方案(如Manus等)不太可能在這個時間窗口內達到理想的商業落地水平,因為它們在可控性、穩定性和成本方面仍存在重大挑戰。」企業級通用智能體企業實在智能創始人孫林君判斷道。

To B的快速發展首先來源於市場需求的爆炸性成長。 「自從今年2月DeepSeek發布之後,我們明顯感受到企業級Agent市場迎來了一波'爆單潮',」翟星吉回憶道,「僅在最近三個月,我們在推進的新項目就超過了20個,今年的預期收入也超過了千萬。這在以前是很難想像的速度。」

胡一川也表達了類似觀察:“我們在製造業和金融領域的Agent項目詢單量比去年同期暴增了數倍。企業客戶對AI Agent的熱情程度遠超我們預期,尤其是那些有明確流程優化需求的傳統行業客戶。”

其次是to B領域相對清晰的商業模式,例如將銷售轉化率從5%提升到6%,雖然只增加了1個百分點,但對企業來說實際上增長了20%,對大型企業而言這是相當可觀的收益。

實際上,to B Agent實際上取代了傳統的定製化系統,以更有效率的方式解決企業痛點。這些「數字員工」正在形成全新的商業模式,不同於傳統SaaS的固定功能,它們能夠根據企業需求持續進化,實現真正的軟件「活體化」。

「其實,MCP這類協議對2C市場的影響遠大於2B領域。在企業場景中,系統大多採用封閉架構,且以本地私有化部署為主,很少需要連接公共互聯網應用。」翟星吉補充到,這一特點使得中國企業在缺乏協議層支撐的情況下,被迫自主研發從數據處理到執行操作的全鏈條技術特點使得中國企業在缺乏協議層支撐的情況下,被迫自主研發從數據處理到執行操作的全鏈條技術特徵。

語核Langtum企業級Agent應用落地平台

如語核科技,其技術核心之一在於自研的工業檔案解析引擎,專門處理企業分散的非結構化資料(將PDF格式的工藝參數表轉化為結構化資料),以便大型模型能夠更好地理解行業專業知識。在矽谷,這本應是獨立細分賽道的技術環節,但在中國市場環境下,語核不得不將其作為Agent解決方案的一部分直接交付。

「例如在製造業的採購環節,我們的Agent能夠自動校對採購單、尋找供應商、比對報價並完成下單流程,將原本需要2-3天的工作壓縮至30分鐘內完成,同時還能保持95%的精準性。」翟星吉講道。

來也科技則是透過將RPA(流程自動化)與AI結合,建構出一個一體化平台,來保證更高精準率和更強靈活性。 “我們的方案不是簡單地將大模型和RPA拼接,而是構建了一個能夠自我調整的智能係統,”胡一川解釋道,“在傳統RPA的基礎上,我們增加了決策節點,允許系統在執行過程中根據實時情況進行判斷和路徑調整。”

來也科技數字員工平台架構圖

例如,在某大型汽車主機廠的質檢環節,來也科技的Agent能夠自動識別並處理各類質檢檔案,當遇到異常情況時,系統會自動呼叫歷史案例庫進行比對分析,確定最佳處理方案。 「這項應用將質檢檔案處理時間從原來的8小時縮短至1小時,精準率提升至99.2%,每年為客戶節省人力成本超過200萬元。」胡一川補充道,“更重要的是,隨著使用時間延長,系統能夠不斷學習新的異常模式,持續提升處理能力。”

中國企業在建構Agent時往往採取這種「由點及面」的策略:先在特定場景中解決核心痛點,然後逐步擴展功能範圍。實在智能創始人孫林君描述了他們的方法:“我們首先為製造業客戶打造質檢檔案處理的專用Agent,證明價值後,再逐步擴展到生產計劃、物料管理等相關環節,最終形成覆蓋整個生產管理鏈條的智能體系統。”

當累積了大量針對複雜場景的實戰經驗,具體場景中的Agent往往具有更強的環境適應能力和問題解決能力。

Agent的另一種解法

矽谷的軟件生態已經高度成熟,MCP等協議正在將這一生態重新連接,形成由Agent主導的新格局。但這一趨勢不可避免地將逐漸弱化傳統軟件企業的地位,使軟件最終成為Agent的元件。

在美國,各軟體間的標準化介面已成為基礎設施,Agent開發可以專注於呼叫這些介面。而在中國,Agent企業必須直面軟體碎片化的現實,透過創新性的技術路徑解決執行層問題。從某種意義上說,這反而催生了更普適的技術方向。

「我們看到一個根本性問題:傳統的Agent執行層要麼依賴API呼叫,要麼依賴像素級的視覺模擬,兩者都存在明顯侷限,」實在智能創始人孫林君解釋道,“前者在中國企業軟件生態中成本很高且速度慢,後者則面臨穩定性和泛化能力不足的挑戰。”

那麼,RPA方案和視覺感知方案有沒有可能融合在一起?實在智慧創新性的嘗試了「融合拾取技術」。

「我們訓練了一個名為塔斯(TARS)的垂直大模型,專注於電腦操作領域。這個模型提升了任務理解、狀態識別和操作決策能力,本質上是一種'text-to-action'或更準確地說是'text+image-to-action'模型。例如,當看到一個有搜尋框和按鈕的介面時,模型“實在實現智能”代碼“實在這樣的指令碼”中。 」

「我們訓練的視覺模型可在100-200毫秒內識別介面中的各類元素(輸入框、按鈕、下拉菜單、表格、對話框、密碼區域等),然後將這些視覺識別結果與傳統方式識別的底層元素整合。目前在網頁元素識別和操作方面比GPT-4o高出約10個百分點,在任務級解決方案方面的任務也能拆個優勢。

一般遇到未見的軟件,都需要派工程師到客戶現場進行適配。但現實中未見過的軟件可能是無窮無盡的,這種人工適配模式難以擴展。融合拾取突破了傳統Computer Vision方案對螢幕解析度和介面佈局的依賴,提高了Agent在真實複雜環境中的適應能力。

除了技術創新外,在生態建構上也出現了新的機會。 Agent公司究竟應該以什麼身份對企業進行服務?是傳統軟件?定製化系統?還是AI技術提供者?商業模式是軟件付費模式、按token付費、還是以「數字員工」的形式按人頭付費?

「我們認識到一個現實:在2B領域,尤其是傳統行業,行業know-how的積累至關重要,但從0到1自己完成這一過程周期太長,很難滿足當下市場的迫切需求,」AI Agent 智能體雲生態服務平台匯智智能創始人孫志明表示,「因此我們選擇了另一條路——成為行業知識與AI技術的整合者,將已經數字化的行業知識與Agent1+。

這種模式的核心在於識別並整合已數字化的行業知識。在製造業、醫療、金融等領域,過去十年的資訊化建設已經沉澱了大量專業知識,孫志明解釋到,「例如,ERP系統中的工藝流程、醫療系統中的診斷規則、金融系統中的風控模型,這些都是經過多年驗證的行業智慧。我們不需要重新發明輪子,而是將這些知識提取、結構化,然後與大模型建立了我們與大管理模型合作建立的關係。

對於像瀾碼這樣的創業公司,從0到1自主積累行業知識確實周期過長,對創企的考驗也更加大,核心原因在於沒有找準自己的定位,是技術提供者、知識整合者還是解決方案交付者,然後圍繞這一定位構建合作生態。

相較之下,新的商業模式或許更適合中國市場現狀。在中國大型企業的數字化程度參差不齊,但幾乎所有企業都有不同程度的資訊化基礎,在Agent驅動下,或許能重新定義軟件服務的形態和交付方式。

畢竟,技術發展從來不是單一直線,在這個過程中,中國企業和矽谷巨頭都在用各自的方式,共同推動Agent走向成熟。 (環球老虎財經app)