#阿里
DINQ:從阿里達摩院到 Crypto,為什麼又回歸 AI 創業?
在這期吳說播客中,DINQ 聯合創始人 Sam Gao 與 Kelvin Sun 圍繞 AI Agent、Crypto 基礎設施與未來組織形態展開了系統討論。嘉賓指出早期 AI Agent 項目之所以難以真正落地,核心在於當時大模型推理能力尚不成熟。隨著模型能力提升,Agent 正從“回答問題”轉向“呼叫工具並直接執行任務”,這也讓 AI 與加密結合重新具備了現實空間。談到 AI 與 Crypto 的關係,兩位嘉賓認為,多數 AI 開發者對加密並非敵視,而是相對疏離、缺乏直接關聯感。但在更底層的能力上,加密仍可能成為 AI 時代的重要基礎設施,尤其體現在三方面:為 Agent 提供無需許可的原生支付體系,通過零知識證明等密碼學工具提升模型與結果的可信驗證,以及為未來去中心化算力網路提供可能性。也因此,他們判斷 AI 與 Crypto 長期不是替代關係,而更可能在支付、驗證和基礎設施層面深度互補。圍繞創業環境與行業文化,Sam 與 Kelvin 進一步比較了 AI 和 Crypto 的差異:前者更容易讓小團隊、個人能力和作品導向脫穎而出,後者則更容易受到資本、敘事和短期激勵驅動。兩人認為,AI 正在推動組織形式從傳統大團隊轉向更輕量、更模組化、更靈活協作的小團隊,甚至讓過去 DAO 曾描繪過的一些組織想像,開始在現實中逐步具備可執行性。放在更長周期裡看,真正值得關注的機會,或許正出現在 AI Agent 與加密基礎設施重新結合的交叉地帶。嘉賓發言不代表吳說觀點,不構成任何投資建議,請嚴格遵循當地法律法規。音訊轉錄由 GPT 完成,可能存在錯誤,請在小宇宙、YT 等收聽完整的播客。從土木工程到 AI 創業,再到 Agent 驅動的人才平台貓弟:歡迎來到《吳說不加密》。本期嘉賓是 Sam 高岱恆和 Kelvin。Sam 不是電腦科班出身,而是從土木工程轉向 AI,長期做演算法和人工智慧研發,曾在阿里達摩院工作 4 年。2024 年離開後,他開始探索 AI Agent 方向,參與過去年頗受關注的 elizaOS 相關工作,目前更專注於 AI 原生產品創業。Kelvin 長期深耕人才招聘、人才識別和組織匹配,對人才市場和創業團隊有深入觀察。基於技術和人才方向的互補,兩人目前正共同打造 DINQ — — 一個由 Agent 驅動的人才平台,希望用 AI 重構人才的發現、識別和匹配,可以把它理解為 Web4 時代的 LinkedIn。接下來,請兩位分別介紹一下自己的經歷,以及現在在做的事。Sam:我最早是土木和建築背景,讀研時因為 AI 興起,開始系統自學,後來通過開源貢獻和寫文章進入阿里達摩院,並在通義實驗室體系裡工作。2024 年後,我主要參與一些開放原始碼專案,重點關注 AI Agent,也機緣巧合參與了 elizaOS 技術白皮書相關工作。到 2025 年,我開始認真思考自己能提供什麼長期價值,後來遇到 Kelvin,就一起圍繞這個方向開始研究和創業。Kelvin:我職業前半段主要都在做招聘,基本上那個行業最熱,就會進入相關公司。最早在外企做中國區招聘,後來去了地產,再之後進入網際網路背後的資本領域。在紅杉資本時,我主要負責科技網際網路、TMT 和消費方向的人才招聘,尤其是為被投企業招募高管。離開紅杉後,我連續做過幾次創業,也嘗試過 HR Tech、跨境電商和 Crypto 等方向。直到前幾年,經一位 Crypto 行業前輩介紹認識了 Sam,交流後確定了現在這個方向,並一直做到今天。因為鏈上資料工具太貴,開始自己做追蹤產品貓弟:那我們從 Sam 的工作背景聊起。你剛才提到你最開始其實是在做 AI,那你當時是怎麼接觸到 AI,又是怎麼接觸到加密行業的?為什麼後來會決定去做 Eliza Labs、elizaOS 這樣一個 AI 和加密結合的項目?Sam:我是在 2021 年底到 2022 年初開始接觸 Crypto 的。當時身邊有朋友在做相關項目,我最初只是出於興趣瞭解,後來發現自己更喜歡資料類方向。那時比較典型的產品是 Nansen 和 Dune,尤其是 Nansen。它收費很高,但依然有很多使用者願意付費,這讓我意識到鏈上資料服務是個很有價值的方向。所以我當時就找朋友一起,利用業餘時間做過類似 Nansen 的鏈上資料追蹤產品,主要做以太坊和 BTC 上的“巨鯨追蹤”。後來我一邊做 AI,一邊持續關注 Crypto 裡能和 AI 結合的機會。到了 2024 年下半年,AI Agent 在 Crypto 圈開始真正升溫,我覺得這是一個很自然的切入點。再加上 Eliza 團隊當時正好缺懂演算法的人,而我能補上這塊,所以就參與進去了。Kelvin:這一波 AI 其實不是人們主動選擇去擁抱的,而是所有人都不得不進入其中。它已經不只是一個獨立行業,更像是一種新的基礎環境。對每個人來說,關鍵都是思考 AI 和自己到底是什麼關係,並找到一個邏輯自洽的位置。對我來說,我最擅長、也投入時間最多的事情一直是人才和招聘,所以我自然會去想,AI 能怎樣和招聘結合。那時候我正好在思考這個問題,也因此和 Sam 聊了起來。Sam 本身就是 AI 人才,對 AI 在招聘中的應用有很多自己的判斷。我們後來討論得最多的,就是 AI 到底會給招聘這個傳統行業帶來什麼根本性的改變。再加上我自己也算比較早使用 AI 的一批人,從 GPT-3.5 到早期的 Midjourney 都很早就在用了,所以我會很自然地覺得,這是一個很適合我切入的機會。後來我們也就順理成章地開始做這件事。從鏈上資料工具到 elizaOS:項目思路與爭議梳理貓弟:Nansen 最火大概是在 2021 年,你當時提到它 A 輪融了 8000 萬美元。那時候它很重要的一塊業務,其實是幫以太坊 L2 和跨鏈橋項目做空投識別,篩出那些使用者是在“擼毛”,並據此制定分發規則。你後來參與的另一個項目就是 elizaOS,而且你好像還是白皮書作者之一。這個項目當時也很火,市值一度衝到大約 1 億美元,算是當時關注度很高的 AI Agent 項目。不過後來它的幣價一路下跌,中間還出現了“Eliza”大小寫兩個代幣的問題,社區也因此出現分流和爭議。所以想請你從內部視角講講,Eliza 這個項目最初是怎麼做起來、又是怎麼火起來的;後來為什麼會出現大小寫之爭;以及為什麼最後沒能繼續走下去,連你這樣的核心開發者也選擇離開。Sam:首先,我只是進去幫他們做了一部分演算法相關的工作。第二,這個項目背後的代幣,我記得應該叫 AI16Z,而不是 Eliza 的大寫或小寫。你說的那兩個“Eliza”項目,其實都屬於山寨項目,和這個框架本身沒有關係。這個框架本身,實際上是服務於 AI16Z 這個 Token 的,大概是這麼一個情況。貓弟:我之前的理解是,AI16Z 有點像在模仿 a16z,想做一個 Meme 風格的 VC;而 elizaOS 更像是想做一個 AI Agent 的生態。我原本是這麼理解的。看來我的理解不太對,是嗎?其實你們那個白皮書,主要還是服務 AI16Z 這個 Token,可以這麼理解嗎?Sam:這個項目最早想解決的問題,其實很直接:當時大家都覺得 AI Agent 會是未來,而 Crypto 使用者手裡又分散著很多鏈上的零碎資產,但跨鏈橋、借貸、套利、儲存等協議太複雜,普通人很難真正用起來。所以最初的設想,就是能不能用 Agent 自動幫使用者完成這些鏈上操作。後來,項目發起人 Shaw 又把方向進一步擴展,希望做的不只是交易 Agent,而是一個更通用的 AI Agent。它既能處理鏈上操作,也能抓取新聞、打遊戲,甚至參與遊戲製作和經濟系統理解,本質上是想做一個可以執行多種任務的通用智能助手。但在我看來,當時它最大的不成熟之處,是大模型還缺少關鍵的推理能力,這也是早期 AI Agent 很難真正落地的核心限制。即便如此,elizaOS 在當時依然算很超前,無論是技術路線還是語言選擇都很領先。比如當時大多數 Agent 框架主要都用 Python,但考慮到 Crypto 世界大量基礎設施本來就基於 TypeScript、JavaScript 和 Rust,繼續用 Python 不僅性能未必合適,接入鏈上原子操作也會很麻煩。所以我們最後選擇用 TypeScript 做底層,這在當時本身就是一個比較新的方向。另外,elizaOS 也算比較早強調 Agent“個性”的項目之一,不只是讓它完成任務,還希望它具備人格特徵,從而延展出更多玩法。再加上當時項目也帶動了 FHE、TEE 這類安全執行環境相關討論,整體上它確實是一個很早期、但理念相當前沿的嘗試。貓弟:你們當時做 elizaOS,這個項目火了之後,確實也帶動了整個 AI Agent 賽道。聽你的意思,你覺得它後來沒能堅持下來的一個主要原因,是因為當時大模型底層的推理能力還不夠,是這個意思嗎?Sam:對,更準確地說,是當時其實還沒有真正成熟的推理能力。大模型的推理能力,實際上是到 2024 年 9 月 OpenAI 官宣相關方向之後,大家才開始真正意識到這件事,真正的模型發佈則是到 12 月。那個時候,其實大多數人都還不太懂這件事。貓弟:當時市場很熱,很多人其實也沒有認真研究這個方向。後來 DeepSeek 出來之後,團隊逐漸鬆散,繼續推進的人也越來越少。那放到現在看,隨著大模型推理能力快速提升、模型迭代不斷加快,如果今天重新啟動,或者繼續做 elizaOS 這樣的項目,你覺得它還有沒有發展空間?還是說,它其實已經落伍了?Sam:我覺得這項技術本身肯定很有前途,未來 AI 接管越來越多事情也是很自然的。但如果說要做出一個真正爆火的項目,很多時候靠的不只是能力,還是時機和運氣,很難靠規劃保證成功。所以如果現在重啟這類項目,我覺得關鍵還是看市場環境和具體時機,而不是說按部就班去做,就一定能做成一個現象級產品。這件事本身其實非常難。從旁觀者視角看 elizaOS:爆紅項目背後仍是個人驅動貓弟:那你們現在和 Shaw 還保持聯絡嗎?平時還會交流技術嗎?另外,當年“Eliza”大小寫代幣的爭議,你當時有沒有比較近距離地觀察到?我印象裡,好像是先有一個版本發出來,後來 Shaw 又說那不是官方版本,而是社區裡有人自己部署的,於是又出現了一個官方更支援的新版本,最後引發了社區分流和幣價波動。這件事當時是怎麼發生的?Shaw 有沒有和你們溝通過?Sam:沒有,我們當時主要關注的都是技術相關的事情。Kelvin:後半段我其實回答不了,因為在當時,Eliza 更像一個相當神秘的組織。除非你知道內部具體是誰在做事,否則外界很難看到太多細節。像 White Paper 這件事,如果不是後來知道 Sam 參與過,我之前也並不清楚。對外來說,大家真正能明確知道的,基本只有 Shaw。但這個項目當時確實非常火,這一點是市場公認的。那時候我在 Galaxy,市場上什麼賽道熱,大家都會關注,所以我們肯定注意到了它。只是作為旁觀者,我們更多也是感受到它很火,而不是能看到太多內部資訊。後來我也是機緣巧合,通過私人關係認識了 Sam。某種程度上,正因為 Eliza 本身已經足夠有名,它其實也在一定程度上證明了參與者的能力和背景,不需要太多額外解釋。如果一定要說一個更大的感受,我會覺得,不管是 Crypto AI,還是現在整個 AI 行業,整體都更偏個人英雄主義。往往是少數個體先大膽創新,把事情做出來;而上一代網際網路創業更像是集體作戰,大家知道的通常只是老闆,真正推動事情落地的其實是背後一整群人。AI 開發者對 Crypto 多數無感,但 Agent 原生支付仍可能長在鏈上貓弟:最近我們也提到過 OpenClaw。它的創始人似乎對 Crypto 比較反感,因為項目改名之後,一度有 Meme 幣去蹭熱度,不但搶先發幣,連相關域名也被人註冊了,所以他後來還發過推特,明確表示想遠離 Crypto。那從你們的觀察來看,現在是不是不只是 OpenClaw 創始人,很多 AI 開發者其實都對加密行業比較排斥?整體來看,AI 開發者群體現在到底怎麼看 Crypto?Sam:我覺得整體來說,大多數 AI 開發者對 Crypto 其實是無感的,更像把它當成一條平行賽道。你提到的那些反感,更多還是 Meme 風潮留下的後遺症 — — 每逢熱點,總會有人搶著發幣、蹭流量,這種做法確實會讓一部分 AI 從業者反感。但從更大的範圍看,多數人並不會因此對整個 Crypto 行業形成強烈排斥。因為大家更看重的還是實用性:誰能解決問題,誰就是有價值的。如果 AI 圈真的普遍反感 Crypto,那像 OpenRouter 這樣的產品就很難成立了。它的創始人本身就有很強的加密背景,但這並不影響它成為大模型領域最重要的中轉平台之一,說明市場並不會因為創始團隊有 Crypto 背景就天然排斥。所以我並不認為 Crypto 會對 AI 產生負面作用。相反,我覺得它最大的價值在於為 Agent 提供原生支付能力。現在 Agent 還缺少真正的消費和支付系統,而一旦這個問題被解決,很多產品形態和商業模式都會發生很大變化。也正因為這樣,我會比較關注像 Coinbase 在推進的 x402 這類方向。因為在我看來,未來如果真要出現適合 Agent 的原生支付體系,它大機率不會建立在傳統法幣系統之上。貓弟:你前面說的“無感”,是指 AI 開發者對 Crypto 沒有明顯厭惡,也不覺得它特別有吸引力,只是相對中性的態度;還是更接近一種“不太關心”,覺得這件事和自己關係不大?你說的無感,更偏那一種?Sam:更接近後者,但也不是負面的“不 care”。我的意思更像是:我知道有這麼個東西,但它按自己的邏輯發展,和我沒有太直接的關係。不是排斥,也不是完全忽視,而是一種相對疏離的旁觀態度。貓弟:你剛才提到 OpenSea CTO,也讓我想到一個傳聞。OpenAI 創始人 Sam Altman 不是還有 Worldcoin 嗎?外界一直有說法稱,Worldcoin 某種程度上是為了給 OpenAI 或相關 AI 事業融資,因為早期 AI 項目融資並不容易,而加密項目反而更容易獲得資本關注。你聽過這種說法嗎?你覺得真實性高不高?Sam:這個說法有一定真實性。尤其在 2018、2019 年,OpenAI 的處境確實比較困難,內部和外部都經歷了一些變化,所以他們當時確實認真考慮過通過 ICO 這樣的加密方式融資,來緩解融資壓力。貓弟:也就是說,OpenAI 某種程度上也算和 Crypto 擦肩而過了。Sam:可以這麼理解。不過嚴格來說,那時候這件事和 ChatGPT 還沒有直接關係。因為真正讓 GPT 路線被廣泛認知,已經是 GPT-3 之後、尤其 2022 年以後的事了。AI 從業者會不會買幣,以及加密行業是否又到了“牛夫人”階段貓弟:從你的觀察來看,你接觸到的 AI 開發者會持有加密資產嗎,比如 BTC、ETH?你自己有配置嗎?Sam:就我身邊做 AI 的人來說,大多多少少都會配一些,但主要還是比特幣、以太坊、Solana 這類主流資產。大部分人談不上特別關注,只是有一定配置;當然也有少數人會對新東西更感興趣,甚至會研究 Polymarket 這類產品怎麼參與。整體上我覺得,這件事更多還是看個人興趣和精力,和 AI 本身沒有特別強的直接關係,兩者相關性其實沒那麼高。貓弟:那我們也看看 Kelvin 這邊的身邊統計學。你待過加密公司,也在紅杉做過投資,現在又在做 AI 相關的人才和招聘。你觀察到的 AI 創業者和開發者,對 Crypto 是什麼態度?他們會持有加密資產嗎?Kelvin:我覺得和 Sam 的觀察差不多。在投資圈裡,加密其實早就不是新東西了,很多 VC 都是很早就開始接觸、嘗試的一批人,很多人也已經經歷過好幾輪周期,賺過也賠過。而且人才本來就是流動的,很多人都會在傳統行業、網際網路和加密行業之間來回切換。那裡有機會、那裡有資金,人才就會往那裡走。貓弟:那從人才和資金角度看,你覺得加密現在是不是又進入了一個相對被冷落的階段?畢竟最近比特幣也跌了不少。Kelvin:如果從跟風者視角看,確實會有這種感覺;但對長期參與者來說,這種波動其實並不新鮮,他們還是會期待下一個周期。所以我也一直覺得,當前未必不是一個進入這個行業的好時點。這裡說的“進入”不只是買資產,也包括去相關公司工作、創業,或者直接投身這個行業。因為你也有可能正好趕上下一個機會。AI 的個人英雄主義,與加密行業的結構性困境貓弟:Sam,我之前聽過你 2025 年的一期播客。你當時提到,很多 AI 開發者,甚至技術很強的人,並不一定有名校背景,也未必有很強的資金支援,但依然能做出很好的產品。這背後其實是一種很強的“個人英雄主義”,剛才 Kelvin 也提到了這一點。但對比來看,現在加密行業很多項目越來越偏 VC 主導,個人開發者反而更難冒出來。你覺得這種結構性差異,是否在一定程度上抑制了 Crypto 的創新?尤其從 DeFi Summer 到現在,行業裡似乎已經很久沒有出現那種被普遍認可的真正創新了,這兩者之間會不會有關係?Sam:我覺得確實有關係。AI 行業裡,很多關鍵項目的決策者都非常年輕,因為他們是靠作品和成果證明自己的。但加密行業的問題在於,草根開發者一旦做出點東西,資金很快就會湧進來,把項目和人一起推得失控。很多團隊本身沒有足夠清晰的方向和組織能力,最後很容易自己走散。另一方面,VC 又往往更追求快速回報,與其慢慢找真正有潛力的個人,不如直接“組項目”。但這樣做出來的團隊和項目,通常缺少真正的競爭力,結果其實也已經說明了這一點。所以我覺得,這個行業更需要的是研究型組織,去長期做底層技術和創新探索,比如區塊鏈基礎設施怎麼變得更好,Agent 怎麼和預言機、零知識證明、強化學習這些方向結合。問題在於,現在市場太急功近利,這類人和這類機構很難活下來。但如果行業始終缺少這種長期技術導向的力量,就很難真正產生新的創新,也很難吸引新的增量。貓弟:過去兩三年,Vitalik 一直在研究零知識證明等底層技術,但很多人批評這些東西遲遲沒有落地。相比之下,AI 似乎更容易和現實場景結合,也更容易看到實際應用。那會不會正因為加密技術落地太難,才反過來抑制了行業裡的研究和創新?Sam:我覺得兩者沒有直接關係。很多偉大的技術,最早看起來都沒什麼現實價值。AI 早期無論是打小遊戲,還是做下一個詞預測,本身也都談不上“有用”,它們都是一步步發展出來的。所以問題不在於 Vitalik 研究的東西沒價值,而在於這個市場太短視,缺少耐心。Vitalik 能提出方向,但真正缺的是願意長期執行和深耕的研究團隊。現在行業裡太少這種人了,很多想法最後就停留在概念層面。我反而覺得,隨著 AI 時代到來,會有更多人進入“人人都是研究者”的狀態,開始主動研究模型、資料、能力邊界。同樣地,只要環境允許,也會有更多人願意長期研究區塊鏈本身。所以根本問題不是技術沒有價值,而是市場太急功近利,容不下這類長期創新。貓弟:你現在是在 AI 領域創業,之前在 Eliza 更像是做核心技術、不是站在台前。那從你的親身經歷看,在 Crypto 和 AI 這兩個行業工作,最大的差異是什麼?尤其在行業文化、工作節奏和商業模式上,你覺得有那些特別明顯的不同?Sam:我之前做 AI 更多是在公司體系裡,上班相對不用直接承受太多結果和生存壓力。但 Crypto 不一樣,它非常考驗一個人的快速反應、深度思考和執行力,對個人綜合能力要求更高。這是一個高風險、高回報的行業。有人扛不住壓力拿不到結果,也有人即使扛住了,最後還是可能因為運氣等因素失敗。相比之下,AI 行業對大多數人更友好一些,只要足夠聰明、也足夠努力,下限通常不會太低。但從技術發展的歷史來看,很多真正重要的突破,在當下未必都是最受關注的方向。所以我也一直覺得,當你選擇的路和主流不完全一致時,不必急著懷疑自己,可以先堅持做下去。很多重要機會,往往就藏在這些非主流方向裡。所以我的判斷一直很簡單:在 AI 時代,機會始終都在。關鍵是你能不能持續做下去。貓弟:從你的經驗看,AI 和 Crypto 的創業環境有那些明顯差異?這些差異會不會也體現在,什麼樣的人更容易被看見、被支援和被放大?Kelvin:我覺得最大的不同,還是激勵機制不一樣。Crypto 的反饋和激勵通常來得更快,但也更短期;AI 相對更居中一些,不管是創業還是在機構裡做創新,往往一兩年內也能看到比較明確的成果。不過本質上,我不覺得兩者差別特別大,因為它們都屬於高度鼓勵創新的行業。都需要新想法、新的人,也都強調打破舊東西,有時候要打破的甚至不是舊時代,而是上個月的東西。從人才角度看,兩邊也有很強的通用性。現在很多 AI 公司的關鍵人物,前幾年其實都在 Crypto 行業做出過成績,也把加密行業裡一些成熟有效的打法帶到了 AI,這對 AI 行業的發展其實是有幫助的。交易所紛紛入局後,Crypto 真正需要什麼樣的 AI Agent貓弟:Sam,最近很多交易所平台,像 OKX、幣安,還有 Bitget,都推出了和 Agent 相關的一些功能或者產品。我不知道 Sam 你有沒有關注到這個事情。從你的角度看,整個 AI Agent 賽道現在大致發展到了什麼階段?以及你覺得,加密行業真正需要的 Agent 產品應該是什麼樣的?Sam:早期很多 AI Agent 本質上還是資訊型產品,你先提需求,它再給回答,但這種模式更多隻是解決單點問題,實際價值有限。現在的變化是,平台開始提供 skills、MCP、SDK、API 這類能力介面,讓 Agent 能主動呼叫工具,完成更複雜的任務鏈,而不只是回答問題。再加上如今很多 Agent 系統都有了定時執行、持續運行這類“心跳機制”,它們的主動性正在越來越強。我覺得,未來真正有價值的 AI Agent,大概需要三個特徵。第一,足夠理解使用者。它要能基於你的歷史資料、交易記錄和行為偏好,主動分析並直接執行操作,而不只是停留在“給建議”層面。第二,真正具備執行力。面對多鏈、多協議的複雜環境,Agent 的價值不是告訴你該怎麼做,而是直接幫你完成資產調度和收益管理,把複雜問題真正解決掉。第三,安全性足夠強。未來這類 Agent 一定需要更完善的安全機制,比如沙盒環境、權限控制、異常交易阻斷和緊急開關,避免失控或誤操作。所以總結下來,真正有價值的 Agent,不只是會分析,還要能執行,而且必須安全可控。貓弟:現在 AI 幾乎無處不在。那從你們的角度看,有沒有那些關鍵環節,是 AI 很難脫離 Crypto 獨立完成的?換句話說,AI 是否在某些地方天然需要加密技術或加密資產的支援?Sam:我覺得主要有三個方向。第一是支付。Agent 現在還沒有真正屬於自己的原生支付系統,而現有銀行、信用卡和支付平台本質上都是為人設計的。相比之下,Crypto 提供了一套無需許可的帳戶體系,這讓 Agent 更有可能成為真正能獨立行動和付費的主體。第二是可信驗證。比如使用者呼叫某個模型時,怎麼證明平台沒有偷偷換成能力更弱的版本?這類問題其實需要借助零知識證明等加密技術,在保護隱私的前提下驗證模型身份和結果真實性。第三是算力和基礎設施。未來如果真的出現可用的去中心化算力網路,就可能為 AI 提供更低成本、更靈活的訓練和研究資源。所以在我看來,支付、驗證和算力,這三點都是 AI 很難和 Crypto 完全分開的地方。如果 DINQ 走上正軌,更想去做年輕人的孵化與支援貓弟:假如你和 Kelvin 現在這個 AI 人才招聘平台已經走上正軌,完全不需要你們兩個人親自去工作了,AI 已經可以替你們託管一切。那你自己會不會考慮,結合你在 AI 方面的背景,再回到 Crypto 行業做一次新的創業?就你剛才提到的那三個方向來說,你覺得有這個可能嗎?或者說你個人有沒有這樣的意願?Sam:從我個人的角度來說,我做這個平台最核心的目的,還是希望讓更多有才華的年輕人能夠脫穎而出。如果 DINQ 真的走上正軌了,我反而更希望去做一些線下活動,或者去做孵化器,或者做一些早期投資機構。類似於 AllianceDAO,去扶持、幫助年輕人,讓他們做出更偉大的事情。我覺得這才是我特別想做的事情。至於在資助方式上,未來有沒有可能和 Crypto 做一些結合,我覺得對我來說也是比較開放的。在 Crypto 與 AI 工作,最大的差異是什麼貓弟:你現在在 AI 領域創業,之前在 Eliza 更像是做演算法和核心技術。那從你的體驗看,在 Crypto 和 AI 這兩個行業工作,最大的差異是什麼?尤其在行業文化、工作節奏和商業模式上,有那些明顯不同?Sam:我之前做 AI 更多是在公司體系裡,相對不用直接承受太多生存壓力;但 Crypto 更殘酷,也更看重個人的快速反應、深度思考和執行力,是一個高風險、高回報的行業。相比之下,AI 對大多數人更友好一些,只要足夠聰明、也足夠努力,下限通常不會太低。但我也一直覺得,很多真正重要的技術方向,在當下未必是最受關注的那一條線。所以如果你走的路和主流不完全一樣,也不必太早懷疑自己。AI 時代的機會一直都在,關鍵是能不能持續做下去。Kelvin:在我看來,Crypto 的組織方式更像傳統網際網路,通常還是需要較多人協同推進,更偏重團隊化運作。但 AI,尤其是應用層,很多團隊都非常 lean,往往是少數精英高效協作,把事情做出來。這不只是 AI 和 Crypto 的區別,更像是 AI 和過去大多數行業在組織方式上的差異。AI 也讓很多原本依附大公司的職能開始獨立出來。過去必須放在大組織裡的團隊,現在借助 AI 工具,已經能自己完成完整工作鏈條,變成更靈活、更模組化、也更可插拔的小團隊或外部合作方。所以我覺得,AI 帶來的一個本質變化,就是組織會越來越輕、越來越靈活。一人公司、DAO 與 AI 對 Crypto 組織形態的重塑貓弟:最近有個很火的概念,叫“一人公司”。一個人通過各種 AI Agent、AI 助理,就能實現整個公司的運轉。你覺得這更多是噱頭,還是說未來隨著 AI 技術的發展,它真的會實現,甚至成為一種常態?Kelvin:我只能說說我的看法。我覺得這個說法有點極端。肯定會有一些人,真的可以一個人完成很多事情,但這其實也不是一個全新的概念。過去也有很多這樣的例子,比如小紅書上有人一個人畫插畫、一個人接單,本質上那也是上一代的“一人公司”。但我覺得更常見的形態,可能還是小團隊。比如兩三個人、三五個人、十個人。很多人可能是自己公司的 CEO,但同時也能去另一家公司擔任 CTO,或者幫別人做一段時間諮詢。也就是說,大家會變得更加可插拔、更靈活地協作,彼此之間可以快速合作、及時交付、及時履約、及時付款。我覺得這種形態會越來越多。這樣一來,任何一家公司其實都有能力去享受人才帶來的優勢,因為很多人才本身就會以這種小型組織的方式對外提供服務。這是我現在比較明顯觀察到的趨勢。貓弟:感覺咱們剛才這段話特別像幾年前加密行業裡一個很火的概念,就是各種 DAO,去中心化組織。我感覺那種狀態好像一下子又回來了。Kelvin:我覺得確實是這樣。為什麼我對這個特別敏感?因為 DAO 裡的 O 是 Organization,如果我沒記錯的話,而“組織”這件事本來就是我的專業領域。我一直都會關注組織是如何形成的。所以當年我對 DAO 這個概念其實是非常 buy in 的。因為我本來就認為,聰明人組成的組織,本來就應該是那個樣子:高度自驅,不需要大家非得坐在一起上班。一個公司有 20 個人,來自 20 個國家,這在我看來其實是非常合理的。至少我過去觀察到的很多優秀組織,本身就是這樣運作的。貓弟:所以會不會整個加密行業其實也會受益於 AI 技術的發展?就是它之前很多設想過、但沒有真正實現的概念,可能會因為 AI 而真正落地。再延伸一步,雖然短期來看,AI 行業對加密行業無論是資金還是人才,可能都有衝擊,但長期來看,隨著效率提升,它反而可能成為加密行業的助力。你認可這個說法嗎?Kelvin:我是非常認可的。因為我最近也在和一些 Crypto 行業的創業者交流。至少從敘事層面來看,現在 AI 這邊很多流行的敘事,你只要願意去翻舊書、翻歷史,其實在過去每一代 Crypto 敘事裡幾乎都能找到影子。也就是說,至少在敘事創新這件事上,Crypto 一直都是比較領先的。你完全可以從裡面找出很多東西,再用 AI 重做一遍。因為現在和過去最大的不同是,這些事情真的開始能做了,不再只是停留在概念層面,也不只是敘事層面了。包括我們現在做的這個項目,其實我在 2017 年就見過一個叫 Braintrust 的公司,它做的就是一種“去中心化的領英”。雖然它當時的實現方式和今天不一樣,但那個概念我是非常 buy in 的。你包括現在再回頭看,我也會想,會不會今天我們反而有機會去實現當年它想描繪的那個未來。 (吳說Real)
美團、阿里、京東,大漲!
受政策反內捲風向再度清晰帶動,今日港股科網股短線拉升。截至發稿,港股“外賣三巨頭”午後跳漲,美團-W(03690.HK)漲超12%、阿里巴巴-W(09988.HK)漲約4%、京東集團-SW(09618.HK)漲逾3%。消息面上,中國國家市場監管總局轉發經濟日報文章《外賣大戰該結束了》,引發市場關注。評論指出外賣平台間的惡性價格戰已對餐飲行業及宏觀經濟造成負面影響,呼籲結束“燒錢遊戲”。此外,3月24日,中國市場監管系統價格監督檢查和反不正當競爭工作座談會召開。來自會議的資訊顯示,今年價格監督檢查和反不正當競爭工作將聚焦建設強大中國市場,增強高品質發展動力。另據媒體報導,3月23日,北京市市場監管局聯合市商務局、市文化和旅遊局,依法約談和行政指導攜程、去那兒網、高德、京東、淘寶閃購、美團、飛豬旅行、途家民宿、抖音等12家平台企業,集中通報開展平台“內卷式”競爭綜合整治以來發現的第一批問題並提出整改要求。綜合來看,近期一系列政策的反內卷導向逐漸清晰,有望促使各大平台間的價格戰降溫,帶來業績修復預期。財報資料顯示,受巨額補貼和宣傳費用影響,阿里巴巴25Q4的經營利潤僅為人民幣106.45億元,同比暴跌74%。且值得一提的是,據立信諮詢發佈的最新研究報告顯示,持續一年的外賣補貼大戰,正引發餐飲行業“通縮”。使餐飲商戶普遍承受營收與利潤的雙重壓力,反映出網際網路巨頭的內卷式競爭已產生負面外溢。資料顯示,外賣大戰以來,八成餐飲商戶淨利潤下滑,降幅超過30%的佔35%;74%的商戶遭遇客單價下降,其中降幅超過10%的佔53%,僅有5%的商戶實現客單價上漲。此外,堂食商家受到影響最為顯著,65%的商戶堂食營業額同比下降。有分析稱,市場此前對外賣等消費行業預期中,過分了高估了一次性補貼的作用,而低估了政策長期結構性改革的決心。相對而言,消費場景擴容、供給端最佳化創新等長期政策,受益政策總額度、槓桿效應或更值得關注。而開年以來,不少機構的宏觀觀點也認為,擴內需、反內卷是當前重要的政策抓手。當前中國消費復甦仍有較大的空間,2026年也可能有持續相關政策出台。 (財聯社AI daily)
阿里在海外“養蝦”:你的下一份工作,可能是當Agent的老闆
“龍蝦”將過去企業級軟體才能做到的事,帶到了個人桌面上。阿里在不久前的財報分析師會議上也指出,大模型已開始具備完成to B複雜工作流的能力。這兩件事指向同一個結論:一個人匹敵一支團隊,不再是科幻,而是日常。只是怎麼用好AI的這種能力,依然是個問題。眼下大多數AI主要服務於白領群體,核心場景是寫文件、寫程式碼,或是算報表、做審計。但這忽略了一個巨大的市場——實體經濟。那些每天奔波於生意場上的中小企業主和創業者,可能更需要AI,卻鮮少被照顧到。這多少有些可惜。AI應該是普惠的,它也有能力為各行各業的各類人群發光發熱。實際上,相比日常辦公,用AI來做生意能帶來更直接的經濟效益,只是其中的挑戰也更為複雜。從設計、選品到找供應商,從開店到行銷,鏈條很長,事務繁瑣,每一環都藏著風險和問題。不過現在事情有了變化。3月24日凌晨,阿里在海外直接上線了第一個企業級Agent——Accio Work,一個為生意人量身打造的“類龍蝦”Agent。不管你身處何地,只要有創業想法,Accio Work都能給你配上一支精通生意之道的Agent團隊。而在它的實測案例中,我們見到了“一個人一句話在海外開店”的可能。一句話就能開店的魔法之旅先看幾個實際案例。對現在想創業的老外來說,在電商平台開店是基操。Accio Work第一個令人驚喜的案例,便是通過一段指令,讓Accio Work在Shopify這樣的當地電商平台上直接開起了一家“龍蝦周邊”店。博主給出了一段提示詞:You are a professional e-commerce operations AI Agent. Your task is to fully and automatically build a complete Shopify store for the lobster merchandise brand “Clawesome“ — including store visual design, product selection strategy (such as but not limited to lobster hats, keychains, apparel, gifts, and more), pricing structure, product detail pages, and to publish all content live through the Shopify Admin API.(你是一個專業的電商營運 AI Agent。你的任務是為龍蝦周邊品牌“Clawesome”全自動搭建一個完整的 Shopify 獨立站,包括店舖視覺設計、產品選品策略(如龍蝦帽子、鑰匙扣、服裝、禮品等)、定價體系、產品詳情頁,並通過 Shopify 管理員 API 將所有內容發佈上線。)Accio Work隨即制定全面計畫,並著手搭建。這個過程相當有意思,它會遇到問題,但它不找使用者求援,而是自己想辦法把事情辦完。比如在配置主題時,Accio Work發現API令牌沒有為頁面設定write_content權限,於是直接另闢蹊徑,將內容寫入網站範本或隱藏欄位,悄無聲息地完成了頁面搭建。比如在把主視覺橫幅上傳到Shopify時,檔案過大,上傳失敗。Accio Work沒有停下處理程序,而是調出Python指令碼完成上傳,再研究Shopify頁面結構,調整程式碼,確保圖片正常展示。遇到牆,就自己想辦法翻過去。這些細節說明,Accio Work不只是單純執行命令,還具備發現漏洞和自主修復的意識。最終的店舖效果,的確不錯。拆解來看,Accio Work做到了開箱即用,並具備複雜長程任務的閉環處理能力。使用者只需要輸入目標,它便自主規劃方案並執行。從任務啟動到最終交付,中間幾乎無需人工頻繁介入。相比一件工具,它更像一個不會偷懶的數字員工。看完上面的測試,我也試著讓Accio Work搭一家店舖出來。不過“龍蝦周邊“未必好賣,作為生意場上的新人,我想找找個勝率更高的方向。我直接告訴Accio Work:自己想面向美國市場創業做電商,讓它幫我分析市場趨勢,找出最好賣、最容易賺錢的商品,然後直接幫我上架到網店。這時,Accio Work展現出了資深生意人的老練。它梳理出了當下主導美國消費市場的三股趨勢:可持續生活、寵物“擬人化“與科技化、AI賦能的寵物健康。然後從三者的重合地帶,推薦了有著高利潤率、強復購性,同時兼具品牌忠誠度的“智能環保寵物健康”生意。不過我又換了想法。作為一個中國創業者兼貓熊愛好者,我知道貓熊在全球擁有無數粉絲。於是我給Accio Work下達了新的指令:你先分析美國市場有那些流行的貓熊周邊,從中篩選適合電商新人起步的低價商品,再選20件你認為可能最好賣的,幫我上架到店舖,同時將店舖裝修匹配貓熊主題的卡通風格。打完一局遊戲回來,我得到了一間配色清新的店舖,和20件可愛的商品。值得一提的是,無論店舖設計還是選品邏輯,都精準迎合了美國市場的口味。Accio Work分析指出,當地貓熊周邊的核心受眾是Z世代和年輕女性,主流審美集中在“Kawaii(可愛文化)”和“生活治癒系”兩個方向。Accio Work挑選的品類也有講究:低客單價且是剛需的文具與辦公用品,是新人起步的最佳切入點;3D立體貓熊耳機殼和手機殼等電子配飾,在TikTok上有極高的病毒傳播潛力;貓熊小夜燈、解壓玩具和小型公仔等家居配飾,退貨率低,屬於穩賺不賠的“壓艙石”品類。由此可見,Accio Work的確擅長商業分析,但它能做的事還不止於此。下面的案例,展現了它更有“活人感”的地方。有人把包含68位供應商報價的Excel檔案“喂”給Accio Work,讓它找出性價比最高的合作方。既要看誰家既便宜、品類又多,還要看有沒有值得單獨合作的小供應商。Accio Work在一番詳細分析後,給出了明確的合作方案建議。它還能幫使用者砍價。一名德國採購代理,希望為客戶在全球範圍內尋找最具價格優勢的產品,便拜託Accio Work用盡一切談判技巧,“務必爭取到最優惠的deal”。你可以在這裡見識到,AI如何在專業場景中化身談判專家,替不擅長開口的生意人,把錢從談判桌上爭回來。為什麼Accio Work擅長做生意總的來看,Accio Work已經是一個能力相當全面、經驗相當豐富的生意專家了。在前期內測中,甚至有海外使用者向它借力,僅用30分鐘便從零“手搓”出一家真實營運的網店。這樣的事情放在以前不可思議,眼下看卻相當合理。一方面,大模型已經從“內容生成”進入“多步任務執行”階段,選品、定價、上架、營運這類標準化流程,都可以被模型系統性接管。另一方面,電商本身具備高度結構化的流程與資料體系,天然適合被Agent化。兩者疊加,聰明能幹的企業級Agent必然會出現。Accio Work只是最早跑出來的那一個。但為什麼Accio Work能處理好生意場上的種種問題,依然值得拆解。這決定它是否值得生意人長期信任。首先是阿里的全球電商經驗,讓Accio Work自帶熟悉全球生意的商業直覺。Accio Work脫胎於Accio,後者是阿里於2024年推出的全球首個B2B領域AI原生應用,憑藉專業的B2B行業知識挖掘使用者需求、調研市場、給出建議,其企業級月活使用者數已超1000萬。此外,Accio Work進一步接入了阿里國際站、1688、速賣通等全網真實供給,這也都為Accio Work提供了支撐。其次是成熟的產品設計。Accio Work內建了多個電商營運、企業管理等領域的專業Agent,並為它們定製了大量做生意要用到的“技能包(Skills)”。從供應商尋源、智能選品,到開店助手、內容策略,各類真實的生意需求,這些技能都覆蓋到位。於是Accio Work可以自動去X或Instagram上發帖行銷,通過LinkedIn調研企業與人物,甚至完成多種財務建模,通過對收入、成本與風險的模擬,提前判斷一門生意的盈利空間與不確定性。無論你來自那個國家,這些開箱即用的配置,都可謂相當貼心了。更進一步,你還可以讓多個Agent組隊分工,協作應對更複雜的商業任務;也可以將自己熟悉的操作流程封裝成技能,供自己反覆呼叫,甚至與其他使用者共享。這意味著,隨著平台使用者的增加,Accio Work的Skill生態可以持續演進。最後是安全。 對生意人來說,安全的重要性不言而喻。在這方面,Accio Work提供了多維度保障。所有外部平台連接均通過官方授權,使用者資料與操作日誌受嚴格權限控制,確保資料安全;同時依託阿里生態內多年積累的電商洞察,有效減少模型幻覺,提升決策精準性;在物流履約、金融交易等環節,Accio Work依託阿里生態內的成熟能力,也讓執行更穩妥可靠。概括來說,Accio Work兼顧了“龍蝦”類產品的開放性和Claude Cowork的安全性。而這些特性與能力疊加,帶來了生意場上的嶄新可能。一人跨國公司可能會是常態了早有研究表明,我們正進入一個個性化驅動的消費時代,消費者願意為有個性的品牌支付溢價,小而美的獨立品牌反而往往比大而全的巨頭更受歡迎。海外中小企業、個人創業者創立的電商規模也在持續壯大,便是最好的註腳。換句話說,中小企業、獨立品牌與創業者在生意場上的機會越來越多。而AI能力的演進,正在為這些人挖掘機會提供更先進的生產力。無論從使用者需求還是技術發展階段來看,Accio Work的出現都恰逢其時。拋開具體產品功能,Accio Work實際上完成了三件更重要的事情。在能力層面,它抬高了個體的上限。過去,一個跨境電商業務往往需要一支小團隊協作完成,每一環都需要專業經驗。而Accio Work通過多Agent協同機制,將這些能力模組化,讓使用者可以像呼叫工具一樣呼叫團隊能力。於是個體限制的天花板,被大大抬高。在流程層面,它簡化了商業的複雜度。跨境電商本質上是一條長鏈路,從市場分析、選品、供應商溝通,到開店、上架、行銷、履約,涉及多個系統和角色。Accio Work將這些流程“指令化”,於是複雜的跨國生意,被壓縮成一系列可呼叫的操作。一個生意人,可以同時指揮多個Agent與全球不同時區的供應商,跨越語言與文化的溝壑,7×24小時自主談判。更重要的是重構資源分配,它還打破了原有的資源不對等。在過去的全球貿易體系中,優質的供應鏈、價格談判的話語權、可靠的物流與支付體系,通常集中在大型企業或專業機構手中。現在Accio Work依託阿里生態,將全球供應鏈、商品資料與交易能力整合為一種能力介面。於是每個普通的個體創業者,也都有機會呼叫接近大型企業的供應鏈資源了。這便開啟了一種新的可能。眼下討論“一人公司”,多在內容創作和軟體開發等數位領域,而Accio Work讓“一人公司”的浪潮有機會延伸到實體經濟與全球貿易。以後的商業圖景很可能是這樣的:清晨,一位身處亞洲或歐洲的年輕人打開電腦,對AI說一句“我想在紐約賣點有趣的東西”,然後轉身去沖咖啡。等他回來,店舖已開張,商品已上架,甚至第一單詢盤已靜靜躺在收件箱裡。在此背後,每個環節的採購訂單都會湧向中國供應商,或許也會帶來中國商家的新紅利。這有點魔法世界的味道了,但恰好呼應“Accio”的寓意。在《哈利·波特》的世界裡,Accio是一句召喚咒,念出它,任何物品都會從遠處飛來。而Accio Work讓我們看到,這個咒語有機會走進現實了。你只需說出自己的商業想法,全球的供應鏈、商品與機會,便可能應聲而至。 (硅星人Pro)
未來時代,Token就是印鈔機
【原始碼智能前瞻】:Open Claw爆火之後,混元宣佈漲價460%,智譜宣佈漲價100%,阿里雲宣佈漲價34%。漲價的理由都是同一個——“Token呼叫量暴漲”。究其原因,Open Claw發佈後,AI第一次能真正“幹活”,接管電腦、寫程式碼、訂機票、發郵件。隨之,Token消耗邏輯發生了本質變化:以前是問答消耗(幾十Token),現在是任務消耗(幾萬Token),再往後是智能體自主執行消耗(百萬級Token)。中國日均Token消耗半年漲5倍,輝達預測未來幾年年複合增長3000%。中國廠商已經跟上。雲廠商推出一鍵部署,大模型廠商繫結自家模型,硬體廠商做端側Claw,紛紛爭奪Token的入口和定價權。黃仁勳在GTC會議上把資料中心叫作“Token工廠”,提出“每瓦Token數”作為新KPI。意思是:算力不再是賣卡,是賣Token。Token正在從技術概念,變成經濟概念。本文回答四個問題:Token為什麼是計價單位?怎麼消耗?誰在定價?定價和什麼有關?一、Token為什麼是計價單位?(一)什麼是Token?Token是AI處理資訊的最小單元。你問AI一句話,AI回你一段話,這些話在AI模型中都會被拆解成Token。Token數量要看分詞規則,舉個例子,“人工智慧”如果是常見詞,可能直接是1個Token;如果被拆開,可能是“人工”和“智能”2個Token。類比理解,Token就是AI世界的“字節(Byte)”,是模型理解語言的基本單位。(二)為什麼用Token計價?為什麼大模型用Token來計價,而不是按次或按時長計價?如果按次計算,一次簡單的問答和一次複雜的程式碼生成,消耗的算力差幾百倍。如果按時長計價,算力消耗不是勻速的,高峰時段和空閒時段差距太大。用Token計價則解決了以上問題。它是目前能找到的最精確的計量單位,主要原因如下:第一,消耗量與算力直接相關,每生成一個Token,背後都是一次完整的推理計算。第二,消耗量與任務價值正相關。金融業務的token比日常對話的token更具價值。第三,Token可分層定價。廠商可以根據Token的質量定價。Token已經從技術概念,轉變成為反映算力消耗和商業收入的計量單位。以前Token是大模型訓練過程中的副產品。現在成本重心從供給端(訓練)轉移到需求端(推理)。推理是持續的消耗,Token消耗量開始和費用直接掛鉤。二、Token是怎麼消耗的?根據IDC測算,全球Token消耗年複合增長率可達3000%。中國得日均Token消耗已經從2025年中的30兆飆升至2026年2月的180兆,半年增長了5倍之多。Token消耗與任務複雜度直接相關,呈現出明顯的層級特徵:為什麼層級間消耗差異如此懸殊?核心在於AI的“思考”方式發生了根本變化。以o1為代表的推理模型,不再採用傳統的“預測下一個詞”模式,而是在內部生成思維鏈,模型會在回答前進行多步推理、試錯、反思,這些內部過程都以Token形式消耗。Claude Code、Open Claw等智能體框架更進一步。它們將推理能力與工具呼叫結合,實現“思考-執行-驗證”的閉環迭代。一次完整的智能體任務,可能包含數十輪內部推理和外部工具呼叫,單次任務消耗從幾十萬到幾百萬Token不等。以下是不同使用者消耗量級的直觀對比:三、誰在給Token定價?Token從生產到消費,經過四個環節,每個環節的定價權不同。生產層:輝達定義成本基準。它不直接賣Token,但掌握最底層的定價權。黃仁勳提出“每瓦Token數”——在固定電力下,誰能產出更多Token,誰就能賺更多錢。新一代AI計算平台Vera Rubin平台將生成Token成本降低90%,每瓦性能提升10倍。據財報,輝達60%收入來自前五雲廠商。煉化層:模型廠商直接面對供需。國聯民生證券研報指出,當推理消耗變成生產資料,模型廠商有機會把“算力稀缺”通過分層定價轉化為毛利。輝達的分層定價印證了這一點,Token的價值由它能幹什麼決定。分銷層:雲廠商賺管道溢價。3月以來,中國雲端運算產業鏈逐級漲價。優刻得全線漲價,騰訊雲混元漲價超460%,智譜漲20%。但云廠商不只是“二道販子”,它們封裝服務(一鍵部署OpenClaw)、整合生態(阿里串起千問、釘釘、淘寶),賺取溢價和粘性。消費層:使用者用錢包投票。黃仁勳算過一筆帳:“一個研究員每天用5000萬Token,一天7500美元,但對研究團隊來說根本不是問題——因為Token帶來的價值遠超成本。”也就是說,Token的價格由它能創造的價值決定,而非生產成本。這正是Token從技術參數演變為經濟單位的底層邏輯。可以看出,輝達掌握底層成本基準,模型廠商掌握直接定價權,雲廠商掌握管道溢價,使用者用錢包進行價值投票。四、Token定價和什麼有關係?為什麼有的Token貴,有的便宜?成本、能力、供需、場景共同決定Token定價。過去主要由成本決定,現在正向供需和場景傾斜。未來,場景價值會成為主導因素。第一,成本驅動。一個1GW的資料中心,電力是物理上限。誰產出更多Token,誰就能把成本攤薄。中國廠商能打價格戰,靠的就是成本優勢:一度電0.2-0.5元(歐美0.8-1.2元),對應單張B200晶片每年能省900美元。第二,能力分層。同樣是Token,能幫企業做業務的就比閒聊的貴,因為前者價值更大。輝達分層定價正是按能力分層。第三,供需關係。這是最直接的驅動因素。2026年2月,全球前十AI模型Token總消耗量突破27兆,中國貢獻14兆,佔比超50%,一年半漲了1800倍。但是供給端產能緊張,HBM視訊記憶體、先進製程GPU受限,伺服器成本上升。阿里雲、混元、騰訊、智譜漲價,直接原因就是“全球AI需求爆發”和“供應鏈漲價”。第四,場景價值。這是未來定價的主導因素。一個Token用在個人寫周報,價值幾毛錢;但用在金融交易、自動駕駛,價值幾百倍。國信證券指出,推理更看重使用者生態和調度效率,定價權正在從“算力供給方”向“場景需求方”轉移。誰的場景價值高,誰就願意付更高價格。在PC時代,有一個經典的安迪-比爾定律,即硬體提升的性能,很快被軟體消耗掉了,使用者永遠覺得不夠快。智能時代的“安迪-比爾”正在應驗,輝達每18-24個月性能翻倍,但AI智能體瘋狂消耗Token,算力永遠不夠用。Token不再是技術參數,而是經濟概念。印鈔機已經啟動,誰能掌握定價權,誰就能分到最大一塊蛋糕。 (原始碼悟真投研筆記)
阿里達摩院祭出開源架構CPU王炸,直指AI Agent
RISC-V摘掉緊箍咒!坐上高端算力牌桌,首次原生跑通千億大模型。近期,“龍蝦熱”席捲全球,以OpenClaw為代表的各類智能體加速湧向企業和個人,隨之而來的不僅是各行業領域生產力範式的變革,也帶來了底層晶片算力市場格局的深刻改變。在AI大模型已經全面進入Agentic AI(AI智能體)時代的今天,算力瓶頸不再侷限於GPU等大算力AI加速器,由於多並行和海量資料流轉的需求,CPU的重要性愈發凸顯,重新回到系統調度的舞台C位。海外GPU巨頭輝達也在最近的GTC大會上發佈了其自研的Vera伺服器CPU,以應對Agentic AI帶來的CPU瓶頸問題。CPU領域,相比傳統x86架構和Arm架構,RISC-V作為新興的指令集架構,其簡潔靈活易擴展、兼顧通用與AI算力、開源開放等特點幾乎都成為當前AI時代的“剛需”,成為其突出優勢。在這樣的產業大變局下,就在今天上午,阿里達摩院在2026玄鐵RISC-V生態大會上重磅發佈了新一代旗艦CPU IP——C950,其不僅在SPECint2006基準測試中史無前例地突破了70分大關,更首次實現了RISC-V CPU流暢跑通千億參數頂尖大模型。玄鐵C950的問世,標誌著RISC-V正式撕下“低端”標籤,在高性能與AI計算兩大核心戰場,與x86、Arm形成了實質性的“三足鼎立”之勢,成為Agentic AI時代晶片算力賽道的最大變數。01.衝刺高性能與AI市場徹底撕掉“低端”標籤AI智能體給RISC-V按下加速鍵從第一個5年的開源學術探索項目,到第二個5年國際標準和商用IP開始萌芽,再到如今第三個五年,今天基於RISC-V架構的晶片正迎來井噴式湧現。從架構提出到出貨100億顆處理器,RISC-V只用了12年,而x86架構用了30多年。走過第15個年頭的RISC-V,正在AI時代技術創新和市場需求的雙重驅動下,迸發出更旺盛生命力。目前,RISC-V晶片的商業化版圖正在快速擴張。在物聯網與邊緣計算市場,輝達、英飛凌等海外巨頭都在大量出貨基於RISC-V架構的MCU(微控製器)。輝達每年大約消耗10億個RISC-V核心,內建於其GPU、CPU、SoC 和其他產品中,其在2025年曾透露正在推進CUDA相容RISC-V架構;英飛凌則宣佈今後所有MCU都要基於RISC-V架構開發。在RISC-V高性能領域,資本動作也從未停止,比如高通此前就收購了RISC-V初創企業Ventana,試圖在高端市場尋找切入點。Meta則基於RISC-V架構自研AI晶片。行業資料的預測進一步印證了這一爆發趨勢。根據半導體權威分析機構SHD Group的最新預測資料,到2031年,RISC-V裝置數量將超過360億顆,年複合增長率高達31.7%;相關市場規模將超3000億美元。部分行業智庫甚至預測,到2030年,RISC-V有望佔據全球處理器市場25%的份額。儘管RISC-V在MCU、嵌入式、家電、儲存、多媒體、汽車、通訊、安全、終端等眾多領域呈現星火燎原之勢,但其長期以來始終無法擺脫“低端”晶片的固化標籤。RISC-V要想真正躋身主流晶片架構的牌桌,僅僅在邊緣側“打游擊”是遠遠不夠的。要想與x86和Arm三足鼎立,RISC-V必須在伺服器(高性能)和AI計算兩大核心戰場上證明自己。這不僅是技術層面的突破,也是晶片生態話語權的爭奪。02.C950打破RISC-V性能天花板7年深耕建構國內頂級RISC-V生態這次大會上阿里達摩院亮出的新一代旗艦CPU IP——C950,正是RISC-V在突圍高性能與AI計算、打破固有印象的一次“里程碑”式突破。在高性能方面,根據官方資料,在工業界公認的SPECint2006基準測試中,C950直接突破70分大關,其單核性能超過了22/GHz,最高主頻達3.2GHz,成為當之無愧的全球最強RISC-V CPU,逼近AMD Zen5、Intel GNR、Arm V2等行業高端產品。為了驗證其在真實環境下的可用性,達摩院進行了嚴苛的聯合測試。結果顯示,面對MySQL(資料庫)、Redis(記憶體快取)、Nginx(Web伺服器)、OpenSSL(安全協議)等伺服器經典工作負載,經軟硬體協同最佳化,C950的性能達到行業第一梯隊水平,雲網路、雲端儲存性能較部分主流產品提升在30%以上。眾所周知,AI Agent並非單純AI推理任務,而是典型的CPU密集型任務,大量並行指令需要序列執行,海量資料高頻流轉。C950通用計算性能的大幅提升,會顯著提升整體的系統效率。在軟體生態相容性方面,C950支援了國際最新規範檔案RVA23.1的全部標配和可選擴展。這一Profile標準的落地至關重要,它關係到整體系統的可靠性、安全性和資源利用率,可以極大便利RISC-V進入伺服器、AI、汽車等高端平台,並能無縫適配Linux、Android等主流作業系統環境。據瞭解,此次發佈的C950可以用於雲端運算、生成式AI、高端機器人、邊緣計算等諸多領域。實際上,在向高性能迭代的路上,達摩院玄鐵一直是RISC-V陣營中毋庸置疑的領跑者,回顧其產品演進,幾乎每一次迭代都在不斷打破行業的“天花板”,C950的推出不是曇花一現,而是持久深耕之下技術創新力的一次階段性集中體現。阿里巴巴從2018年起開始佈局RISC-V,是國內最早涉足RISC-V的技術團隊之一。早在2019年7月,阿里就發佈了當時業界性能最強的RISC-V CPU IP——玄鐵C910,其首次突破運行頻率2GHz的門檻,Specint2k6評測7/GHz。這一成績在當時給了行業極強的信心:RISC-V的架構設計在原理上沒有性能天花板。隨後C910的生態落地更進一步證明了其可用性。2024年,達摩院聯合中科院軟體所研發出全球首台穩定運行的RISC-V筆記型電腦、歐洲雲服務商Scaleway發佈了全球首個RISC-V雲實例,它們的計算底座都是C910。可以說,C910吹響了RISC-V衝向高性能的衝鋒號。當然,這只是一個開始,伺服器晶片才是真正考驗CPU通用算力極限的終極戰場。2025年發佈的玄鐵C930,通用算力達到SPECint2006基準測試15/GHz,首次邁過了伺服器晶片的入門門檻。RISC-V實現行業里程碑式突破的每一個關鍵節點,我們都能看到玄鐵的身影。而每一代玄鐵CPU的推出,都會帶動產業上下游企業參與進來,進一步加速RISC-V向高性能領域迭代的步伐。7年多來,阿里陸續推出C、E、R系列的16款RISC-V CPU,分別對應高性能、高能效、高可靠場景,這些CPU已經廣泛應用於伺服器、機器人、新能源汽車、工業控制、AI智能終端、儲存控製器等領域。根據官方資料,目前玄鐵CPU已應用於200多款量產晶片和近千款終端產品,客觀來看,玄鐵CPU已經形成了目前國內規模最大、最成熟的RISC-V產業生態。03.業內首次跑通頂級千億大模型劍指AI Agent時代新型算力中樞正如前文所說,高性能和AI計算是當前RISC-V晶片聚焦突破的核心戰場。在AI產業全面進入Agentic AI時代的今天,在新的計算範式下,CPU的重要性愈發突出,而玄鐵C950則是一款真正為AI Agent而生的新型CPU。在智能體當道的今天,使用電腦和筆記本的可能不再是單一個人,而是無數個自主運行的智能體,系統的Token呼叫量呈現出指數級的暴增。如何高效地載入和流轉KV-Cache、如何降低首Token延遲,成為了系統真正的瓶頸。在這個過程中,CPU不再是GPU的“配角”,而是作為系統任務調度和龐巨量資料流轉的“中樞”。針對這一行業趨勢痛點,達摩院玄鐵利用RISC-V架構天然的開放性和靈活性,賦予了CPU原生AI能力。此次達摩院發佈了兩款RISC-V原生AI計算引擎——4K超寬Vector引擎和Matrix引擎,與玄鐵CPU統一編址,消除資料複製瓶頸,從而將通用高性能算力與AI算力進行原生融合。其中,Matrix引擎專門為大模型張量計算加速,單核算力可以達到8TFLOPS。在實測中,搭載了玄鐵全自研Matrix(矩陣)加速引擎的C950,其AI推理表現稱得上驚豔,平均執行效率超過90%,典型演算法性能較行業提升2-3倍,其順利運行了當前業界頂級的Qwen3開源模型,以及對算力要求極高的DeepSeek V3“滿血版”。具體來看,運行Qwen3的輸出速度達34 Tokens/s,首Token延遲僅為3.4s;而運行DeepSeek V3的輸出速度達18 Tokens/s,首Token延遲1.7s。這是RISC-V CPU首次原生支援千億參數規模的大模型。這一突破意味著,在處理複雜的AI Agent推理與調度任務時,CPU可以極大緩解GPU的壓力,承擔更多AI計算任務,成為AI Agent時代AI計算新架構中的核心組成部分。在加速落地,讓行業客戶能充分發揮RISC-V特性優勢方面,此次阿里達摩院發佈的Flex平台無疑是RISC-V可擴展性的最佳證明,其可以很好的解決真實產業中的高度定製化需求。去年,達摩院玄鐵共支援了35家客戶進行了多達38項的CPU底層改動,其中超過一半的定製需求集中在AI加速、儲存最佳化、可靠性增強等特定垂直場景。簡單來說,Flex平台將造芯的主導權依然交還給產業,這一平台包括處理器建模、開發環境和軟體工具鏈等完整元件,客戶不僅能選擇“標配”的高性能玄鐵CPU作為基座,還可基於Flex進行深度的自訂修改,從而打造出最符合自身垂直場景需求的創新CPU。值得一提的是,像Vector(向量)加速、Matrix(矩陣)加速等高端AI能力,客戶也可以自行通過Flex平台來實現與整合,這無疑會顯著降低高端定製晶片的設計門檻。整體來看,RISC-V沒有歷史包袱,不需要相容過往幾十年的軟體棧,可以專注於實現最高效的AI Agent性能;RISC-V簡潔、靈活,易於擴展的特性則可以讓晶片設計企業根據AI軟體棧變化快速迭代,及時響應最新的算力需求。此外,AI Agent任務同時需要高性能的通用算力與AI算力,而RISC-V開源社區正在編製麵向矩陣計算(Matrix)的擴展指令,也就是把AI能力寫入RISC-V的“基因”,有望令RISC-V成為高性能通用計算與AI計算融合的最佳載體。最後,RISC-V開源開放的特點也進一步有助於破除技術壁壘,便於國家和企業層面將技術主動權握在自己手中。04.中國開源力量“會師”RISC-V主導全球標準話語權,產學研邁入深水區晶片行業多年發展證明:晶片架構的競爭從來不是單打獨鬥,而是生態陣營的較量。由於美國對高端半導體技術的持續限制,中國產業界正將RISC-V視為實現“矽主權”(Silicon Sovereignty)和底層技術自主可控的重要賽道。當前,中國開源力量正在RISC-V高性能生態中完成一次史無前例的“大會師”。從宏觀背景來看,RISC-V國際基金會(RISC-V International)為了保持技術中立,已將總部遷至瑞士。而在這個主導RISC-V技術走向的最高組織中,中國企業展現出了壓倒性的存在感。據最新公開資訊,在RISC-V國際基金會的19家“Premier(高級)”會員中,中國企業佔據了8家,遠超其他單一國家。在具體落地層面,阿里達摩院玄鐵正串聯起中國本土的產業生態。一方面,玄鐵與北京開源晶片研究院、中國科學院軟體研究所達成合作,共同研發下一代開源RISC-V高性能CPU香山及軟體生態,形成科研層面的“共振”。軟體生態層面,達摩院玄鐵積極參與OpenRuyi社區,目前以25.27%的Patch貢獻率穩居排名第一。在產業協同層面,達摩院玄鐵與中興通訊在RV國際基金會和開放原始碼軟體社區中強強聯手,共同推進伺服器領域開源元件的深度最佳化,使相關的儲存和編解碼性能得到了顯著提升。2023年,達摩院牽頭髮起的“無劍聯盟”,圍繞玄鐵CPU建構開放、協同、普惠的RISC-V晶片商業服務體系,給企業提供從晶片設計到應用的全鏈路能力,降低開發成本與風險,加速RISC-V產業化處理程序。在國際標準指定方面,達摩院玄鐵正在積極投入RISC-V國際基金會的核心工作,不僅主導了伺服器級晶片標準的制定並正式發佈,還深度參與了BRS、RPMI等伺服器關鍵規範的起草。特別是在AI領域,玄鐵正在主導Matrix擴展(AME)社區的討論及標準制定,這意味著未來全球的RISC-V晶片在演進AI矩陣計算能力時,可能遵循由中國主導制定的技術底層標準。05.結語:“頂峰相見”RISC-V開源生態劍指AI智能體時代達摩院玄鐵C950的發佈,絕不是一次測試跑分的“刷榜”,而是真正從通用計算性能和AI計算性能兩個關鍵方面實現突破,徹底打破了RISC-V“做不了高性能計算”的刻板印象。在產業層面,基於Flex平台的開放性,橫向聯合中國各領域RISC-V開源力量,達摩院玄鐵正在牽頭建構一套能夠與傳統封閉生態體系對抗的新業態。在這場“AI時代計算架構之戰”中,以玄鐵為代表的RISC-V陣營,已經拿到了AI Agent時代的高端算力殿堂“入場券”。 (智東西)
平頭哥,這下要封神了!
根據最新財報,2026財年截至2月底。阿里雲外部商業化收入,穩穩突破1000億元人民幣。3月19日晚的業績電話會上,吳泳銘拋出重磅目標。未來五年,包含MaaS在內的雲和AI商業化年收入,要突破1000億美元。換算下來,年均複合增長率要達到20%以上,難度不小。財報顯示,阿里雲季度收入增速持續加速,達到36%。增長動力主要來自公共雲業務,核心是AI相關產品的爆發。AI相關產品的表現,堪稱驚豔。收入連續第十個季度實現三位數同比增長。這意味著,AI已經成為阿里雲增長的核心引擎。吳泳銘在電話會上,解釋了千億美元目標的信心來源。核心就是大模型驅動的MaaS業務,正在快速崛起。過去三個月,百煉MaaS平台的Token消耗規模,暴漲6倍。他甚至直言,商業化MaaS收入,未來會成為阿里雲最大收入產品。除此之外,中大型企業的內部推理和訓練市場。也是阿里雲接下來要重點搶佔的增量市場。在吳泳銘看來,行業增長的最大動能,在於大模型的能力突破。現在的大模型,已經能逐步完成B端複雜工作流。這徹底改變了雲端運算市場的邏輯,也打開了增長空間。一個關鍵變化值得關注。很多企業不再把Token消耗當作預算,而是納入生產或研發成本。這意味著,AI已經從“可選”變成企業的“剛需”。為了抓住這個機遇,阿里早已提前佈局。全新的Alibaba Token Hub事業群(ATH)已經成立。核心目標就是“創造Token、輸送Token、應用Token”,打通全鏈路。ATH涵蓋了通義實驗室、MaaS業務線、千問事業部等核心類股。相當於把阿里的AI力量整合起來,集中發力。這種協同效應,後續會逐步顯現。大模型層面,阿里也在持續迭代。春節期間,新一代大模型Qwen3.5-Plus正式推出。吳泳銘透露,針對coding與agentic場景最佳化的新版本,也即將上線。對於AI行業的未來,吳泳銘的判斷很清醒。需求側,大模型的規模化法則還沒到瓶頸,能力仍在提升。行業能通過模型完成的事情,只會越來越多。供給側,現狀卻很緊張。AI伺服器從CPU到儲存,各個環節都在缺貨。擴產周期至少需要兩三年,算力供不應求將成常態。所以他直言,未來三年內,AI泡沫並不存在。需求旺盛而供給短缺,行業會處於良性增長階段。這也是阿里敢於定下千億美元目標的重要前提。AI進入智能體驅動階段後,玩法也變了。模型和應用必須緊密配合,缺一不可。阿里的優先順序很明確:先把模型能力做到最強。只有最強的模型,才能驅動各行各業的應用拓展。同時還要聯動阿里自身的B端、C端應用。通過MaaS連結行業應用,打通資料飛輪和業務閉環。財報裡,平頭哥的進展,是另一個大驚喜。其自主研發的GPU,已經實現規模化量產。能支援從訓練、微調到推理的端到端AI工作負載。截至2026年2月,平頭哥GPU累計交付47萬片。年化營收規模達到百億等級,商業化成效顯著。預計2026、2027年,產能還會進一步擴大。更關鍵的是,平頭哥晶片的外部滲透率很高。阿里雲場景中,60%以上的晶片服務於外部商業化客戶。已經支撐了400多家企業的AI任務,覆蓋多行業領域。吳泳銘強調,平頭哥的價值不止於成本最佳化。更重要的是,在全球算力緊缺的背景下,提供算力保障。至於IPO,目前沒有明確時間表,但不排除未來可能性。C端市場,千問APP的表現也很亮眼。2月6日春節推廣啟動後,截至2月底。近1.4億使用者通過其智能體功能,首次體驗AI購物。2月份,千問C端應用月活躍使用者數,突破3億。這意味著,阿里AI在C端的滲透,已經形成規模。也為後續的商業化,積累了大量使用者基礎。 (1 ic芯網)
阿里聯手中山大學放狠話:75%的Agent都在造“屎山”!233天連環大測,程式碼庫全崩了!自研新基準:GLM表現亮眼!網友:程式設計師飯碗保住了!
剛剛,一篇阿里聯合中山大學的研究在 X 上爆火了!今天一早,一位微軟產品故事講述者、前Google負責人級布道師 Priyanka Vergadia 分享了一則 X 帖子迅速走火,短短一天內獲8700+點贊、170萬+瀏覽。這篇高贊帖子描述了一項來自阿里巴巴團隊的研究,它是一場 233 天、總消耗達 100 億 token ,在真實生產環境中對主流的 8 家模型廠商提供的 18 個智能體的“耐力”實驗,最終證明了 AI 不會搶走人類開發者的飯碗!Priyanka 總結說:AI 只是編寫了一些遺留程式碼,未來十年你都得忙著修復它們!而一位業內人士對此表示,該項真正的重點在於:阿里團隊做了一個真正有意義的評分體系!小編這就帶大家看下這篇研究。戳破泡沫:一次性修復不叫“程式設計”,那叫“撞大運”該篇論文的名稱是《SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration》,由阿里巴巴集團與中山大學聯合完成。論文拋出了一個業內都有明顯體感,但沒人著手思考解決的“長期軟體評估”問題:現在的AI Agent,在 HumanEval 或 SWE-bench 這種“單向考試”裡刷分刷得飛起。只要給它一個明確的Bug,它就能咔嚓一下修好。但現實開發的現狀是: 程式碼是“活”的。今天你修了一個Bug,明天產品經理改了需求,後天底層依賴庫升了級。這一過程並不能被靜態、一次性的修復範式所刻畫。阿里和中山大學的研究團隊提出來一種新的性能標準: 衡量一個 AI 牛不牛,不看它能不能修好眼前的Bug,而要看它在長達半年的項目演進中,能不能不把程式碼庫搞崩。SWE-CI:233天、耗費百億token的“極限耐力賽”因此,為了測試AI的真實“抗壓能力”,研究團隊祭出了一種基於持續整合(Continuous Integration)流程建構的倉庫級基準:SWE-CI,首次將軟體工程評估從“一次性快照”轉向“長期演化”。該基準包含 100 個真實程式碼庫任務,每個任務平均對應一個真實程式碼倉庫中長達233天、包含71次連續提交的演進歷史。簡單理解,SWE-CL 就是對是一場極為殘酷的“智能體耐力賽”!真實戰場: 選取的任務跨度平均達 233天,涵蓋 71次連續提交。模擬人類: AI不再是修完就跑,而是要像真正的開發者一樣,在 CI(持續整合) 的死循環裡,應對一輪又一輪的需求變更。殘酷規則: 這是一場總消耗超過 100億 Token 的極限耐力賽。這裡列出一些更詳細設定:每個SWE-CI任務都來自GitHub上68個真實Python倉庫(維護≥3年、≥500星、含單元測試和依賴配置檔案)。任務定義為:從“基線提交”(base commit)演化到“目標提交”(oracle commit),平均跨越233天、71次提交、至少500行原始碼變更(不含測試)。代理必須在 Docker 隔離環境中,通過最多20輪迭代,逐步完成需求變更。值得注意的是,雙Agent架構:架構師Agent:分析失敗測試、定位根因,輸出1-5條高層次增量需求文件。程式設計師Agent:遵循TDD(測試驅動開發)流程,實際修改程式碼。整個過程模擬真實CI/CD流水線,每一次變更都會影響後續狀態,前期決策的後果會逐步累積。這正是傳統基準無法模擬的“長期記憶”與“技術債務放大器”。因此,評估指標也從單一通過率升級為兩個核心維度:1、零回歸率(Zero-Regression Rate):在任務演化過程中,最初通過的測試在後續變更後仍保持通過的比例。2、lEvoScore:一種加權平均指標,公式為 EvoScore = Σ(i=1 to N) γ^i × a(ci) / Σ(i=1 to N) γ^i,其中γ>1對後期迭代賦予更高權重,強調長期穩定性。當γ=1時退化為普通平均歸一化變更得分。戰況慘烈:75% AI正在瘋狂製造“技術債”實驗結果讓所有人脊背發涼。即便是在2026年這樣一個 Vibe Coding 都顯得落伍的時間點,主流智能體的表現依然像個“只會打補丁的實習生”。第一,“零回歸率”之痛:在模擬真實開發的長期測試中,絕大多數大模型的“零回歸率”竟然不到 25%。這意味著它們每改四次程式碼,至少有三次會搞壞原本正常的功能。第二,程式碼庫雪崩: 隨著項目演進,大多數模型產生的技術債呈指數級增長。前期看似高效,後期改動一下,整個系統直接原地爆炸。那麼,這場耐力賽中,誰是最後贏家呢?如果你對程式設計Agent有關注,相信你已經猜到了,自然是 Claude 4.5/4.6。它是唯一能在長周期維護中保持 50%以上零回歸率的選手,展現出了極強的“架構師思維”。GLM-5: 作為國產大模型的代表,在應對長期程式碼演進時表現搶眼,穩居第一梯隊。驚喜發現:GLM、Kimi是救火隊長,DeepSeek、Minimax是架構大師值得注意的是,論文中還發現了智能體也存在明顯的“AI人格”現象。不同模型廠商之間的偏好差異顯著,而同一廠商旗下的程式設計智能體往往表現出一致的傾向。具體而言:“走一步看一步”型(Kimi, GLM): 這些模型在修改程式碼時更激進,追求立刻解決當下的 Bug 或需求,但在長遠看來,它們可能較快地耗盡了程式碼庫的演進空間。“長線規劃”型(GPT, DeepSeek, MiniMax): 這些模型在修改時可能更謹慎,會考慮到程式碼結構對未來的影響,更具有“架構師”潛質。“全能穩健”型(Claude, Doubao,Qwen): 無論你更看重眼前還是長遠,它們的表現都非常均衡。尤其是 Claude,結合之前的排名看,它是在保持穩定的同時,水平上限也最高的選手。具體怎麼做的呢?團隊通過調整參數 γ 的值,來觀察模型排名隨之產生的變化。當 γ<1 時,EvoScore 會給早期迭代分配更高的權重,這有利於那些優先考慮程式碼修改“即時收益”的模型。相反,當 γ>1 時,後期迭代會獲得更多獎勵,從而讓那些為“長期改進”而最佳化(即優先考慮程式碼可維護性)的模型佔據優勢。對於這個現象,研究人員推測,這反映了不同廠商在訓練策略上的差異;而各廠商內部模型的一致性則表明,其內部訓練流水線(Pipelines)在大體上保持了穩定。為什麼智能體如此容易積累技術債務?論文間接給出兩點原因:首先是短期最優決策:模型傾向於“最快通過當前測試”的方案,而非全域最優架構。上下文遺忘:即使多輪迭代,模型對早期變更的深層影響理解不足。其次,模型有依賴與邊界敏感性:真實倉庫的外部依賴、配置漂移、邊緣案例遠超訓練資料覆蓋範圍。這意味著:現實中,一家公司若大規模採用AI生成程式碼,初期交付速度可能翻倍,但6~12個月後維護成本可能指數級上升——bug修復、重構、遷移難度都會放大。未來方向:從“快修”到“可持續”這篇論文可以說用一場真實大規模實驗,驗證了一點:目前的絕大多數 AI Agent 都是“紙牌屋建築師”。它們追求當下的測試通過率,卻對程式碼的長期生命力一無所知。而 SWE-CI 的意義在於,它把 AI 程式設計的門檻從“跑得通”拉高到了“可維護”的實用層面。SWE-CI更多的意義在於提供“診斷工具”:企業可利用類似基準測試自家 AI 工作流,提前識別那些模型適合“長期駐紮”。他們給出了三個 SWE-CI 的最佳化方向:其一,提高γ權重可鼓勵模型追求長期穩定;其二,雙Agent架構可進一步最佳化(例如加入“回顧Agent”反思歷史決策);其三,與現有工具鏈結合(如自動生成維護文件、回歸測試優先順序排序)有望緩解問題。智能體有希望在耐力上獲得成功嗎?但研究者的本意,並不是祛魅智能體,“ SWE-CI 本身就是進步的催化劑”。他們認為,智能體在耐力上是有望突破的。首先,Claude 4.5/4.6的領先或許預示著,更強的推理能力(而非單純生成)是突破關鍵。其次,未來模型若能內建“架構意識”“債務評估模組”,或與靜態分析工具深度融合,維護能力或將迎來質變。項目已開源目前,SWE-CI 開源倉庫和 Hugging Face資料集都已上線,大家都可以自行復現、擴展。這意味著,2026年之後,AI編碼競賽的賽道將從“誰寫得快”轉向“誰寫得穩”。SWE-CI 開源地址:https://github.com/SKYLENAGE-AI/SWE-CIhttps://huggingface.co/datasets/skylenage/SWE-CI網友炸了:1000億美元,就是為了自動化技術債務?正如論文中所說:“Agent 的程式碼維護能力只有通過長期演化才能顯現,過去決策的後果會在連續變更中累積。”對此,不少網友表示無語了:AI Coding 的越快,積累債務的速度也就越快!X 評論區也有人諷刺:“AI自動化了遺留程式碼的生產線”、“我們花1000億美元算力,就是為了完美模擬一個‘快速出貨、8個月後棄坑的初級開發’”。HN 討論區甚至有人提問:“當 SWE-CI 成為新標竿後,AI 編碼工具的估值邏輯是否需要重寫?”所以,這麼看,程式設計師的飯碗總算保住了。但網友卻調侃:“現在安全了?但能撐10年?10個月?還是10天?”“寫程式碼 ≠ 維護系統。” 一位名為 Stephen Collins 的 Medium 作者表示:軟體工程從來不只是“寫程式碼”。它更關乎如何管理複雜性、演進系統架構,以及在成千上萬次變更中保持關鍵不變數的穩定。而 SWE-CI 這一基準表明,這些挑戰對當前的AI智能體來說依然是難點。這也意味著,下一代開發者工具的重心,很可能會從“生成程式碼”,轉向“理解系統”。而與此同時,真正高效的開發者,永遠是那些能夠清晰理解系統的人:知道那些部分最關鍵,風險集中在那裡,以及注意力該放在那。 (51CTO技術堆疊)