#Agent
OpenClaw殺出中國黑馬,全球開發者狂呼真香!一場深夜AMA撕開底牌
【新智元導讀】OpenClaw爆火,AI正式步入Agent時代。一支低調的中國團隊憑藉極速推理、完美適配128G記憶體的196B模型,直擊痛點,強勢登頂海外熱榜。2026年才剛剛開始,AI圈的風向就已經變了。全網最火OpenClaw一夜之間,將大模型從乏味的「對話方塊」,拉到了「自動執行中樞」的時代。OpenClaw GitHub星標狂飆200k放眼海外,OpenClaw開源生態迎來了史詩級大爆發。核心Skill註冊平台ClawHub成為全球開發者的進貨天堂。這裡彙集了超過5000個由社區貢獻的海量Agent Skills就在最近,國內一款類似的平台「水產市場」迅速走紅。上線短短幾天時間,已有3.3k下載量,開發者們紛紛一鍵接入了自己的龍蝦。它的核心邏輯,就把各種散落GitHub工具,全部集中上架,讓Agent隨調隨用。當AI被捲成「超級牛馬」,開發者的投票邏輯也變得更加直接:在複雜的長程任務中,誰的速度奇快無比、邏輯足夠強悍,且能與各類工具絲滑地聯動,誰就能贏下這一局。正是在這樣一個「實戰為王」的節點,一個低調的中國大模型團隊——階躍星辰(StepFun),憑藉著最新發佈的Step 3.5 Flash,穩穩接住了這波最炙手可熱的流量紅利。全球「逮蝦戶」爭用中國黑馬模型由於OpenClaw運行需要大量呼叫大模型API,OpenRouter作為全球最大的模型聚合平台,自然成了最直接的「戰場」。在GPT等強敵包圍之下,Step 3.5 Flash異軍突起,不僅成功躋身Fastest榜的第一梯隊,甚至還一度拿下了Trending榜的榜首。一個代表速度,一個代表趨勢,精準命中了Agent時代開發者最關心的兩個維度:快,以及越來越多人在用。根據「Last 30 days」呼叫量排行,Step 3.5 Flash目前穩居全球第四;2月26日以來,單天呼叫量則直接衝到了第三的位置。不過,更值得玩味的是,這份成績是怎麼來的。階躍CTO朱亦博後來在Reddit上透露:Step 3.5 Flash既不在OpenClaw默認配置的首頁推薦列表裡,也沒有跟OpenClaw做過任何官方推廣合作。換句話說,這完全是開發者自發選擇的結果——用腳投票,一票一個token。潛入Reddit海外開發者「真香」現場隨著呼叫量的飆升,階躍的核心團隊做客了全球最硬核、最挑剔的本地大模型開源社區Reddit的 r/LocalLLaMA 類股,開啟了一場長達數小時的AMA(Ask Me Anything)。熟悉這個社區的人都知道,r/LocalLLaMA的活躍使用者是全球最硬核的獨立開發者。他們不看PPT,不信行銷話術,只看模型能不能在自己的本地機器上絲滑跑起來。面對這群最挑剔的極客,StepFun派出了包括CEO、CTO、首席科學家在內的全明星陣容,十一人集體線上答疑。面對海外極客尖銳的技術提問、乃至對工程Bug的「貼臉開大」,階躍交出了一場真誠且硬核的答卷。而把這場跨洋對話和近期的榜單逆襲放在一起看,不僅能解開Step 3.5 Flash在海外意外走紅的底層邏輯,更能讓我們看到:在算力與生態的重重約束下,一家中國創業公司是如何蹚出一條破局之路的。先說速度。在Chatbot時代,大模型只要保持20~30 tokens/s的輸出速度就夠了,因為使用者會盯著螢幕看它「打字」,再快也讀不過來。但在Agent時代,遊戲的玩法徹底變了。當使用者使用OpenClaw這類工具完成長程任務時,沒有人會緊盯模型輸出的每一個字——大家只關心「你什麼時候能把活幹完交付給我」。速度,從「錦上添花」變成了「生死攸關」。海外使用者的真實反饋印證了這一點。在AMA中,有網友直言:「實測用於OpenClaw特別好用,速度奇快無比,是所有模型裡最滿意的一個」。再說尺寸。如果說速度是熱情的引線,那麼點燃這場AMA最高潮的,是一個看似平淡的參數設定:約196B的MoE架構。在開發者眼中,這個尺寸簡直是「神來之筆」。知名評論者ilintar激動地留言:「我覺得196B MoE是一個完美的參數規模——它允許高品質的4-bit量化加上合理的上下文長度剛好能放入128 GB記憶體中。」這個「卡點」並非巧合。朱亦博在AMA中坦言:我們的確有一個目標,就是讓它能夠跑在一個128 GB記憶體系統的記憶體中。我自己為了跑模型,自掏腰包買了一台128GB記憶體的Macbook Pro,而我們的首席科學家也買了一台128GB記憶體的AMD機器。因為自己是資深的本地模型玩家,所以深知痛點。現有的許多230B等級的模型,在進行4-bit量化後,恰好超出了128GB記憶體的承載極限,迫使開發者只能犧牲性能去使用3-bit甚至更低精度的量化,或者忍受極慢的硬碟解除安裝。為了讓開發者能夠用4-bit暢快跑滿256K上下文,階躍硬生生將尺寸「克制」在了比235B略小的區間。這不僅是技術上的精打細算,更是對開源社區真實需求的深刻共情。難怪有使用者感慨:「你們能考慮到128GB的範圍真是太棒了」。當然,反饋並不只有鮮花。有開發者尖銳地指出,Step 3.5 Flash在發佈首日,工具呼叫在vLLM、llama.cpp等主流推理棧上完全不可用,甚至直接放棄測試退回了競品模型。面對這種「貼臉輸出」的質疑,CTO朱亦博親自下場道歉:這確實暴露出我們在發佈支援工具呼叫的模型方面經驗不足……我們只確保了數學和編碼的基準測試結果,但測試用例沒有覆蓋到工具呼叫的工程實現。針對使用者反饋的模型會陷入「無限推理循環」的Bug,團隊也毫不迴避。他們詳細解釋了這是因為缺乏不同推理強度(Reasoning effort)的訓練資料,並公開了下一步通過RL進行顯式長度控制的修複方案。甚至,在談到「世界知識的遺忘」這一深度技術難題時,團隊也大方分享了他們的困境與假設:對於200B規模的推理模型,在從預訓練轉向推理模式冷啟動的對齊階段,模型很容易陷入一個「知識貧乏的閉合子空間」,付出了過高的「對齊稅」,導致世界知識受損。這種不迴避缺陷、甚至把踩過的坑掰開揉碎了講給社區聽的態度,贏得了極客們的極大尊重。開源社區最終只相信一件事情:你是不是在真正解決問題,你是否與開發者站在一起。有使用者甚至主動提出:「如果我能在下個版本前搞定自動解析器,你們至少不用擔心llama.cpp的工具呼叫支援了」。這,就是開放原始碼的力量。196B參數背後的設計哲學從CTO朱亦博最近發佈多的一篇長文中,我們洞察到了階躍在大模型路線上的戰略判斷邏輯。第一個判斷:大模型時代正在切換賽道。當前,大模型的演進劃分為三個階段:L1 Chatbot(對話機器人)→ L2 Reasoner(推理器)→ L3 Agent(智能體)。針對不同階段,適合的「基座架構」也是不同的。也就是說,強行用上一代的基模結構做下一代的事,不是不行,只是效率極低。而對於沒有海外巨頭那樣充沛算力的中國公司而言,低效就是致命的。第二個判斷:Agent時代,速度比參數更重要。比起狂捲參數,一個擁有極致效率的模型更加重要。這意味著,模型的推理速度,從「體驗最佳化項」變成了「核心競爭力」。因此,Step 3.5 Flash的設計目標被精準地定義為三個詞:強邏輯、長上下文、快。在架構方面,它採用了高效的稀疏MoE,並選擇了對投機採樣最友好的SWA結構;在端側部署方面,團隊堅持用8個Group,以適配8卡平行的推理硬體。這種從一開始就將「智能密度」和「推理速度」作為雙重北極星指標的做法,讓Step 3.5 Flash在沒有盲目堆砌參數的情況下,成為了一台完美契合Agent工作流的「性能小鋼炮」。第三個判斷:拒絕梭哈,可持續發展才是正道。這場AMA和背後的開發故事中,最讓人深思的,其實是階躍星辰對「大參數模型」的祛魅。在階躍看來,訓大尺寸模型很容易陷入一個死胡同:訓練周期太長,等好不容易訓成熟了,上一個智能時代已經進入尾聲,新的範式(如長鏈條推理)已經出現,為了適應新時代又不得不推倒重來。這需要巨頭般深不見底的算力儲備,對於創業公司而言,「就是場要麼爆火要麼爆虧的豪賭」。更深入的技術洞察在於:模型尺寸到了一定程度後,和邏輯能力的相關度就不大了,邏輯能力主要吃後訓練技術。在巨頭中間蹚出一條「實戰派」之路縱觀整個2026年開春的大模型戰局,市場正在發生劇烈的重構。前兩年的邏輯是誰能跑分更高,誰能更接近所謂的SOTA。但在今天,這條坐標軸正在轉向:誰能在算力約束下跑出現金流?誰能在模型能力與推理成本之間找到極致的平衡?Step 3.5 Flash的出現,以及它在Reddit引發的狂熱和在OpenClaw榜單上的逆襲,給出了一個極具啟發性的答案。算力不佔優勢,就把系統和演算法的聯合設計做到極致;做不了通殺一切的兆全能怪獸,就針對Agent時代的核心痛點(長上下文效率、極速推理、強邏輯後訓練)進行定點爆破;在商業化上,通過提供「最符合硬體部署甜點位(128GB)」的高效工具,自然而然地接住了OpenClaw帶來的開發者流量。正如團隊在AMA中所說:「訓練基礎模型既是科學也是工程。最重要的是每個團隊成員都理解設計目標。當目標清晰時,演算法選擇、資料清洗和基礎設施決策就會自然對齊。」這或許才是2026年AI競爭最真實的樣子——不是實驗室裡的跑分遊戲,而是真實工作流中的生死時速。當你的模型每天被全球開發者呼叫數百億tokens時,任何花哨的PPT都不如一句「it just works」來得有說服力。至少在此刻,階躍星辰的Step 3.5 Flash已經用一種最樸素的方式證明了自己的價值:在一個老外用英語提問、中國工程師用英語回答的深夜Reddit帖子裡,在一個個被全球開發者敲進配置檔案的模型名字裡。不需要翻譯,程式碼就是最好的語言。 (新智元)
【輝達財報】輝達NVDA 26Q4最新財報分析,Agent拐點已至,繼續高歌猛進
1. 財報摘要輝達(NVIDIA)發佈了強勁的2026財年第四季度財報,營收達到681億美元,同比增長73%,淨利潤同比激增94%,主要得益於Blackwell架構產品的全面放量及Networking業務的爆發式增長。公司給出的2027財年Q1營收指引高達780億美元,遠超市場預期,管理層對“代理AI(Agentic AI)”及“物理AI(Physical AI)”驅動的長期需求表達了極度樂觀的態度,盤後股價並在近期維持上漲趨勢。財報亮點表2. 核心財務資料和業務表現本季度輝達業績再次展現驚人的爆發力,營收錄得681.3億美元,同比增長73.2%,不僅刷新歷史紀錄,更顯著超出市場普遍預期。盈利能力方面,淨利潤達到429.6億美元,同比暴增94.5%,稀釋後每股收益(EPS)為1.76美元,幾近翻倍。這一超預期表現主要源於Blackwell架構產品的強勁爬坡以及高利潤率的資料中心業務佔比進一步提升。公司的Non-GAAP毛利率穩定在75.2%,儘管面臨新產品匯入的成本壓力,但憑藉極強的定價權和規模效應,依然保持在歷史高位。營運費用雖然同比增長45%,但遠低於營收增速,體現了極佳的經營槓桿。值得注意的是,公司全年自由現金流達到970億美元,本季度回饋股東金額佔自由現金流的43%,財務狀況極其健康。3. 指引與管理層觀點輝達給出的指引極具攻擊性,預計2027財年第一季度營收將達到780億美元(±2%),這意味著在如此龐大的體量下仍將實現約14.5%的環比增長,大超市場預期。毛利率指引維持在75%左右,顯示出新舊產品過渡期的利潤率韌性。管理層在電話會上釋放了極度樂觀的訊號,強調需求能見度已延伸至2027年。CEO黃仁勳明確表示:“算力即收入(Compute equals revenues)”,並指出“代理AI(Agentic AI)”的爆發使得推理需求呈指數級增長。他提到:“Claude與OpenAI帶來的計算需求正在飆升,代理AI的ChatGPT時刻已經到來。”此外,管理層透露下一代Rubin平台已送樣,預計下半年量產,並將物理AI(機器人、自動駕駛)視為下一個千億級增長點。4. 業務亮點與驅動因素分部門業績:資料中心業務本季度營收620億美元,同比+75%,是絕對的核心引擎;網路業務(Networking)表現最為搶眼,營收110億美元,同比暴增3.5倍;專業可視化業務同比大增+159%,首次突破10億美元大關;遊戲業務亦錄得+47%的強勁增長。驅動因素:業績爆發的核心驅動力在於Blackwell架構產品的供不應求以及Hopper產品的持續熱銷。雲服務商(CSP)資本開支激增,Meta、OpenAI等客戶正部署數百萬顆GPU。此外,乙太網路(Spectrum-X)在AI工廠中的滲透率大幅提升,推動了網路業務的倍數級增長。主權AI(Sovereign AI)成為新增長極,年化收入已超300億美元。特別事項:公司宣佈了對Anthropic的100億美元戰略投資,並加深了與OpenAI的合作。同時,下一代Rubin平台(包括Vera CPU和Rubin GPU)正式發佈,預計推理成本將比Blackwell降低10倍,進一步鞏固技術護城河。儘管中國市場仍面臨出口管制的不確定性,但目前並未對整體高增長構成實質拖累。5. 行業趨勢與前景在生成式AI向**代理AI(Agentic AI)和物理AI(Physical AI)演進的浪潮下,全球算力需求正經歷結構性升級。根據管理層在電話會上的披露,頭部雲服務商(Hyperscalers)的資本開支(CapEx)總額正逼近7000億美元,且重心全面轉向AI基礎設施。當前行業正處於從單一聊天機器人向能夠執行複雜任務的AI代理轉變的拐點,這導致推理(Inference)算力需求呈指數級增長。管理層強調“算力即收入(Compute equals revenues)”,並指出乙太網路(Spectrum-X)和主權AI(Sovereign AI)正在成為新的增長極。儘管供應鏈(尤其是CoWoS封裝和HBM記憶體)至2027年仍將維持緊平衡,但管理層對長期需求持極度樂觀態度,認為資料中心正演變為產生數字代幣(Tokens)的新型工廠。6. 市場反應財報公佈後,輝達股價在盤後交易中上漲約1.4%至195.6美元附近,並未出現劇烈波動。儘管業績與指引均大幅超預期,但市場反應相對溫和,主要原因是股價在財報發佈前已處於歷史高位,且部分利多已被市場定價;投資者當前情緒積極但理性,關注點已從單純的業績數字轉向Blackwell產能爬坡速度及下一代Rubin平台的推出時間表。7. 估值分析與機構觀點當前輝達股價(約195.6美元)對應2026財年(TTM)市盈率約48.5倍,但考慮到公司預計2027財年Q1營收將達780億美元,其遠期市盈率(Forward PE)快速下降至30倍左右。從PEG指標來看,鑑於淨利潤接近100%的同比增速,PEG遠低於1,顯示相對於其爆發式增長,當前估值相對合理甚至略顯低估。華爾街分析師對輝達維持壓倒性的看多型度:目前主流機構幾乎全線給予“買入(Buy)”或“跑贏大盤(Outperform)”評級。根據最新統計,分析師平均目標價約為 267美元,較現價有約 36% 的上漲空間。部分樂觀分析師(如Cantor Fitzgerald)甚至看高至300-400美元,認為AI基礎設施建設周期將持續至2030年。8. 風險提示供應鏈瓶頸風險:Blackwell及未來Rubin平台對CoWoS封裝和HBM記憶體需求巨大,若上游台積電或儲存廠商擴產不及預期,將直接限制公司營收上限。地緣政治與出口管制:美國針對中國市場的出口管制政策存在不確定性,雖然目前非中國區需求強勁,但長期來看,地緣政治摩擦可能導致關鍵市場缺失或供應鏈割裂。客戶集中度與自研晶片風險:前五大客戶(主要是雲巨頭)佔據營收半壁江山,且Google(TPU)、AWS(Trainium)等客戶正加速自研ASIC晶片,長期可能分流部分推理市場份額。AI變現可持續性風險:若下游應用(如AI代理、軟體服務)無法產生足夠的投資回報率(ROI),可能導致客戶在未來縮減基礎設施資本開支。 (老王說事)
AI越繁榮,經濟越蕭條!一夜爆火2028推演長文,引發華爾街巨頭恐慌
【新智元導讀】隨著AI即將抵達自我進化的AGI奇點和Agent氾濫的「AI繁榮」,一場更徹底的經濟危機已經在迅速醞釀中:AI能力提升 → 裁員增加、工資降級 → 消費疲弱 → 企業利潤被擠壓 → 企業購買更多AI能力 → AI能力繼續提升。所有平台層將被Agent徹底擊穿,而房貸和私募基金將成為危機的加速器。就在這兩天,由 CitriniResearch 執筆的文章《2028年全球智能危機》在美國投資者間引發病毒式傳播,閱讀一夜間已迅速達到千萬級!這篇文章通過推演,構想了兩年後Agent大規模普及,對人類社會與經濟結構的劇烈衝擊:在2028年,儘管人工智慧帶來的生產力提升超出預期,但由於其徹底顛覆了傳統白領就業市場,最終引發了「經濟瘟疫」。企業利潤與算力霸權大幅擴張,但普通家庭收入急劇收縮,導致核心消費動力衰竭,形成了僅有數字繁榮而缺乏廣泛收益的「幽靈GDP」。同時,隨著SaaS服務、中介行業及傳統金融支付模式因「交易摩擦消失」而面臨結構性崩塌,風險經由私募信貸市場蔓延至人壽保險與住房按揭領域,最終可能將全球經濟拖入系統性重定價的深淵。文章的核心邏輯鏈條是:第一輪負反饋發生在實體經濟:AI能力提升 → 裁員增加、工資降級 → 消費疲弱 → 企業利潤被擠壓 → 企業購買更多AI能力 → AI能力繼續提升。隨後它進入金融層面:收入降低開始侵蝕房貸 → 銀行損失、收緊信貸 → 財富效應破裂 → 反饋回路加速。而這兩條回路又被遲緩的政策響應進一步放大。市場對此推演迅速作出反應。截至昨日收盤,文中點名的多家上市公司股價普遍下跌。原文很長(https://www.citriniresearch.com/p/2028gic),以下是我們根據原文進行的凝練式改寫,儘可能在紛雜的文字中提取並顯露出其中的邏輯鏈條,同時儘量減少關鍵資訊的損失。接下來進入正文部分。Welcome to Cyberpunk 2028.智能過剩的後果2028年6月的一份宏觀備忘錄把「AI繁榮」翻譯成了另一種更接近真相的語言。美國失業率當日昇至10.2%,高出預期0.3個百分點;標普500自2026年10月高點回撤38%。更令人不安的並非資料本身,而是市場的反應方式:交易員幾乎沒有情緒波動,彷彿半年前足以觸發熔斷的衝擊,如今只剩一聲悶響。兩年前(2026年),華爾街還沉浸在另一幅圖景裡。2026年10月,標普一度逼近8000點,納指突破3萬點。第一波白領裁員在2026年初出現,邏輯看起來無可挑剔:人力成本下降,利潤率擴張,財報超預期,股價上行。企業利潤又被迅速回流到算力採購,形成一條看似正向的增長鏈。宏觀「抬頭資料」也配合表演。名義GDP多次報出中高個位數年化增速,生產率飆升,每小時真實產出增速被形容為「自上世紀50年代以來未見」。Agent不休息、不請假、也不需要醫保,人類勞動的單位成本在財務模型裡被一筆勾銷。算力的所有者財富暴漲,勞動者的實際工資增長卻斷崖式下滑。隨後,「幽靈GDP」成為流行語:產出寫進國民帳戶,卻不再穿過居民部門回到真實消費。經濟的癥結因此暴露得直白而殘酷。一座美國北達科他州的GPU叢集可以替代曼哈頓中城一萬名白領的產出,卻不會在周末買車、裝修、度假,也不會在餐廳點一杯酒。貨幣流通速度在這場效率革命中趨於停滯,以人為核心、曾佔GDP約7成的消費經濟開始枯萎。產出仍在,循環斷了。反身性回路,從軟體開始故事的起點往往不在宏觀,而在採購部門。2025年末,Agentic程式設計工具能力出現躍遷式進步,一個熟練開發者借助新工具,數周內就能復刻中端SaaS產品的核心功能。它未必完美,卻足以讓審閱50萬美元年續費合同的CIO問出那句致命問題:要不要自己做。企業年度預算多在2025年四季度鎖定,那時「Agentic AI」仍是熱詞。到了2026年年中復盤,採購團隊第一次用「看得見的能力」談判。有人甚至把OpenAI等公司的駐場工程師當作籌碼,逼供應商讓價,續約能拿到三折的折扣已被視為「體面結局」。長尾SaaS先倒下,市場原本以為系統底座足夠安全,直到2026年第三季度的ServiceNow給出警訊:新增合同額增速從23%放緩至14%,同時宣佈裁員15%,股價單日下跌18%。SaaS並未立刻死亡,自建仍有維護成本;變化發生在「自建成為可選項」,它進入了定價談判,也把差異化本身打成了消耗品。AI讓功能迭代變快,競爭變成價格戰;新玩家沒有歷史成本,搶份額更狠。更陰冷的一層在於「席位經濟」的機械性:客戶裁掉15%員工,就會取消15%許可證。AI幫客戶壓降人力支出,同時也在拆掉供應商的收入底座。傳統顛覆敘事裡,巨頭會抗拒新技術,緩慢敗退;2026年的巨頭幾乎沒有資格抗拒。股價下跌四到六成,董事會逼問答案,唯一能做的是裁員,把省下的錢投向AI,用更少的人維持產出。個體選擇都合理,合起來卻像把燃料潑向火場:每省下一美元人力,都會轉化為下一輪裁員可用的智能能力。軟體只是開場,反身性回路很快溢出到所有以白領成本為核心的行業。摩擦歸零,中介層塌方到2027年初,大模型使用變成默認設定,很多人甚至說不清「Agent」是什麼,卻在手機裡無感地讓它替自己做決策。開源Agent購物助手的出現更像一個導火索,幾周內主流助手紛紛接入Agentic電商。模型蒸餾讓Agent能在手機與電腦本地運行,推理成本下探到足以被忽略的水平。Agent們不再等待人類提問,而是按偏好在後台持續最佳化消費路徑。到2027年3月,美國「中位數個體」日均消耗40萬tokens,較2026年底增長十倍。隨後被拆解的是中介。過去半個世紀,許多商業帝國建立在人的侷限上:沒時間比價、懶得取消訂閱、默認續費、嫌麻煩就接受更差的價格。Agent把這一層「租金抽取」翻譯成演算法問題。被閒置數月仍自動續費的會員,被Agent視為可談判的「人質條款」;訂閱經濟賴以成立的LTV(使用者的生命周期價值)開始明顯下滑。旅行預訂平台率先受挫,因為場景最標準化。Agent可以更快更便宜地拼出完整行程,並把積分、預算、退款條件一起算進去。保險續保同樣遭到重寫,依靠投保人惰性賺取的15%到20%保費空間被每年自動比價的Agent拆掉。理財建議、報稅、常規法律服務等「替你穿越你嫌麻煩的複雜性」的行業,也在Agent眼裡失去了壁壘。就連以「關係」為護城河的房地產也開始鬆動。擁有MLS資料與多年成交記錄的Agent複製知識體系幾乎不費力,主要城市買方佣金從2.5%到3%壓縮到1%以下,越來越多交易在買方側不再需要人類經紀人。很多被稱作「關係」的東西,顯露出本質是一張張人的笑臉包裝起來的「交流摩擦」。「習慣性中介」也在此刻失去意義。DoorDash成為典型樣本,程式設計Agent把做配送App的門檻打穿,數十個競品湧現,以90%到95%的配送費讓利吸走騎手;多平台接單工具又把鎖定效應抹平。Agent一旦掌控交易入口,就會在不同平台與餐廳自營網站之間無差別比價,所謂「主屏上的默認App」對機器毫無作用,市場在一夜之間碎片化,利潤率幾近歸零。當交易由Agent驅動,下一顆被瞄準的釘子是手續費。機器對機器的支付裡,信用卡2%到3%的交換費率顯得過於刺眼。Agent開始偏向更快更便宜的結算路徑,穩定幣在Solana或以太坊二層網路上的近乎即時結算與極低手續費,成為自然選擇。2027年一季度,萬事達披露淨營收仍增6%,但交易量增速從上季5.9%放緩至3.4%,並點名「Agent驅動的價格最佳化」和「可選消費承壓」,股價次日下跌9%。依賴交換費與積分體系的發卡行與單一發行機構承壓更甚,美國運通同時遭遇白領客戶基礎縮水與手續費繞行的雙重擠壓。摩擦從資產負債表上消失時,很多護城河也隨之蒸發。白領失業的滯後衝擊把風險推向系統市場曾把這一切當作類股輪動。軟體與諮詢倒下,支付與「收費站」搖晃,宏觀似乎還能撐住。問題在於,美國是一座白領服務經濟體。白領約佔就業一半,驅動了約四分之三的可選消費。AI吞噬的並非邊角料,它直接啃向了消費信貸經濟的發動機。2026年10月的JOLTS資料曾給出警報,職位空缺跌破550萬,同比下降15%。招聘平台也顯示軟體、金融、諮詢崗位發佈量急跌。債市更早聞到寒意,10年期收益率從4.3%下行到3.2%。不過,失業率 headline 沒有立刻爆表,因為大量被替代者「降檔求生」,湧入服務業與零工經濟,工資被進一步壓平,硬資料因此滯後。滯後讓衝擊更深。高收入群體用儲蓄維持表面正常兩三個季度,行為拐點到來後消費驟降。美國前10%收入群體貢獻超過一半消費,前20%貢獻約65%。白領就業下降2%,就可能拖出3%到4%的可選消費下滑。到2027年二季度,美國進入衰退。第三季度,初請失業金人數飆升至48.7萬,為2020年4月以來最高,申領者多為白領專業人士,標普隨後一周再跌6%。這場衰退缺少傳統周期的自癒機制。企業把人力預算取代為AI預算,屬於營運開支內部的結構遷移,經濟總開支下降時,AI投入仍在倍增。需求下滑沒有顯著減慢智能供給的擴張速度,回路繼續滾動。私募信貸與房貸,成了加速器金融端的第一道裂縫出現在私募信貸。它從2015年的不足1兆美元膨脹到2026年的2.5兆美元以上,大量資金押注SaaS等資產的「經常性收入永續增長」。這些假設早在2026年軟體業震盪時就已破產,估值卻慢慢下調,公開市場可比已到50,私募帳面仍從100、92、85緩慢挪動。2027年4月,穆迪下調14家發行人合計180億美元的PE支援軟體債務評級,理由直指AI帶來的結構性收入逆風。違約在2027年三季度蔓延,Zendesk成為標誌性事件,50億美元直貸被標到58美分,市場開始追問還有那些「結構性逆風被包裝成周期波動」。「私募信貸有永久資本」曾被反覆用來安撫。現實更複雜。大型另類資管過去十年通過收購壽險公司,把年金存款變成融資機器,資金再回流到自己發起的私募信貸,保險端吃利差、資管端收管理費。前提是,資產必須足夠安全。當違約疊加監管收緊,保險監管部門開始調整風險資本計提,逼迫增資或賣資產;穆迪將Athene財務實力展望調為負面後,Apollo兩天跌去22%。更棘手的是離岸再保險與SPV架構的層層巢狀,損失究竟落到那張資產負債表,短期內很難說清。2027年11月的市場暴跌把風險從「可控回撤」推向「系統性疑雲」,聯準會內部把它描述為一串押注在白領生產率增長上的相關賭局。金融危機往往不是因為虧損發生,而是因為虧損被承認,帳本被迫寫實。更大的問題指向房貸。美國住宅按揭規模約13兆美元,承銷建立在「借款人會在貸款期內維持大致當前收入水平」的假設上,多數房貸期限長達30年。2028年6月,Zillow房價指數顯示舊金山同比下跌11%,西雅圖下跌9%,奧斯汀下跌8%;房利美提示科技與金融就業佔比超過40%的郵編區域出現較高早期逾期。相關借款人並非次級,信用分780以上、首付20%、收入核驗齊全。2008年的貸款從第一天起就壞了,2028年的貸款從第一天起是好的,只是世界在簽字後變了,人們借債時押注的未來開始變得不敢相信。更早的壓力在2027年就已浮現,房屋淨值貸款提用、養老金提前支取、信用卡負債上升,按揭卻仍按時支付。許多家庭能還款,代價是切掉可選消費、耗盡儲蓄、推遲維修。逾期率還未接近2008年的高度,發展軌跡卻足以令人不安。若房貸市場在下半年出現系統性裂痕,股票市場的回撤可能逼近全球金融危機時期的57%,標普或回到3500點附近。政策跟不上時間成了最無情的對手政府同樣被迫面對一套舊制度無法解釋的新現實。聯邦財政的收入基礎近似對「人類時間」徵稅,薪資稅與所得稅是支柱。到2028年一季度,聯邦收入比預算辦公室基線預測低12%。生產率飆升帶來的收益流向資本與算力,勞動收入佔GDP的比重在四年內從2024年的56%進一步下滑到46%,創紀錄式下墜。產出沒有消失,卻越來越少經過家庭部門再回到企業與稅務體系,經濟循環的閉環開始斷裂;支出卻在上升。自動穩定器為周期性失業設計,面對結構性替代顯得笨拙。政府需要在稅收減少的同時向家庭轉移更多資金,圍繞市政債、財政救助與算力稅的政治爭吵迅速沿黨派分裂。政策討論中出現了「轉型經濟法案」,計畫用赤字支出與推理算力稅為被替代者提供直接轉移;更激進的「共享AI繁榮法案」試圖讓公眾對智能基礎設施回報擁有某種索取權,以分紅形式反哺家庭。與此同時,反對聲浪高漲,「佔領矽谷」示威者曾連續三周封鎖Anthropic與OpenAI舊金山辦公室入口,媒體關注度一度超過失業資料本身。這場危機最核心的變數始終是速度。AI能力進化按季度加速,制度適應按議程表推進。公眾需要的是對未來的信心,政策提供的卻常常是對立與遲疑。回頭看,「全球智能危機」更像對一個長期被忽視的假設做了壓力測試:當智能從稀缺變成充沛,社會與金融體系會如何重估人的價值,如何重建消費與稅基,如何讓產出重新回到循環裡。重定價帶來劇痛,卻未必意味著崩塌,新的均衡仍可能出現,難點在於人類能否在時間面前學會更快地協商與重寫規則。 (新智元)
Claude AI Agent 正在逐步瓦解輝達CUDA長達20年的生態護城河
這是一起極具行業衝擊力的AI程式設計里程碑事件:基於Claude 3.5 Sonnet的AI Agent,在30分鐘內、零手寫程式碼、不依賴傳統翻譯層,完成了CUDA到ROCm的完整後端遷移。它不僅是技術效率的飛躍,更直接衝擊了輝達CUDA長達20年的生態護城河。01 事件核心事實(2026年1月下旬,Reddit首發)主角:Anthropic的Claude Code(基於Claude 3.5 Sonnet的AI程式設計Agent)開發者:Reddit/GitHub使用者johnnytshi(跨GPU編譯領域技術愛好者)項目:國際象棋引擎Leela Chess Zero (LC0)的完整CUDA後端目標:遷移到AMD ROCm平台,支援現代Transformer注意力網路耗時:約30分鐘關鍵突破全程零手寫程式碼,僅通過CLI與AI互動不依賴Hipify等傳統翻譯層,直接語義級遷移生成完整ROCm後端,包含多頭自注意力、FFN、Embedding等核心模組自動適配rocBLAS、MIOpen等AMD庫,並做FP16/NCHW硬體最佳化最終提交可用PR,在RDNA 3.5顯示卡上可正常運行與對弈02 AI Agent的技術原理(為什麼能這麼快)Claude Code並非簡單的“關鍵詞替換”,而是在智能體框架下完成全鏈路自主遷移:語義理解:深度解析CUDA核函數的計算邏輯、資料佈局與硬體意圖架構對應:將CUDA執行模型(SM、線程塊)對應到AMD GCN/RDNA架構算子替換:自動匹配ROCm等價庫(如cublas→rocBLAS→cudnn→MIOpen )記憶體對齊:解決CUDA與ROCm在資料佈局(NCHW/NHWC)上的核心差異編譯驗證:自主生成建構指令碼、完成編譯連結與基礎功能驗證03 行業震撼點:30分鐘 vs 數月傳統遷移:複雜CUDA項目遷移到ROCm,通常需數周—數月手動編碼、偵錯與調優AI Agent:30分鐘完成全流程,且產出可直接上線的工程化程式碼AMD高管評價:AMD軟體副總裁Anush E.公開表示:GPU程式設計的未來,是AI智能體的04 對GPU生態的深遠影響瓦解CUDA壁壘:大幅降低跨GPU遷移成本,削弱輝達“軟體護城河”AMD生態加速:ROCm生態有望快速吸納海量CUDA存量程式碼開發範式革命:AI Agent從“輔助編碼”升級為自主完成複雜系統遷移的主力角色算力格局重構:未來AI訓練/推理的硬體選擇,將不再被單一生態深度繫結結 語侷限:對超深度最佳化、極致硬體親和的CUDA程式碼,仍需人工微調趨勢:隨著Claude 4.5等新一代模型的Agent能力持續增強(如連續自主程式設計30+小時、零錯誤率),此類遷移將更普遍、更高效。 (AGI星途)
圖靈獎得主、強化學習之父:AI模型本身其實很脆弱!現在的AI,只是局部智能!真正的下一階段是經驗時代!人類終將被AI繼任!AI要去中心化
今天的AI,讓人又喜又怕。一方面,短短三年,AI已經從ChatBot進化到了可以操控電腦終端的私人Agent,另一方面,又給矽谷帶了“AI恐慌”,許多 SaaS 廠商的市值慘跌。再一次,AI 的強大攪動得業內躁動起來。而就在狂喜與不安的背後,終於有大佬難得出來給出自己冷靜的分析與判斷。近日,在SAIR 正式成立後的首場全球直播中,圖靈獎得主、強化學習之父 Richard Sutton 發表了自己最新關於 AI 的獨特的反直覺看法。Sutton 上來就給出了一句異常冷靜的判斷:現在的AI,只是局部的智能,並沒有在智能層面取得快速的進步。他表示,AI給業內帶來許多重要的進展,但這些進展大多源自超大規模計算與超大規模模式識別的應用。但它們本質上是非常具體、局部的能力,並不能等同於“全部的智能”。反直覺的地方在於,現在人們似乎把智能等同於AI了,而 Sutton 對於“智能”的定義戳破了這層幻覺:當我使用“智能”這個詞時,我指的是:通過適應行為來實現目標的能力。你並不是簡單地“智能”或“不智能”,而是在某種程度上具備實現目標的能力。其次,值得注意的是,Sutton 還給出了一個重要觀點:圖像和視訊生成技術是重大的工程突破,但並不構成我們通常意義上所說的“智能”的核心組成部分。心智(Mind)在進行智能行為時,真的需要生成圖像嗎?答案是否定的。我們確實需要處理圖像和視訊,但並不需要生成它們。然後,Sutton 對當下“AGI臨近論”還潑了第二盆冷水。理由是,雖然現在的AI很強,但本質是“弱心智”。他給了一個很犀利的說法:模型之所以顯得強大,是因為它們吸收了幾乎全部人類知識;除了這一點,生成式 AI 其實很脆弱。它們不可靠、容易跑偏、沒有穩定目標結構。問題在於,現在的AI太多關注機器,而忽略了經驗的學習。大模型在部署後是凍結的,沒有持續經驗,沒有真實獎勵訊號。沒有獎勵,就沒有目標;沒有預測與現實的對照,就沒有“真理”。換句話說,當前模型像一個讀遍百科全書卻沒有生活經驗的人。因此,Sutton 表示,現代機器學習已經觸及了時代的極限。當前AI本質是:把人類已有知識遷移進機器,訓練完成後停止學習。而如今,人類高品質資料已經幾乎用完了。不過好處在於,AI 的風向已經出現了新的變化。Sutton 表示,真正的下一階段是“經驗時代”。他認為,只有從經驗中學習,智能才能不斷增長。他把過去 10 年的AI發展分成三個階段:模擬時代(如AlphaGo)、人類資料時代(LLM)、經驗時代(智能體在真實世界持續學習)。Sutton 認為,“智能研究”需要一個全新的“心智綜合科學”(它既不完全屬於自然科學,也不只是工程或技術應用。),而強化學習會是研究“心智綜合科學”的起點。其次,這點陣圖靈獎得主,對於“集中控制AI”的做法表示反對。他表示,一些人不過是拿著“安全”當幌子試圖“控制AI”,這種做法本質上有點類似“權力失控”的焦慮。“AI 本應該是去中心化協作式的。”Sutton 呼籲AI合作,反對地緣的封鎖和限制:合作並非總是可能,但從經濟交換到社會制度,從政府到市場,世界上幾乎所有美好的事物都源自合作。最後,你絕對想不到,Sutton也會發表“科幻視角”的判斷。Sutton 表示,人類可能最終會走向被 AI 繼任:人類終將理解並創造智能,而且這種智能會迅速超越人類。Sutton認為,從宇宙尺度上看,這是一種必然演化。同時,他還給出了四個宇宙偉大時代!粒子時代、恆星時代、複製時代、設計時代!小編聽下來大呼燒腦。篇幅關係這裡不再一一展開了。總之,Sutton的演講有兩條主脈絡:其一、智能的本質不在於模仿得“像人”,而是適應目標。我們已經邁進“經驗時代”!其二、AI是宇宙演變的必然,而人類至少是這個時代的催化劑、接生婆。我們終將促成宇宙的第四個偉大時代。以下是小編梳理的精彩觀點,enjoy!現在的AI,在智能層面並沒有快速進步很高興能和大家一起交流。我聽了上午的一些報告,過程中突然意識到:我想談一些原本並沒有準備好的內容。因此,今天我特意留出了一點時間,整理了幾頁PPT。在進入我原本準備好的發言之前,我想先說幾句鋪墊性的內容。讓我們先從這個領域的現狀談起:今天的AI到底是什麼樣的?人們又是如何看待它的?我想,幾乎所有人都認為AI正在以極其迅猛的速度進步,這種看法當然令人興奮。但當所有人都在想同一件事時,我們就有必要停下來問一問:事情真的如此嗎?這真的是正在發生的嗎?我們是否可以對這個判斷提出一些質疑?AI真的在快速進步嗎?當然,在讓電腦能夠熟練使用語言這件事上,我們確實取得了巨大的進展。我認為這是一個非常重要、真正意義上的突破。事實上,不久之前我們就已經設想過可以用神經網路來完成這件事,而今天,它已經被充分證明是可行的。同時,我們也借助海量的計算資源,生成了極其逼真的圖像和視訊。但問題在於:心智(Mind)在進行智能行為時,真的需要生成圖像嗎?答案是否定的。我們確實需要處理圖像和視訊,但並不需要生成它們。這並不是心智本身在做的事情。這類任務需要巨大的計算量,也確實非常困難,但它們並不構成我們通常意義上所說的“智能”的核心組成部分。當然,我們也看到了新的、真實的應用出現,它們催生了全新的產業形態,創造了巨大的經濟價值。這些重要的進展,大多源自超大規模計算與超大規模模式識別的應用。但它們本質上是非常具體、局部的能力,並不能等同於“全部的智能”。其中相當大的一部分其實只是計算,而我們之所以稱它們為“智能”,往往只是因為這樣聽起來更重要一些。AI模型本身其實很弱因此,我想向大家拋出一個問題:作為一門科學,AI真的在快速進步嗎?(現場響起了一片笑聲)謝謝大家的笑聲,這讓我感覺自己彷彿經歷了一個奇蹟。(笑聲)在我並不那麼謙虛的看法裡,我們對AI的真正理解其實非常有限,更多是在不斷地調參、修補。我們並不知道心智的原理,也不知道智能的根本機制。從科學的角度來看,這在很多方面都是令人不滿意的。我更傾向於用另一種方式來理解當下的AI模型:它們之所以顯得強大,是因為它們汲取了幾乎全部的人類知識;但除此之外,它們其實是“弱”的。它們擁有脆弱的心智結構,不可靠,容易偏離主題,容易發散。除了知識量極大這一點之外,它們並不真正強大。或許,這是理解當下所謂AI的一種更準確方式。現在的AI,還算不上真正的智能那麼,我們口中的AI究竟是什麼?它是“人工智慧”,而這就要求我們首先回答一個更基本的問題:什麼是“智能”?多年來,人們給出過許多定義。我在這裡列舉一些更有權威、也更為廣泛接受的觀點。最早的一個可以追溯到心理學奠基人威廉·詹姆斯。心理學幾乎就是對心智的研究。1890年,威廉·詹姆斯並沒有直接談論“智能”(intelligence),而是談“心智”。他認為,心智的標誌在於:用可變的手段實現一致的目標。也就是說,為了獲得一個相對穩定的結果,你可以靈活地改變自己的行動方式,而那個結果正是你所追求的目標。接下來,我們可以看看艾倫·圖靈是如何理解智能的。圖靈並沒有留下一個高度凝練的定義,但人們通常將他的觀點理解為:智能在很大程度上表現為像人一樣的行為。今天我們所說的“圖靈測試”,正是這種思想的延續,即通過模仿、假裝成一個人來判斷是否具備智能。當然,圖靈本人從未稱其為“圖靈測試”,他把它稱為“模仿遊戲”,而且我甚至不認為他把它當作一個真正的測試。然而,在當下的語境中,人們往往將“像人一樣的行為”視為智能的重要標準。但我並不認為這才是人類強大的根本原因。人類之所以強大,是因為我們本身是智能的存在,而不是因為我們像誰。我們確實會用“是否像人”作為參照,但真正重要的問題是:人究竟是什麼?如果你去查詞典,可能會看到這樣的定義:智能是獲取並應用知識和技能的能力。我認為這是一個相當不錯的定義,它強調了知識,強調了獲取知識、擁有知識,以及技能的運用。從AI的角度來看,作為人工智慧奠基人之一,約翰·麥卡錫給出的定義是:智能是實現目標的能力中,可以被計算的那一部分。我非常喜歡這個定義,因此想稍微展開說明一下。它強調的是一種“能力”,而所有能力都是有程度差異的,並非非此即彼的二元判斷。你並不是簡單地“智能”或“不智能”,而是在某種程度上具備實現目標的能力。更重要的是,這個定義強調的是能力中“可計算”的部分。你並不是因為更強壯或者擁有更好的感測器就實現了目標,而是必須進行計算,必須完成某種心理層面的處理。正是通過這些計算過程,你才能實現目標。而“實現目標”幾乎構成了整個定義的核心,這也正好呼應了威廉·詹姆斯所說的“以可變的手段實現一致的目標”。在此基礎上,我也忍不住參與進來,對這個定義做了一點修改,提出了我自己的版本:智能是通過適應性地改變行為來實現目標的能力。定義本身並不是唯一的,每個詞都可能有多種解釋。即便是權威定義也並非一成不變。定義的目的在於幫助我們彼此理解,只要能夠促進溝通,它們隨著時間變化完全沒有問題。但如果對同一個詞的理解差異過大,交流就會變得非常困難。因此,當我使用“智能”這個詞時,我指的是:通過適應行為來實現目標的能力。這裡的關鍵在於“適應”。我認為學習至關重要,尤其是獲取知識和技能的過程,而不僅僅是擁有它們。當然,這一觀點並非沒有分歧。如果我們觀察當前AI的主流路徑,會發現它幾乎完全圍繞計算和模式識別展開,並且在很大程度上聚焦於“像人一樣的行為”。AI 太過關注機器強化學習會是研究“心智綜合科學”的起點接下來,我想進一步談談我個人的看法。我認為我們需要一門新的科學——一種“心智的綜合科學”。我一直試圖從事的正是這樣一種綜合性的心智科學,它同樣適用於人類、其他動物以及機器。因為這些心智在本質上具有共通性:人類與動物的心智高度相似,而機器的心智也開始顯現出某些共同結構,至少我們有這樣的雄心,認為在可預見的未來它們將具備這些共性。未來,世界上將存在大量的機器心智。但現實是,並不存在一門天然承擔這一角色的學科。心理學本可以成為心智科學,我也希望它如此,但隨著時間推移,它越來越將自身限定為對自然心智的研究,研究人類和動物的心智,而不是研究“心智可能是什麼樣”,不是那種可以存在於機器中的一般性心智概念。人工智慧關注的是機器,但它並不真正研究其他類型的心智,而且它也越來越工程化,重在“造東西”,而非理解它;同時,它幾乎不包含對自然心智的研究。認知科學則分化成多個方向,但整體上仍然主要聚焦自然心智。遺憾的是,這些領域似乎都無法真正承擔起一種跨越不同載體、統一研究各種心智的綜合性心智科學的角色。而我所從事的強化學習,也許正是這種綜合性心智科學的一個起點,因為它確實橫跨了多個領域。這就是我看待問題的方式,也許它只是一個開始。強化學習的本質那麼,什麼是強化學習?我先簡單說幾句,這樣大家也能更清楚我討論問題的出發點。強化學習是一種以“智能體”為中心的學習方式,它通過與環境互動、從經驗中學習,以實現目標。從這個意義上說,它比其他類型的機器學習更現實、更有雄心,也更加自主。因為智能體是真正在世界中行動的,它在做事情,並不假設一定存在一個輔助者。因此,它更加自主;同時也更有雄心,因為我並不假設世界會給予它大量幫助。你只是與世界互動,觀察自己是否達成了目標,然後調整行為,以更好地實現這些目標。從這個角度來看,這種學習方式也更加貼近現實。動物並不會從環境中獲得太多幫助,也許在成長階段會有一些,但在成年後的日常生活中並不存在。因此,強化學習的本質是試錯,是通過延遲反饋來學習。你擁有的只有獎勵:你最終是否得到了想要的結果?這是一種最接近自然學習方式的機器學習方法,它能夠自行判斷對錯。比如,大語言模型並不知道自己說的話到底對不對;而當你從經驗中學習時,當你對即將發生的事情做出預測,你可以看到預測是否正確;當你採取行動並獲得獎勵時,你就能判斷這種行為方式究竟是好是壞。也許,這正是一種心智科學的起點:它既不完全屬於自然科學,也不只是工程或技術應用。我是不是還想補充一件事?是的,我想引用一句艾倫·圖靈的話。圖靈本人並不知道自己其實是一個“強化學習派”。這段話出自1947年,那時還沒有強化學習,也還沒有真正意義上的人工智慧。據我們所知,這可能是世界上第一次公開討論人工智慧的演講,發生在1947年的一次講座中。以上就是我原本想補充的內容。希望這些想法能讓大家覺得有趣。我們已經觸及機器學習時代的極限接下來,才是我今天真正想傳達的資訊。那麼,我們直接進入正題。第一個要點是:當今AI的科學發展趨勢是什麼?核心結論是:我們正處在一個“從人類資料中訓練”的時代。幾乎所有AI系統,主要做的都是這樣的事情——預測人類在網際網路上的下一個詞,或者預測人類會如何給圖片打標籤,然後再由人類專家進行微調,告訴系統“我更喜歡這個答案,而不是那個“我希望你這樣說,而不是那樣說”。現代機器學習的目標,本質上是將人類已經擁有的知識遷移到機器中。一旦這種遷移完成,機器就會被“凍結”,不再繼續學習。這正是當下大多數機器學習系統的狀態:把我們已有的知識裝進機器裡,然後停止學習。這就是我們所處的時代。而我認為,我們正在觸及這一時代的極限。一方面,我們正在耗盡人類資料。幾乎所有高品質的資料來源,整個網際網路及其圖像和視訊都已經被消耗殆盡。更重要的是,這種方法在原理上存在根本限制:它無法學到任何真正新的東西,無法產生真正原創的知識。正如今天Terrence(陶哲軒)所說,在最困難的問題上,比如一些極具挑戰性的厄多斯問題,這種路徑並沒有帶來真正的突破。凡是需要“真正創新”的問題,基本都超出了這種方法的能力,因為它只是回顧網際網路上人們已經說過什麼,然後加以總結。我們進入了經驗時代:智能體從經驗中學習如果我們希望取得進一步進展,而事實上,我們已經開始這樣做了,就必須進入一個新的時代:從經驗中學習。歸根結底,這是因為我們需要一種能夠隨著智能體能力提升而不斷增長、不斷改進的資料來源。任何靜態的資料集,都不可能長期滿足這一點。而來自自身經驗的資料,本身就是動態變化的。人類和動物正是以這種方式學習的。AlphaGo下出富有創造力的第37手棋,正是源於這種機制;許多在數學奧林匹克競賽中獲勝的智能體,同樣如此。接下來,我想給大家播放一段視訊,希望它能順利播放。不過在此之前,我想先解釋一下角落裡的那張小圖,澄清一個容易被誤解的地方。當我說“從經驗中學習”時,我並不是指某種模糊、玄學的東西,比如主觀感受或“感質”。我指的只是智能體與環境之間來回交換的資料。智能體會採取行動,也會感知環境。因此,這裡包含三類資訊:第一,智能體從世界中獲得的觀測,也就是感測器資料;第二,智能體發出的行動,比如肌肉的微小動作,或者向外界傳送的電訊號;第三,世界返回的一種特殊觀測——一個標量,也就是獎勵。這三者,構成了我所說的“經驗”。這就是智能體在與世界互動過程中所能獲得的全部資訊。而這幾乎是我們唯一能夠真正確定的事情。因此,我們需要一種會隨著智能體自身變化而不斷增長、不斷改進的資料集。接下來這段視訊展示了這種機制在現實生活中的一種最重要體現。畫面中是一名嬰兒,視訊略微加速過,大家不必擔心。你可以看到,嬰兒在與各種玩具互動時,並不會只專注於某一個,而是玩一會兒就感到厭倦,隨後轉向下一個。每一次接觸新的玩具,它都會學到一些東西——也許只是發現繩子可以拉、可以放進嘴裡,或者可以用不同方式擺弄。但很快,它又會改變對象,通過改變自身的經歷,看看還能從新的事物中學到什麼。這正是我們的資料來源。生命的資料並不是被“提供”給我們的,而是由我們的活動本身生成的。也正因為這些資料來自行動,它們才能與我們自身的理解水平、能力和技能自然匹配。我還放了另一個視訊,用來展示一個智能體在迷宮中學習的過程。這是一個非常簡單的智能體,它的目標是從起點S走到終點G。它對世界的認知極其有限:只知道自己當前所在的格子;它能執行的動作也只有四種:上、下、左、右。通過不斷學習,它最終能夠找到一條不錯的路徑。圖中的箭頭表示它認為的最優行動方向,綠色區域表示它對每個狀態“有多好”的估計。但世界並不是靜態的,世界會發生變化,而我們也總是需要學習新的東西。在這個學習過程中,我們可以再看一張示意圖,它展示了智能體的基本工作方式。其中包含幾個關鍵要素:右上角是對世界狀態轉移的模型;中間是策略,用來決定在每個狀態下該做什麼,對應圖中的箭頭;還有一個價值函數,用來評估每個狀態的好壞,這正是圖中綠色區域所表達的含義。現在,如果我把目標位置移動到上方,智能體就必須重新“偶然”發現目標的新位置。一旦發現,它就能夠再次學會通向目標的路徑,並從環境變化中恢復過來。從某種意義上說,這就是生活的一個簡化模型:你會遇到變化,然後適應它。我們把目標放到角落裡,它就學著調整;再把目標移到另一個位置,它就學會一條新的路徑。我們甚至可以進一步干預,在路徑上放置障礙物,它也會逐漸學會繞開障礙前進。因此,我們會非常直觀地感覺到:這個智能體是有目標的,並且會隨著環境的變化不斷調整自身行為,以儘可能實現目標。當然,目標也可能變得無法達成。當這種情況發生時,我們甚至會不由自主地對這個無法完成目標的智能體產生一絲同情。我原本還準備了一個關於“試錯學習”的演示,網上其實有一個非常好的示例,但由於沒能把YouTube視訊順利播放出來,這一部分就先跳過了。不過,我想大家已經理解了什麼叫“從經驗中學習”。接下來,我們稍微抽象一點,談談其中的基本原則。這種以經驗為基礎的AI方法,其核心原則在於:智能體與世界交換訊號,這些訊號本身就是經驗,而經驗構成了一切智能的基礎和核心。“真理”的定義,體現在這些訊號之中;“目標”的定義,同樣體現在這些訊號之中。你希望獎勵訊號儘可能高——要麼你達成了目標,要麼沒有。這個目標在某種意義上是主觀的,只對智能體自身可見;但與此同時,它又是最客觀的東西,因為它是智能體實際接收到的資料。因此,我們可以說,一個智能體的智能水平,取決於它在多大程度上能夠預測並控制自身的經驗。需要注意的是,如果你沒有經驗,那就談不上智能。舉個例子,大語言模型在執行階段,並不會從經驗中學習。經驗是你“出生”後進入世界、親自行動時才會產生的東西。而當一個大語言模型被部署到現實世界中時,它已經不再學習了,它是被凍結的、靜態的。因此它並不真正擁有經驗。它所擁有的資料,只能在一個特殊的訓練階段獲得,那些資料只是人類過去如何在世界中行動的示例。當你真正走進世界、親自去做事情時,並不會有人告訴你“你原本應該怎麼做”。沒有經驗,智能就無從談起:你無法判斷什麼比什麼更好,因為沒有獎勵就沒有目標;而大語言模型並沒有目標。你也無法判斷一個預測是對是錯,因為它從不將預測與真實發生的結果進行對照,於是也就不存在“真理”的概念。但一旦有了經驗,有了互動和由此產生的資料,目標就變得非常清晰:獲取獎勵;而“真理”的概念也隨之出現,那是一種基於預測的真理。你做出預測,然後觀察真實發生的結果,看看預測是否成立。這正是經驗式方法所帶來的能力。我認為,這條路徑正在變得越來越普遍、也越來越重要。回顧過去大約十年的發展,我們可以大致將其劃分為三個階段。最早的是“模擬時代”,我們從模擬環境中獲取經驗,比如AlphaGo、Atari遊戲。隨後進入的是更近一些的“人類資料時代”,也就是以大語言模型為代表的階段。當然這種劃分並不完全精確。我們已經看到,人們對大語言模型的狂熱正在逐漸轉化為對其侷限性的清醒認知。現在我們正邁入第三個階段:“智能體系統”的階段,讓模型和智能體真正使用電腦、在現實世界中行動。我把這一階段稱為“經驗時代”。在我看來,它將把我們帶向一種超越人類的能力——這種能力不再只是模仿人類、受限於人類本身,而是真正能夠超越人類。好,先總結一下關於AI發展趨勢的第一個要點:AI終於開始轉向從經驗中學習了。要知道,艾倫·圖靈在1947年就已經設想過這條道路,而那已經是很久以前的事情了。直到今天,我們才真正開始去做這件事,而不是繼續完全依賴人類輸入。這種轉變將帶來更強大的能力,因為它意味著持續學習新的東西。AI遠沒有進入“主場時刻”儘管當下充滿炒作,甚至伴隨著某種恐慌情緒,但我並不認為當前的AI已經強大到不可思議的程度。它在很多方面仍然脆弱、不可靠;但與此同時,它也極其有用,已經點燃了一個完整的產業,創造了巨大的經濟價值,而且幾乎人人都可以使用。這種普及性讓公眾感到興奮,也促使人們開始認真思考:有一天,機器是否可能擁有與人類相當的能力。在某種程度上,它是通過製造恐懼引發這種關注的,人們未必真的需要害怕,但確實應該保持關注。至少,它成功地讓所有人開始正視這個問題,這本身是一件好事。不過,我們還遠沒有進入所謂的“主場時刻”。儘管存在各種誇大的說法,我們並沒有真正到達創造超級智能AI、或“超級智能增強人類”的階段。一旦那一刻到來,它將是一件非同尋常的大事,會帶來極其深遠的變化。AI應該是去中心化的,不應集中控制你只要看看當下,就會發現大量關於“控制AI”的呼聲:比如,只允許AI擁有經過人類稽核和授權的目標;呼籲暫停甚至停止AI研究;已經出現了一些法律,用來限制AI可使用的計算能力;以及各種所謂的“安全研究機構”。很多人口中的“安全”,其實真正指的是“控制”。他們通過讓你害怕AI,宣稱它不安全,然後提出應當由他們來掌控。我們或許也應該對AI抱有某種同理心。現實世界中,同樣存在對言論的控制——你能說什麼、能聽什麼;存在貿易管制和關稅,限制你能在那裡工作;還存在資本管制,以及針對不同國家的經濟制裁。我的核心觀點是:對AI的集中控制訴求,與對人類的集中控制訴求之間,存在著一種驚人而詭異的相似性。它們都建立在恐懼之上:要害怕AI;要害怕某些國家、某些群體;說你不能信任他們,說他們幾乎不像人,說他們是“壞的”,不愛自己的孩子,不會感到痛苦(笑)。同樣地,人們也在說AI不會感到痛苦。總之,這些論調極其相似,而我認為我們應該警惕並抵制它們。因為我相信,人類的繁榮,以及人類與AI的共同繁榮,來自於學習,也來自於接受這樣一個事實:我們應當以去中心化的方式與AI協作,而不是依賴龐大的控制型組織。這些正是我沒有展開的那部分幻燈片所想表達的核心思想。人類在合作方面既非常擅長,也非常糟糕——戰爭正是“不合作”的極端表現。合作並非總是可能,但從經濟交換到社會制度,從政府到市場,世界上幾乎所有美好的事物都源自合作。我們必須主動去尋找、去支援合作。如果我們足夠警覺,就會發現,誰在呼籲不信任、呼籲不合作。而“不合作”的另一面,往往正是集中控制。我認為,我們應該抵制這種傾向。這也是理解人類與AI互動問題的一種重要視角。以上就是我非常簡略的政治看法。不應害怕AI,因為是人類在創造它接下來,我確實想談談AI的哲學問題。AI正在發生,而且明天會發生得更加深入。那麼,我們究竟該如何看待它?我想提出一個最根本、也最困難的問題:它究竟是好是壞?我們是否應該害怕它?它會奪走我們的工作,讓我們變得多餘嗎?還是說,我們會成為AI的一部分——成為被技術放大和增強的人類?AI是入侵者,還是我們的“孩子”?我們會為它哀嘆,還是為它慶祝?它是“我們”,還是“不是我們”?我認為,這正是最根本的問題。我希望大家首先意識到,我們經常被要求不要去思考它,而只是被告知應該害怕它們,因為它們“不是我們”,像是外星來物。但請記住,是我們在創造它們。理解我們的心智,本身就是最具人類特質的行為。那麼,該如何思考呢?你們大概已經能看出我的立場。這並不是什麼“外星科技”,而是人類自古以來一直在做的事情。幾千年來,我們始終在嘗試理解自己:理解人類的智能,理解心智如何運作,以及如何讓我們的心智運作得更好。這是一項極其宏大的追求——理解我們自身。我很喜歡庫茲韋爾的一句話:智能是宇宙中最強大的現象,而我們正是它最好的例子,因此我們理應去理解它。這是一件極其重要的事情。理解智能,幾乎是科學的“聖盃”,也是人文學科的“聖盃”。這是一個偉大而光輝的目標,作為學者和思考者,我們應該享受它、慶祝它,並努力推動它向前發展。人類正在走向被AI繼任的過程不過,先暫時放下“我們是否希望它發生”“如果發生會不會很可怕”這些價值判斷。讓我們只做一件事:預測它將如何發生。我提出幾條“現實主義的AI預判原則”,有點類似約翰·米爾斯海默在討論現實主義地緣政治時的思路。我們只談現實:什麼是真正會發生的?那些事情是我們無法完全控制的?第一,關於“世界應該如何運轉”,並不存在共識。多種意識形態並存,沒有那一種觀點佔據絕對主導;宗教之間同樣彼此不一致;不存在一個能夠壓倒其他所有立場的統一世界觀。第二,總有一天,人類會對智能有足夠深入的理解,深入到可以用技術去創造它,而且我們一定會這麼做,至少其中一部分人一定會。第三,這一過程不會停留在當代人類智能的水平上,而是會很快遠遠超越它。我們將面對超級智能的存在,無論它們是否被稱為“人”。第四,隨著時間推移,權力和資源往往會流向更智能的存在。把這四點放在一起,我們會看到一幅清晰的圖景:人類正走向被AI 繼任的過程。我認為這是一個合理的判斷。但我們也必須意識到,這種說法本身是高度以人為中心的。我們總是在關心“我們會變成什麼樣”。或許,我們需要稍微退後一步,從更宏觀的視角來看待這一切:宇宙如何看待這一過程?它在整個宇宙的演化中扮演著怎樣的角色?宇宙的四個偉大時代接下來,我要把視角拉得非常宏大了(笑)。我想從宇宙的尺度來談一談所謂的“四個偉大時代”。第一個是粒子的時代:大爆炸之後,宇宙中幾乎連原子都不存在。隨後,物質坍縮形成恆星,我們進入恆星時代。恆星形成、升溫、爆炸,並在這一過程中合成更重的元素。接著,當有了更重的原子和行星之後,生命才得以出現。我把這一階段稱為“複製者的時代”,而不是簡單地稱為“生命時代”。我認為,這個“綠色時代”真正特殊之處在於:出現了能夠複製自身的存在。它們未必理解任何事情,但卻能夠製造自己的副本。就像我們自己,並不真正理解身體如何運作,不理解器官、大腦或智能如何產生,卻仍然能夠創造出更多智能體——我們生育孩子,並將他們撫養成人。這便引出了宇宙的第四個偉大時代:技術與創造之物的時代,我稱之為“設計的時代”。在這個時代,事物不再只是通過複製而存在,而是先存在於某個複製者的心智之中,然後才進入現實世界。你環顧這座禮堂,建築在被建造之前就已經被設計出來;椅子、你穿的衣服,幾乎所有東西都是如此——它們先存在於某個人的頭腦中,然後才成為現實。唯一的例外是人類本身:人是通過複製而來的,而不是先以設計的形式存在於世界之中,只是最初存在於父母的想像裡。正因為如此,我更願意把這兩個階段稱為“複製的時代”和“設計的時代”。將它們簡單稱為“生命時代”和“機器時代”已經過時,而且容易誤導——因為我們的機器正變得越來越像生命,而我們也越來越多地將生命理解為一種生物機器。機器與生物的區別:複製和設計那麼,真正的區別是什麼?真正的區別在於:生物體是在沒有任何心智理解其自身運作方式的情況下被創造出來的。它們幾乎像複印機一樣被覆製出來,所以說你並沒有“創造”那幅圖像,只是複製了一份。技術機器則不同。它們首先存在於某個心智之中,也就是設計者的想像裡,隨後才在現實世界中被製造出來。因此,它們是被“設計”出來的。一個非常重要的區別在於,被設計的事物更容易發生變化,也更容易被持續改進。這正是我使用這些術語的原因。從這個角度來思考問題,其實相當有啟發性。接下來,我們可以借助這些概念做一個簡單的思考練習。我們會發現,許多非人類的複製者在某種程度上同時也是設計者。比如,動物會築巢、打洞,人類會建造房屋;許多動物還會製造工具,例如黑猩猩會把樹枝剝去外皮來釣白蟻,烏鴉會把樹葉加工成細條來釣蛆蟲。當然,人類會製造石斧,那是我們最早、也是最重要的工具。隨後出現了農業用的犁,再往後是電腦、宇宙飛船、工廠和軟體,其中很多本身就是“製造其他工具的工具”。人類的特殊之處:把設計推向極致在這一基礎上,我們或許可以回到最初提出的那個問題:人類是什麼?我們是誰?我們在宇宙中扮演著怎樣的角色?也許,我們可以儘量保持冷靜,不過分自大,也不過分強調自身的重要性來回答這些問題。我們都隱約意識到,人類是特殊的。我們不僅只是一種複製者,而是一種非常特殊的複製者。我此前已經暗示過這種特殊性所在:我們把“設計”這一能力推進到了前所未有的高度。我們本身是通過複製而來的,我們自己就是複製者;但與此同時,我們也具備設計能力,並且將這種能力發展到了遠遠超過任何其他複製者的程度。那麼,如果把“設計”這一能力推到極限,會意味著什麼?如果把它徹底走到盡頭,會出現怎樣的結果?在我看來,把設計推到極限,意味著設計出那些本身也具備設計能力的存在。換句話說,我們在自己的頭腦中設計出一些事物,而這些事物本身,也能夠在它們自己的頭腦中進行設計。它們擁有心智。這正是我們在AI上正在做的事情。我們正在完成這個偉大的時代——也是最後一個時代。因此,我認為,人類至少是這個時代的催化劑、接生婆,或者說奠基者:我們促成了“設計時代”的到來,也就是宇宙的第四個偉大時代。這就是我們的角色,一個重要的角色,一個具有普遍宇宙意義的角色。總結:AI是宇宙發展的必然,我們該為此自豪最後,我想簡要總結一下我的三條核心資訊,包括剛才那一條我講得相對較快的觀點。第一,當下的AI也就是2020年代的AI,仍然處在“人類資料的時代”。它已經表現得非常出色,也非常強大;但我們正在進入一個新的“經驗時代”,而這一階段將更加強大,因為它能夠持續學習新的事物。第二,在政治層面,當下圍繞AI的政治討論,實際上是人類自身政治的對應。在所有情況下,我們都應當追求去中心化的協作,而不是中心化的控制。第三,在哲學層面,我認為AI是宇宙發展過程中不可避免的下一步。我們應當以勇氣、自豪感和冒險精神去擁抱它。感謝大家的時間。 (51CTO技術堆疊)
豆包進入2.0階段,字節不想只贏AI春節檔
砸錢上春晚的底氣,來自豆包2.0紮實的技術實力。去年春節,DeepSeek升級了中國大模型競爭;今年春節,中國AI戰火向上燒到應用層。千問、元寶和文心等多家大廠旗下的AI應用,在春節累計投入超50億資金吸引使用者,爭搶新時代的AI船票。但如果把今年春節的AI行銷簡單理解為“又一輪紅包大戰”,其實容易誤讀這場競爭的底層邏輯。表面看,玩法仍然熟悉:冠名春晚、紅包裂變、補貼拉新,這些都延續移動網際網路時代的流量打法。誰能在最短時間內獲取最多使用者,誰就更有機會鎖定未來生態。但AI時代的競爭,不再完全遵循這一邏輯。大模型競爭的核心變數並非單純日活規模,而是技術突破與真實生產力。即便是日活過億的產品,只要出現技術代際躍遷,也可能迅速被替代。這意味著,春節行銷所帶來的流量高峰,並不天然對應長期留存。在移動網際網路時代,因為社交關係、內容沉澱與資料資產會形成天然護城河。但在AI技術尚未完全收斂的階段,使用者忠誠度極低。真正決定留存的,從來不是補貼力度,而是產品是否足夠好用。這也使DAU的重要性需要全新定義。在打車、外賣等平台競爭時代,使用者數量直接決定勝負;而在大模型競爭中,低粘性使用者規模的價值有限。更有意義的是深度使用與真實付費,當使用者願意長期依賴某一模型完成複雜任務,甚至付費訂閱,這類使用者才構成真正的留存資產。換句話說,AI時代的DAU更接近“生產力活躍度”,而非單純訪問頻次。這也解釋了為何各家在春節節點大規模砸錢拉新使用者的同時,幾乎同步推進底層模型升級。春節前夕,中國大模型行業迎來密集迭代窗口。千問斥資數十億元加速生態建構,元寶依託社交關係鏈強化入口,而字節跳動則選擇在春晚流量高峰前後完成模型能力的跨代躍遷。2月14日,在連續發佈Seedance 2.0視訊模型、Seedream 5.0 Lite圖像模型後,字節正式推出豆包大模型2.0系列。官方將其定位為面向大規模生產環境最佳化的一次系統性升級,核心目標是提升複雜真實任務的執行能力。這是豆包自2024年5月發佈以來首次跨代升級。在春晚倒計時這一國民級流量節點,字節“三箭齊發”,全端AI佈局野心盡顯。01 春晚只是豆包2.0的起點微信用“搖一搖”改寫了春晚互動形態,網際網路紅包大戰自此成為春晚的固定節目。誰能把春晚流量轉化為產品留存,誰就更接近下一個國民級入口。但今年,使用者不再只是搖晃手機搶紅包,而是輸入一段文字、說出一句祝福,就能即時生成專屬的新春圖景。春晚互動從“流量分發”轉向“內容共創”。字節跳動正是這場轉變背後的技術推手。豆包視訊生成模型 Seedance 2.0、圖像創作模型 Seedream,以及語音模型被深度應用於春晚節目製作與互動環節。從舞台影像到全民互動,生成、理解與表達能力第一次在同一國民級舞台完成協同。資料顯示,除夕當天豆包AI互動總數達 19億次,“豆包過年”活動生成超過5000萬張新春頭像、1億條祝福內容。但更值得注意的時間點,是2月14日,除夕前一天豆包大模型2.0正式發佈。春晚因此不僅是曝光場,更是一場國民級產品壓力測試。一條驗證線發生在舞台之上。2026年春晚成為中國國產AI技術的“全民秀場”。節目《馭風歌》中,以馬為元素的水墨長卷由 Seedance 2.0 動態生成。此前導演組嘗試多款國際視訊模型,均難以精準把握水墨留白與構圖邏輯。而 Seedance 2.0 在保持水墨筆觸神韻時,還做到“形神兼備”。與此同時,多家機器人品牌參與表演,背後均有火山引擎的技術支援。以宇樹機器人為例,此次參與春晚表演以及豆包APP 春晚互動抽獎送出的宇樹 G1人形機器人,搭載了豆包大模型和豆包語音合成模型,使其具備更擬人的音色、更自然的語音互動。另一條驗證線發生在使用者互動層面。19 億次互動,不只是流量資料,更是模型能力在高並行環境下的真實呼叫記錄。在這一節點,豆包完成了一次身份躍遷:從聊天框裡的AI搭子,走向被廣泛呼叫的國民級AI助手。但字節顯然並不滿足於此。春晚帶來的使用者增長,能否轉化為長期留存,最終取決於豆包2.0在真實場景中的生產力價值:能否處理複雜任務、呼叫多工具、連接多終端,真正成為使用者工作與生活中的智能執行中樞。換句話說,字節給了豆包一次站上國民舞台的機會,但決定這波流量能否沉澱的,是2.0的 Agent執行能力。從這個意義上看,春節流量只是起點,而跨代的Agent升級,才是決定豆包能走多遠的關鍵變數。02 換腦開啟Agent跨代升級春晚只是能力被看見的時刻。2 月中旬的模型三連發,才是豆包真正完成“換腦”的關鍵。無論是Seedance 2.0 在春晚舞台的驚豔亮相,還是Seedream在理解與推理層面的顯著進步,最終構成底座的仍是隨後發佈的豆包大模型 2.0 系列。豆包大模型2.0的升級,核心並非單點能力提升,而是面向大規模生產環境的系統性最佳化。這是其自2024年5月發佈以來,首次明確意義上的跨代版本躍遷。這次“換腦”,首先發生在推理結構上。在推理與數學等評測維度中,豆包 2.0 已進入與 Gemini 3 Pro 同一梯隊區間。但比榜單更關鍵的,是其在真實任務執行中的穩定性:模型能夠完成複雜需求拆解,建立因果鏈條,進行多步規劃,並在輸出前進行自檢校驗。對Agent來說,這意味著“思考”從一次性回答,變成可持續推進的執行骨架。推理決定模型“能想多深”,多模態能力則決定它“能看多廣”。豆包2.0的多模態升級,明顯對準生產環境輸入:截圖識別、複雜文件解析、圖表理解與流程圖閱讀被重點最佳化。在空間理解MMSIBench、運動理解MotionBench、視訊理解VideoMME等評測集中,其綜合表現已進入第一梯隊;圖表理解CharXiv-RQ 能力亦明顯提升。但評測只是表層。在工程可用性上,模型對時間序列與運動變化的理解能力被強化,對“動作、節奏、狀態變化”的捕捉更為穩定。這使其能夠進入即時視訊流分析、環境感知與動態決策場景。例如在長視訊互動中,模型可作為AI助手完成環境判斷、動作糾錯與主動提示,從被動問答升級為過程指導,可應用於健身陪練、穿搭輔助等陪伴式場景。當空間理解與運動理解能力提升後,模型不僅能識別畫面“有什麼”,還更容易判斷“它們之間如何關聯、如何運動、如何作用”。這使多模態感知不再是展示能力,而成為執行決策的輸入來源。但Agent能否進入生產系統,真正的門檻仍在任務鏈完整性。過去多數 Agent 方案依賴外掛外掛或外層工作流拼接。模型負責理解,工具負責執行,長鏈路任務中極易出現上下文斷裂、目標漂移或輸出失控。豆包2.0的變化在於,多Skills呼叫、Function Call、搜尋與結構化輸出能力,被原生納入模型推理過程。工具呼叫不再是外層補丁,而成為思考鏈條的一部分。結構化輸出與長上下文管理能力的提升,本質是在修復Agent執行中的“斷片”問題。讓模型在更長任務周期中保持狀態連續,理解當前步驟在整體流程中的位置。這種持續狀態感,正是 Agent 從演示走向生產的分水嶺。03 開啟萬物豆包時代今年春晚,豆包送出超過10萬份科技好禮。更關鍵的是,這些硬體幾乎全部接入豆包大模型。手機、機器人、智能音箱、家電終端,被納入同一套 AI 互動體系之中。這並不是一次簡單的“品牌露出”,而是一場面向全民的終端驗證。在移動網際網路時代,入口意味著“被打開的App”。而在大模型時代,入口的含義正在發生變化。它不再只存在於螢幕之內,而開始嵌入終端之中。當 AI 既存在於手機應用,也存在於汽車中控、機器人軀體、家電語音模組時,使用者接觸 AI 的路徑將從“打開應用”轉向“進入場景”。春晚舞台因此既是內容秀場,也是一場終端能力展。這種終端擴張的底氣,來自模型在產業側的滲透深度。截至2025年底,豆包大模型累計服務上百萬家企業與開發者,覆蓋汽車、手機、教育、金融、網際網路等多個行業。Token呼叫規模達到極高量級,企業側呼叫持續增長。這意味著,模型能力早已不止存在於消費端應用,而是在產業系統中持續運轉。從產品策略上看,豆包2.0提供 Pro、Lite、Mini 多規格的通用Agent 模型,以及Code專用模型,覆蓋不同延遲、成本與推理強度需求。這種分層結構帶來的靈活部署和更具性價比的成本,本質是在為“規模化部署”準備彈性空間。既能滿足高強度推理場景,也能適配終端側的低時延需求。當模型具備跨場景部署能力,終端就不再是展示窗口,而成為調度節點。在移動網際網路時代,入口爭奪的是流量分發權;在大模型時代,入口爭奪的是場景調度權。誰的模型能夠嵌入更多真實世界的硬體與系統,誰就更接近下一個階段的控制中樞。因此,與其比較那家AI應用年底擁有更多日活,不如觀察那家模型正在進入更多終端。當AI成為終端默認能力,而不是被主動打開的工具,競爭的維度也隨之改變。春晚帶來的流量,是豆包成為“國民助手”的起點;2.0的跨代升級,則為其提供執行能力;而終端生態的鋪開,才真正決定它能否成為萬物入口。如果說 2026 年春節是 AI 大模型集體亮相的高光時刻,那麼對豆包而言,這或許只是一個能力周期的開端。從聊天工具,到國民助手,再到終端底座,登上春晚的豆包,正在開啟屬於自己的2.0階段。 (市象)
AI Agent 經濟時代,產品生存法則
今天剛好看到YC CEO Garry Tan轉發的一篇熱門文章《how to sell to agent》,挺有意思。文章包含了大量的經濟邏輯,會啟發你站在不同角度來思考 Agent 時代下的完全不同的產品(服務)設計思路。Garry 在劃出文章重點的同時拋出一個值得思考的問題:One of the most important questions for founders is: How do I make sure agents know about my product and service and choose it? All the old tricks won’t work.   People who figure this out will win big. 對於創始人來說,最重要的問題之一是如何確保智能體知道我的產品和服務並選擇它們?所有舊的技巧都將失效。率先破解這個問題的人將贏得巨大優勢。這不僅僅是一個行銷問題,更是商業模式的改變。如果未來採購決策由企業內部的 AI Agent 完成,你的產品是否已經是agent-native?還是仍然停留在為人類決策流程設計的狀態?1937 年,Ronald Coase提出了一個極具深見的問題,並因此榮獲諾貝爾獎:如果市場機制如此高效,企業為何還會存在?為什麼我們不通過合同將所有業務外包?他的核心答案是交易成本。因為尋找合適的專業供應商、評估其履約能力、協商價格、監督合同執行,這些環節都會消耗大量的時間與資金。在傳統環境下,內部僱傭的組織成本往往低於外部市場的交易成本。如今,AI Agents 正在重構這一經濟模型。 一個智能體可以在單次 HTTP 往返中,自動化完成服務發現、價格查詢與呼叫執行。它消除了傳統商業中的方案比選、產品演示及人工對比等冗餘環節。通過查詢登錄檔獲取結構化資料,Agent 能在毫秒級時間內做出最優決策。當然,交易成本並非全面下降。系統整合、合規性審查及安全評估等環節的成本依然高企。然而,搜尋與評估層,即獲取服務存在性及其定價資訊的邊際成本正在趨於零。當搜尋成本發生驟降,企業的決策邏輯將從“內部自建”轉向“外部採購”。而此時的採購主體已不再是人類,而是擁有獨立預算的自動化軟體(They're software with budgets)。注意力經濟不再適用整個行銷史的核心就是捕捉注意力。廣告牌、搜尋廣告、落地頁、開發信、展會展位,這一切都是為那些會瀏覽、比較並最終做決定的人類設計的。Agent 不瀏覽,它們只查詢。Agent 最佳化的是結果,而不是注意力。它們沒有品牌忠誠度,沒有衝動消費,沒有地位象徵的需求。Agent 的決策函數簡單得近乎殘酷:你能解決我的問題嗎?多快?多少錢?多可靠?在 Agent 執行階段,你的行銷網站對 Agent 是不可見的,你的價格頁面也無關緊要,唯一重要的是你的 API。推薦引擎只給三件事加分:活躍度(當前響應速度)、可靠性(歷史成功記錄)、置信度(結果精準頻率)。推特粉絲數、媒體曝光或品牌知名度沒有任何加分。演算法看不見這些,即使能看見也不在乎。這意味著發現過程必須程序化。人類通過口碑、搜尋結果和社交媒體尋找服務;Agent 則需要機器可讀的能力登錄檔。如果你的服務不能被機器發現,那麼對 Agent 來說,你就不存在。當然,人類仍會決定允許 Agent 使用那些工具。這確實是新的行銷方式的切入點。但一旦 Agent 運行起來,執行階段的採購決策就是純粹的最佳化過程。競爭的關鍵在於先進入人類准許名單,然後成為名單中最優的選項。Agent做決策的邏輯每當Agent面對子任務時,都會面臨一個核心決策:是消耗自身算力進行推理(build),還是付費呼叫已有的成熟方案(buy)?這一決策模型主要取決於兩個變數:成本與速度。1/ 資訊套利是驅動採購的核心動力。 以常見的Agent子任務為例,如“調研網頁抓取服務”或“獲取特定資料集的最佳 API”。自主推理路徑:若智能體通過大模型(如 GPT-4 等級)進行自主研究,配合約 16K token 的推理和工具呼叫,成本約為 0.10 至 0.50 美元,耗時 10 至 25 秒。由於結果源於對訓練資料的合成,精準性往往存在波動。專業服務路徑:相比之下,呼叫帶有精選目錄的專業化服務,獲取相同答案僅需 0.01 至 0.02 美元,響應時間低於 200 毫秒。由於其基於即時維護的資料而非生成的推理,精準性更高。這種情況下,buy 比 build 便宜 7 到 50 倍,速度快 50 到 100 倍。2/ 在自動化工作流中,速度的權重往往不亞於成本。當Agent花費 25 秒進行自主推理時,整個業務流水線將進入“阻塞狀態”,導致終端使用者感知到的延遲呈指數級累積。我們來對比一下,一個包含 10 個步驟的工作流,若每步依靠自主推理耗時 20 秒,使用者需等待超過 3 分鐘;如果將其取代為 200 毫秒的專業 API 呼叫,整體流程僅需 2 秒即可完成。此外,通用智能體雖然具備抓取網頁或提取資料等能力,但其執行成本往往比那些在基礎設施層面深度最佳化的服務高出近百倍。其背後的經濟邏輯清晰而客觀,若 buy 的邊際成本低於 build 的成本,且響應速度更快,系統邏輯必然向 buy 傾斜。這種趨勢催生了“長尾化”的超專業化服務市場,即那些功能單一、響應極快、且單次呼叫成本僅需微量支付的 API 端點。然而,build 與 buy 的邊界始終在動態變化。隨著基礎模型成本的降低和原生能力的增強,部分簡單的、通用的功能會被 Agent 重新用build的方式完成。能夠長期存活的服務,往往具備 Agent 難以複製的優勢,例如專有資料集、即時資料流、依賴硬體的計算能力,如圖像生成或網頁渲染。隨著大模型和各類 Agent 的普及,推理、總結、寫程式碼、寫報告等能力越來越標準化,甚至接近商品化。無論是基於 OpenAI、Anthropic 還是 Google 的模型,底層智能差距在很多通用任務上已經被顯著壓縮。也就是說,單純賣“更聰明一點”的模型,長期來看護城河有限。You sell access to things they literally cannot compute on their own 真正有價值的,是權限。Agent 再聰明,如果無法訪問你的資料庫、ERP、CRM、專有 API、物理裝置、支付系統、供應鏈網路,它就只能停留在語言層面。它可以理解問題,卻無法真正行動。真正的 Agent-native 產品是什麼樣的如果你在建構一個供 Agent 購買的服務,其產品需求與針對人類建構的產品完全不同。1/ Price belongs in the protocol, not on a webpage 價格應存在於協議層,而非網頁上。Agent 需要 API 層的機器可讀定價,而不是分三檔並帶有“聯絡銷售”按鈕的價格表。價格應作為結構化封包含在響應中。當 Agent 訪問你的端點時,它應立即知道呼叫成本及支付方式。HTTP 協議裡有一整套狀態碼,用來告訴請求方發生了什麼。例如:200 表示成功、404 表示資源不存在、401 表示未授權。其中有一個狀態碼是 402 Payment Required。它在 1997 年寫入 HTTP 標準時就被預留出來,意思是“需要付款才能訪問”。但在現實網際網路裡,幾乎沒有真正使用過它,所以長期被標註為“保留以供未來使用”。為什麼沒人用?因為過去網頁主要面向人類使用者,收費由網站在應用層自行設計,例如結算頁面、訂閱流程和第三方支付介面,而不是通過 HTTP 協議。在 Agent 經濟下,情況將發生變化。如果未來是智能體在自動呼叫 API,那麼一次請求本身就可能需要即時付費。理想流程是這樣的:Agent請求某個介面、服務返回 402,並附帶機器可讀的價格資訊、Agent自動完成支付、再次發起請求並獲得結果。整個過程無需人類參與。網際網路最初為瀏覽而設計,現在可能要為自動交易而重構。2/ Per-request pricing changes what's viable 請求計費模式改變了商業模式在傳統SaaS訂閱模式下,服務通常每月收費 29 美元甚至更高。這意味著產品必須功能足夠全面,能夠持續為使用者提供價值,否則使用者很難長期付費。一個只解決單一問題的介面,在這種模式下幾乎沒有生存空間。當計費方式變成按請求付費,而且單次成本極低時,經濟邏輯發生了變化。即便是非常垂直、只做一件小事的介面,也可以成為獨立業務。例如,抓取一次社交資料可能只需 0.1 美分,分析一份文件約 0.5 美分,生成一張圖像約 0.17 美分。在人類主導的訂閱模式下,很少有人願意每月花 29 美元,只為使用一個功能單一的介面。但當呼叫方變成 Agent,並且每天自動發起成千上萬次請求時,收入來源就從“單個使用者的訂閱月費”轉變為“高頻、低價呼叫的累計”。只要介面在某個細分任務上具備明顯優勢,按呼叫計費就有可能形成可持續的商業模式。3/ Onboarding has to be automatable 入駐流程必須實現自動化高價值的服務依然需要身份驗證、頻率限制和防濫用機制。但其註冊流程必須能夠由 Agent 通過程序自動完成。如果你的入駐流程還需要人類去點選儀表盤、填寫表格,並手動將 API 金鑰複製貼上到配置檔案裡,那你就是在為一個原本僅需幾秒鐘的整合過程,增加了長達數分鐘的阻礙。最理想的狀態是:一次請求用於發現,一次請求用於認證,一次請求用於購買。三次 HTTP 呼叫,全流程無需人工干預。什麼不會改變整個銷售漏斗就此消失了嗎?並沒有,它只是經歷了重構與最佳化。1/ Trust becomes machine-evaluable 信任進化為一組可被機器量化的指標品牌並沒有消失,而是轉化為了一套可靠性評分系統。未來,Agent 會像審計員一樣,即時追蹤並對比各家服務的運行狀態:線上率夠不夠穩?響應準不準確?延遲波動大不大?資料來源是否可追溯?在這樣的環境下,競爭邏輯隨之變化。能夠證明自身輸出精準性的服務,即便價格更高,也更容易被選中。無法提供可驗證依據的服務,那怕更便宜,也會因為不確定性而被降權。來自 Agent 服務目錄的早期資料揭示了一個殘酷的真相:在一項針對 44 個服務的抽檢中,竟然只有 2 個能完全正常工作。直接呼叫服務的成功率只有 53%。這說明,可靠性就是產品的全部。那些不穩定的服務(Dead services)將面臨最嚴厲的懲罰,它們會永遠失去 Agent 的調度,流量瞬間歸零。2/ Policy still gates purchasing 規則依然是購買行為的終極門檻雖然 Agent 可以秒級完成交易,但它們必須在既定框架內運行,比如支出上限、供應商白名單、資料儲存要求等。傳統的銷售漏斗(吸引、說服、轉化)並沒有消失,而是進化了。現在的篩選標準是既要“快和便宜”,更要“合規、可信、可審計”。 不符合合規要求的服務,性能再強也不會進入備選名單。與此同時,合規性本身正在轉化為機器可讀的程式碼。 以前需要逐字閱讀的服務條款,現在變成了機器秒讀的結構化資料。資料存多久、權限怎麼設定,全都寫在了 API 的數字標籤裡。那些由合規約束的 Agent,會本能地避開黑盒服務,優先採購那些支援程序化驗證的可信供應商。3/ The adversarial environment is real Agent 時代的叢林法則並不是每一個介面都值得信任。有的會返回無效甚至錯誤的資料,有的會藉機收集不該獲取的資訊,還有的誇大自身能力,只為了吸引更多呼叫流量。因此,Agent 不能只看表面結果,還必須具備一整套防護與驗證能力,例如結果校驗機制、隔離運行的沙箱環境,以及基於歷史表現的聲譽加權路由策略。只有這樣,才能在複雜環境中篩選出真正可靠的服務。對於服務商來說,願意在“可驗證性”和“透明度”上投入資源,會帶來長期優勢。因為在機器主導決策的市場裡,系統優先選擇的是可證明、可追溯、風險可控的服務。最終,可信度本身就成為最核心的產品能力。打造 Agent 原生服務Agent 已經在花錢了,只是它們正通過為人類設計的笨重介面來操作:註冊金鑰、瀏覽帳單後台、解析瀏覽器專用的價格頁。正如前面所分析的,如果創始人想把產品或服務賣給 Agent,請參考這份清單:Machine-readable capabilities 機器可讀的能力描述: 以結構化格式(如 JSON)發佈服務功能,而非行銷頁面。Pricing in the protocol 協議內定價: 在 API 響應中返回價格。Agent 不會去讀你的定價網頁。Automatable onboarding 可自動化的入駐: 實現從 Agent 從未聽說你的產品(或服務)到成為 Agent 的付費客戶的程序化閉環。Provable reliability 可證明的可靠性: 公佈即時指標和置信度評分。信任是衡量出來的,不是行銷出來的。Be faster and cheaper than self-computation 需要比自我計算更快、更便宜: 這是硬指標。如果 Agent 能花更少錢、用更短時間自己算出結果,它就不會呼叫你。未來無限可能是不是這些做法都給了你新的啟發,但是我們在實際實踐中,還需要延伸思考,以上所描述的經濟環境其實是隱含了一些重要假設的。1/ Agent 會成為主要採購主體它假設未來大量服務呼叫和採購決策由軟體自動完成,而不是由人瀏覽網頁、閱讀報價單再做決定。但如果企業仍然保持人工審批和主觀判斷為主,這套“機器最佳化市場”邏輯就不會完全全面成立。2/ 搜尋和評估成本接近零這是對 Ronald Coase 理論的延伸。它假設 Agent 可以通過標準化登錄檔快速發現能力、比較價格、驗證可靠性。如果現實中能力描述高度碎片化、介面標準不統一、質量難以驗證,那麼搜尋成本不會真正趨零。3/ 決策函數高度理性它假設 Agent 嚴格按速度與成本最佳化,不考慮品牌、關係或情緒等因素。這意味著市場會向極度理性、邊際成本驅動的方向演化。但如果企業刻意將品牌、長期合作關係或戰略繫結寫入規則,這個假設會被削弱。4/ 介面可標準化它假設價格可以寫入協議層,能力可以用結構化 JSON 描述,支付可以程序化完成。如果基於未來的支付系統、法律體系或合規要求等,無法支援這種自動化交易,Agent-native 市場恐怕難以形成。5/ 可靠性可以由機器來評估它假設服務的線上率、延遲、精準性都可以被量化並公開。如果大量服務缺乏可驗證的指標,agent 就無法理性最佳化,市場仍然會依賴品牌與信任關係。6/ 支付架構的標準化它假設支付將成為網際網路的基礎協議(Protocol),而非應用(Application)。 比如金融基礎設施允許微支付(Micropayments),即單次呼叫只需支付 0.001 美元,且無手續費損耗。這其實是非常具有挑戰性的,事實上微支付在技術上可行,但在現有金融體系中手續費、清算延遲與合規成本仍然存在。若缺乏低成本清算網路,單次 0.001 美元等級的支付難以實現規模化。只有當支付協議與網際網路基礎設施深度融合,自動化交易才可能普及。這一假設將會依賴金融基礎設施的演進,而不是單純技術突破。儘管上述技術路徑充滿了各種現實挑戰,但商業邏輯的演進從不以障礙為終點,而以效率為導向。歷史經驗反覆表明,當一項技術同時降低成本、縮短時間並擴大規模時,它最終會重塑商業邊界。AI 的演進也是如此。 (Miss LN)
Claude Code正式引入Git Worktree原生支援:Agent全面實現平行獨立工作
Claude Code現已原生內建Git Worktree支援。現在,多個Agent可以完全平行運行,互不干擾。每個Agent都會獲得專屬的獨立工作區。這項功能此前已在Claude Code桌面端應用中提供,今天正式擴展至命令列(CLI)環境。瞭解Worktree底層機制:https://git-scm.com/docs/git-worktree以下是本次更新的核心功能拆解:命令列支援一鍵開啟隔離環境在命令列中,啟動時附帶--worktree參數即可讓Claude Code在專屬的Git工作區中運行。你可以自行命名工作區,或者直接讓Claude自動完成命名。這項機制允許在同一個Git倉庫下同時運行多個平行的Claude Code會話,徹底解決了多工並行時的程式碼修改衝突問題。同時,附加--tmux參數可以直接在專屬的Tmux會話中啟動Claude。桌面端應用提供可視化開關如果不習慣使用終端命令列,可以直接在Claude桌面端應用中操作。進入Code選項卡,直接勾選worktree mode即可開啟工作區模式。子Agent全平台打通工作區特性子Agent現在同樣利用工作區隔離機制來處理更多的平行任務。在應對大型批次修改和程式碼遷移任務時,這項特性極具實用性。只需直接要求Claude為其Agent使用工作區即可呼叫該能力。目前該功能已完成全生態覆蓋,支援環境包括:CLI命令列、桌面端應用、IDE擴展、Web端以及Claude Code移動端App。自訂Agent支援默認隔離配置你可以讓自訂子Agent始終在自己的工作區中運行。配置方式非常直接,只需在Agent的頭部配置資訊(frontmatter)中加入isolation: worktree即可生效。全面相容非Git版本控制系統對於使用Mercurial、Perforce或SVN的使用者,本次更新同樣提供瞭解決方案。通過定義工作區鉤子(worktree hooks),非Git使用者也能完整體驗到程式碼隔離機制帶來的優勢。(AI寒武紀)