#咖啡
庫迪“急剎車”:7000家店背後,激進加盟模式的殘酷代價
2023年初,庫迪咖啡以“全場9.9元”的價格,把整個咖啡行業都拖入到了價格戰的泥潭,並以驚人的速度,在一年多的時間內,將門店的數量擴展到了7000余家,然而,進入2024年後,現實卻驟然的反轉了,有不少消費者發現,身邊的庫迪門店,竟然都悄悄關了門,在大眾點評等平台上上,暫停營業的標籤也越來越多,尤其是在一二線城市的商圈內,這種情況,尤為的突出。從狂飆突進到緊急剎車,庫迪的過山車之旅,絕非屬於簡單的經營起伏,它更像是一面鏡子,照出了如今中國連鎖加盟行業,集體的焦慮與困境,它用一種極端的方式證明,當規模和速度,凌駕於單店的健康之上時,整個商業的體系,都會遭到殘酷的反噬。圖源:網路01 解剖庫迪的模式:閃電擴張的武器與先天的裂痕庫迪的成功開局,依賴的,是一套精密,且極具攻擊性的驅動模式,但事實上,這看似光鮮的背後,早就已經佈滿了先天的裂痕。1. 產品的定價——擊穿底線的破局手段近幾年,瑞幸似乎已經規整好了咖啡的市場價格,但庫迪的出現,卻直接將現磨的咖啡的價格,定位在了9.9元,精準的擊穿了消費者的心理防線,並借此機會,用最快的速度,獲取了客流,同時,他們推出各種菜單,試圖去覆蓋更多的消費客群,為門店的增收鋪路,但事實上,這種低價只能是策略,因此這種方法,從一開始,就埋下了盈利的隱患。2. 加盟的政策——誘惑力拉滿的招商套路如今,對於咖啡店而言,想要加盟,普遍要收取數萬甚至數十萬的加盟費,而庫迪,卻打出了零加盟費的王牌,大幅度降低了加盟商的資金和心理門檻,同時,開業初期,還會給他們提供裝置和裝修的雙重補貼,並搭配總部,線上上進行強勢的行銷和導流,給眾人營造出一副,開業即火爆的假象,而且,更有甚的是,他們用聯營合夥人,來替代加盟商的稱呼,給加盟者,包裝出利益共同體的假象,進一步吸引投資者入局。3. 擴張的節奏——不計成本的閃電戰庫迪通過簽約知名的代言人,或贊助大型的體育賽事,在短時間內,打響了全國品牌的知名度,同時,在全國進行多點佈局,強行的支撐門店網路快速的鋪開,而這種不計成本的擴張,完全依賴資本的輸血,一旦資金斷裂,或者市場遇冷,隨時都有可能崩盤。4. 先天的裂痕——從誕生就註定的隱患這套擴張模式的裂痕,其實從一開始,就已經註定了,因為盈利的模型極其脆弱,而且,他們過度的迷信規模經濟,將盈利的希望都寄託在持續擴張上,從而導致加盟商的利益被後置,在實質上,承擔了擴張期的成本和風險,而且,一旦補貼減少或消失了,單店才是最先承受壓力的一方。圖源:網路02 閉店潮的真相是加盟體系的系統性崩潰當外部的競爭加劇,且內部的矛盾累積到臨界點時,庫迪的加盟體系就會從末端開始瓦解,讓閉店潮成為必然。1. 單店盈利的幻想徹底的破滅隨著總部補貼的收縮,租金、人力和原材料等剛性的成本,將全面的凸顯,而9.9元的低價根本無法覆蓋調掉成本,而漲價,又會導致他們喪失價格的優勢,致使客流量銳減,而且,當瑞幸等對手,也跟進價格戰了後,庫迪的差異化優勢就消失了,他們的市場瞬間就淪為了紅海,日均杯量也無法再支撐門店的運轉了,因此,在快速擴張的壓力下,部分選址劣質的門店,營收只能持續的低迷。2. 總部的支援難以為繼高速的擴張和持續的補貼,消耗了他們巨額的資金,因此,在未能實現規模化的盈利,且在新融資斷檔的情況下,總部將不得不削減,甚至停止對於補貼和行銷的支援,加盟商只能強行被斷奶,而且,門店的數量暴漲後,供應鏈的穩定性,品控的一致性,以及區域營運的督導,都跟不上節奏,因此,導致產品的品質不斷波動,且服務標準不一等問題頻頻發作,讓品牌的口碑持續的下滑。3. 加盟商信心全面潰敗大量加盟商在投入了數十萬後,面對的卻是持續性虧損,且回本無望的現實,導致他們從創業的夢想跌入到負債的困境,信心徹底的崩潰,而閉店,將意味著前期的投入血本無歸,同時,裝置處理、押金退還等問題,也引發了大量加盟商與總部的糾紛,使得負面輿論持續性發酵,進一步嚇退了潛在的投資者,形成了惡性循環。圖源:網路03 加盟連鎖的四大反思庫迪的案例,為整個連鎖加盟行業敲響了警鐘,標誌著舊有的發展邏輯已經終結了,也為我們帶來了深刻的行業反思。1. 速度崇拜的時代終結過去的十年,不少的連鎖品牌,將門店的數量視為核心KPI和融資估值的關鍵資訊,因此,催生了大家重速度、輕質量的快招思維,而庫迪,將這種思維推向了極致,也因此徹底的暴露了其致命的缺陷,如果沒有單店盈利能力的規模,只是得到虛幻的泡沫和危險的債務,因此,如今,資本的市場和加盟商都愈發的理性,單店的健康度也已遠超過擴張的速度。2. 加盟的關係,需要從收割轉向賦能在傳統的加盟模式中,總部與加盟商多為不對等的甲乙雙方,而庫迪的教訓證明,這種關係是不可持續的,因此,未來的連鎖品牌想要成功,必須將加盟商視為真正的命運共同體,將總部的盈利,建立在加盟商能夠普遍盈利的基礎之上,同時,他們的核心能力,也需從招商轉向讓加盟商賺錢的賦能。3. 單店模型的驗證是擴張的前提庫迪的激進,本質上是跳過了對單店模型進行嚴謹的驗證的階段,一個健康的連鎖品牌,擴張前,必須驗證其單店,在不同市場環境下的盈利能力和韌性,盲目複製未經驗證,且僅靠補貼支撐的單店模型,從一開始就會是災難。4.回歸核心競爭的價值本質咖啡行業,乃至整個加盟行業的競爭,最終拼的,不是開店的PPT和加盟的政策,而是其核心的價值,主要是其供應鏈的深度與效率,是否能夠穩定的提供高品質和低成本的原材料,還有產品真實的創新力,能否脫離價格戰,打造差異化的大單品,此外,還有品牌的長期價值,能否建立超越低價的情感連接和文化認同。圖源:網路04 對從業者的啟示——在狂潮中保持清醒的三大原則對於加盟行業的投資者和創業者來說,庫迪的案例帶來了三條寶貴的生存啟示,幫助大家在狂潮中保持清醒。1. 審視品牌的三大健康度考察加盟的品牌時,要重點關注三大健康度,首先是財務的健康程度,拋開零加盟費的噱頭,精細的去測算該品牌在總投資和保守營收下的回報周期,其次是模型的健康度,重點看以下開業一年以上的老店,他們的存活率和盈利狀況,而非新店的盛況,最後是生態的健康度,可以在私下溝通現有的加盟商,瞭解總部真實的支援力度,供應鏈的質量和他們經營的真實情緒。2. 認清自身的核心能力圈加盟絕非躺著賺錢,一個成功的加盟商,需要具備選址的眼光,本地化營運的能力,團隊的管理能力和抗壓的心態,因此,需要評估自己是否具備這些能力,或是否願意學習成長,這比選擇品牌的本身,更為重要,盲目的入局,只會將自己淪為泡沫的犧牲品。3. 警惕奇蹟敘事,尊重商業常識任何承諾“低投入、高回報、快回本”的商業模式,都需要極度警惕,商業是沒有捷徑的,餐飲零售更是勤行,大家需要尊重租金、人工和原材料的成本鐵律,並尊重客流、客單和復購的營收規律,才能避開陷阱,穩健的經營。圖源:網路結語從規模幻覺到價值深耕庫迪的急剎車,是中國連鎖加盟行業階段性狂熱退潮的標誌。它用殘酷的代價證明,依靠資本輸血、價格戰和加盟商庫存轉移建構的規模帝國,沒有單店盈利和共生生態作為根基,終將坍塌。這場行業出清迫使品牌方、加盟商、資本方回歸商業本質:創造可持續的顧客價值,讓價值鏈上的每一環都獲得合理回報。未來的連鎖加盟競爭,不再是融資額和開店速度的比拚,而是供應鏈效率、單店韌性、品牌價值和加盟商共贏機制的綜合較量。慢,有時才是最快的路;穩,才是最強的競爭力。那些沉下心幫助加盟商紮根社區、賺到錢、贏得口碑的品牌,才能穿越周期,實現真正的萬店夢想。 (洞見連鎖)
庫迪也發現情況不對勁了
根據多家媒體報導,庫迪咖啡確認將收縮全場9.9元活動。具體而言,從2月1日0時起,庫迪咖啡多數飲品在自有平台恢復26元至35元的常規標價,僅保留特價專區維持9.9元選項。庫迪曾以“全場9.9元不限量”成為咖啡行業的鯰魚品牌,直接推動了整個咖啡大戰的打響,但如今,庫迪9.9元優惠的收縮,也意味著咖啡/新茶飲行業正在進入一個新的競爭階段。2023年初,庫迪咖啡以新入局者姿態啟動大規模價格補貼,將單杯咖啡定價壓至9.9元,並在數月後進一步降至8.8元。顯然,庫迪的促銷打法延續了此前團隊在瑞幸咖啡時期的打法。同時,庫迪的補貼引發了連鎖反應,瑞幸等品牌也被迫跟進,行業進入高強度價格競爭階段。當時媒體稱之為“咖啡大戰”。據庫迪官方披露,截至2026年1月,其全球門店數量已超過1.8萬家,覆蓋33個國家與地區。整體來看,低價策略確實在短期內推動了門店網路快速鋪開,但成本等方面的代價也是顯而易見的。值得注意的是,在2024年,庫迪首席策略官李穎波曾向媒體表示,9.9元促銷計畫維持三年,但市場環境變化可能促使調整提前發生。當時他解釋,三年周期是基於市場培育所需時間的測算,而競爭者加速入場可能縮短這一過程。如今促銷計畫的調整,反映出庫迪對當下品牌戰略的重新評估。事實上,當品牌認知度建立後,單純依靠價格吸引流量的邊際效益也在遞減,這可能會導致加盟商的壓力變大,從而促使庫迪重新平衡獲客與單店盈利之間的關係。其實可以發現,不少餐飲零售行業品牌的產品價格都在向上調整。比如,2025年下半年以來,奈雪的茶將廣深地區早餐套餐價格由9.9元上調至15.9元;瑞幸咖啡逐步縮減9.9元產品範圍;肯德基於2026年1月26日起對外送產品進行小幅調價,平均漲幅0.8元;麥當勞在2025年底對部分餐品提價0.5至1元……這一波價格調整的背後,最重要的原因還是成本的上漲。比如檸檬、鮮果、咖啡豆、椰漿等原材料,在近一兩年中整體都出現了上漲,這也直接傳導到了終端品牌。同時,各大新茶飲、餐飲連鎖品牌如今更加依賴外賣管道,而當平台抽成、配送補貼與低價促銷疊加,單杯飲品的毛利空間被極度壓縮。我們以一杯標價9.9元的拿鐵為例,原料成本約3至4元,剩餘毛利需覆蓋房租、人工、水電及平台費用,其實售價已經很難覆蓋成本費用,因此9.9元拿鐵更多是作為引流的功能存在。隨著市場整體從增量競爭轉向存量競爭,單純依靠訂單量增長攤薄成本的模式很難繼續下去。庫迪在調整通知中明確,非特價產品將按零售價銷售,但強調全線產品仍參與外賣平台補貼活動,意在通過管道差異化維持價格競爭力,同時改善自有管道的盈利結構。當然了,價格回歸理性區間並不意味著低價策略徹底退出市場。庫迪保留特價專區、瑞幸維持基礎款9.9元選項,均表明平價產品仍是吸引流量的重要工具。但行業競爭焦點正從價格單一維度,轉向產品創新、供應鏈效率與門店營運精細化。當補貼退潮,企業需要證明其商業模式在正常價格水平下仍具可持續性,這對於庫迪、瑞幸們都是一場大考。接下來,咖啡連鎖品牌恐怕都需要重新對單店模型進行打磨,同時隨著星巴克的本地化改造,可能還會進一步加強“後咖啡大戰”時代的競爭強度。 (未來消費)
庫迪咖啡全場9.9元時代落幕
庫迪咖啡將收縮全場9塊9補貼。近日,有消息稱,庫迪咖啡發佈門店價格策略和活動調整通知。通知指出,“全場9.9元不限量”活動將於2026年1月31日24時正式結束,2026年2月1日0時起,將開啟特價專區,部分產品仍然延續9.9元不限量。2026年2月1日0時起,庫迪自有平台內非特價活動產品,均按零售價售賣。此外,新店首月8.8元活動自2月1日0時起調整,使用者掃碼可得券包由原先的3張6.9元飲品券(全場飲品可用)調整為3張8.8元飲品券(全場飲品可用)。邀新有禮活動也有所調整,新使用者獎品由原先的3張8.8元全場任飲券調整為3張9.9元全場任飲券。網傳圖片對於上述通知內容,1月30日,庫迪咖啡方面向澎湃新聞回應稱,屬實。庫迪咖啡相關負責人表示,部分產品延續特價9.9元不限量,全線產品持續參與外賣平台各類補貼活動。據記者瞭解,後續庫迪咖啡的經典產品仍會持續9.9元特價,一些產品在外賣平台加持下,價格會比9.9元更低。澎湃新聞記者根據公開資料梳理,2022年成立的庫迪咖啡,於2023年2月起率先發起了9塊9的促銷活動,並於當年5月進一步從9塊9減至8塊8,彼時不少中小咖啡品牌也同步跟進,引發了新一輪咖啡價格戰。據官網顯示,庫迪業務覆蓋全球33個國家和地區,門店數量超過1.8萬家,位居全球第三。目前在中國市場,入局超二十多年的星巴克主打第三空間,走高端路線,所有門店為直營模式,當前也在加速進入新縣城拓店。2017年成立的瑞幸咖啡主打性價比,近年來依靠聯名和迅速擴店而使品牌熱度大漲,也成為中國咖啡市場門店數量最多的連鎖品牌。庫迪咖啡由瑞幸咖啡創始人陸正耀、錢治亞攜瑞幸原核心團隊打造,成立2年不到,依靠9塊9、8塊8等低價促銷活動迅速殺入平價咖啡市場。在2024年接受澎湃新聞記者採訪時,庫迪咖啡首席策略官李穎波指出,庫迪咖啡處於品牌開拓期,更關注擴大市場份額。庫迪當下把重點都放在以雙向補貼來開拓市場相關的業務跟戰略上,包括消費者端的價格以及店面的鋪設力度。李穎波還在2024年採訪中指出,補貼消費者的9塊9促銷活動將持續三年,對聯營商的補貼將持續到2026年年底。當前進入平價咖啡賽道的品牌越來越多,某種程度上這個市場也會愈發成熟。庫迪咖啡會根據市場的擴容速度去不斷調整促銷政策延續的時間和力度。作為同樣是9塊9咖啡賽道的瑞幸咖啡,其管理層在2025年2月召開的財報電話會上指出,將繼續保持有競爭力的價格策略(9.9元),目前沒有提價的計畫。而反觀走高端路線的星巴克,去年在非咖啡飲品上宣佈下調價格。具體來看,2025年6月9日,星巴克中國方面宣佈,將發力非咖啡飲品市場,數十款非咖啡產品將集體迎來調價,以大杯為例,平均價格降幅達到5元,最低僅需23元就能購買。 (澎湃新聞)
【台股之外,越南也許是下一個高速成長市場】 🇻🇳📈 準備一起發現隱藏的投資機會了嗎?華南期貨特邀 中信投信越南市場專家,共同舉辦 2026 年|期貨業首場「越南市場沉浸式投資講座!」 👉 聯手從 宏觀經濟數據 出發, 帶領投資人 深度解構越南市場, 讓投資人在瞬息萬變的全球金融中, 鎖定台股以外的隱藏版投資機會!📌 這場講座,你將獲得: 專家視角 權威解析越南經濟脈動與政策利多。🔹 數據導航 用精準圖表拆解成長動能,告別盲目投資。 🔹 資產佈局 分析如何將越南納入全球資產配置策略。🎁 現場限定福利 報名參與,即享正宗越南在地飲品、咖啡。 ☕🇻🇳 ⚠️ 席位僅限 40 名! 為了維持品質,僅開放 40 個名額,額滿即關閉報名系統!👉 講座資訊 https://reurl.cc/mkO1jW#華南期貨 #中信投信 #越南 #資產配置 #越南30指數期貨 #數據交易 #投資講座 #限額40名 #越南咖啡 --- ⚠️ 警語: 期貨交易具有一定風險,交易人應先評估本身資金及所能擔負之風險。 華南期貨股份有限公司 📞 期貨客服電話:412-8889 📧 客服信箱:of@entrust.com.tw 🏢 台北總公司 台北市松山區民生東路四段54號3樓之9 (02)2718-0000 期貨商許可證字號:112年金管期總字第007號 🏢 台中分公司 台中市南屯區五權西路2段131號2樓 (04)2472-7208 期貨商許可證字號:113年金管期分字第003號
未來10年,財富機會藏在鏈上?11兆鏈上革命藏著財富密碼
跳出炒幣誤區:鏈上金融的本質是流動性重構一提區塊鏈,大家先想到的多是“炒幣”漲跌,卻忽略了它能改寫未來的核心價值。越南咖啡農把未來收成做成數位資產,向紐約投資人快速融資;內地新能源資產借道香港跨境鏈上流轉——這場脫離投機的變革,正圍繞鏈上金融設施鋪開。核心不是造新投機標的,而是把全球海量“固化資產”,變成能自由流動、高效配置的“液態資本”。權威預測顯示,到2030年,代幣化現實資產規模將破11兆美元,這正是未來十年的財富新賽道。從越南咖啡農說起:技術如何破解融資困局用一個真實感的場景,就能懂鏈上金融的價值。2035年越南中部高原,一位咖啡農想添精品烘焙裝置做高端豆,可本地銀行審批繁瑣、利率高,想法一直落不了地。這其實是全球中小經營者的通病,傳統金融的門檻,攔住了太多普通人的機會。但鏈上技術給了新出路:他把種植園五年產量資料、第三方品質評級,還有未來三年收成預估,打包成不可篡改的數字憑證上鏈。紐約投資人通過智能合約核驗後,幾分鐘就放款了,全程無中介,利率只有銀行一半。這不是科幻,是鏈上金融最實在的用處——靠技術打破地域牆,讓資產只看價值不看背景。關鍵破局:喚醒沉睡資產的資本活力咱們對“資產”的理解,大多停留在看得見摸得著的東西上。一套房、一幅畫、一家小店的未來收入,都值錢,但有個大問題:沒法靈活變現。你總不能把房子拆成千百份賣給全球人,急用錢時,也不可能三分鐘抵押給新加坡的陌生人。鏈上金融的關鍵,就是靠“現實世界資產代幣化(RWA)”啟動這些沉睡資產。資產變成區塊鏈上的數字憑證後,物理邊界和拆分限制都沒了:既能拆成小額讓普通人投,也能快速對接全球資本抵押融資,真正把“死資產”變成“活資本”。全球競逐:巨頭入局與中歐美賽道分化現在這場變革早不是概念了,已經規模化落地。截至2025年9月,全球鏈上RWA資產規模超295億美元,一年翻了近兩倍,211家機構扎堆進場,貝萊德、高盛這些巨頭也帶著錢來了。貝萊德鏈上國債ETF規模超35億美元,摩根大通更把私募信貸拆成1美元一份,讓普通人也能碰以前只有機構能參與的市場。國內朗新科技把9000多座充電樁收益權上鏈,靠螞蟻數科技術,跨境融資到帳快了9倍,實打實賦能實體經濟。全球對鏈上金融主導權的爭奪,也已白熱化,中歐美玩法完全不同。中國把區塊鏈當服務實體的工具,2019年就出台規定建了監管備案體系,聯盟鏈是主流,核心企業年增速達24%。美國把它當金融主權戰場,兩大監管機構爭權,政策搖擺讓部分項目外流,但也留了套利空間。歐盟規則太嚴,高額合規成本逼走15%的企業,不少都去了東南亞。香港卡位:鏈上資產跨境流轉的核心樞紐這場競逐裡,香港靠著“背靠內地、連結全球”的優勢,成了鏈上資產跨境流轉的核心樞紐。2024年香港金管局啟動沙盒計畫,很快就落地了首單內地企業跨境RWA項目——朗新科技和螞蟻數科合作,把新能源資產代幣化,通過香港平台融到1億元,全投去了儲能和充電樁升級。香港這步棋下得很準,剛好踩中全球痛點和內地需求。一方面接下內地實體資產的代幣化需求,幫新能源、高端製造搭跨境融資橋;另一方面靠普通法體系對接全球資本,成了RWA跨境流轉的“超級節點”。和新加坡側重零售數位資產不同,香港聚焦綠色金融、供應鏈金融,貼合內地產業升級需求,這種差異化讓它站穩了腳跟。機遇紅線並存:合規前提下的趨勢紅利未來十年,鏈上金融會滲透到金融全領域,機遇不少。對從業者來說,三個方向值得關注:垂直領域資產代幣化平台、銜接傳統金融與鏈上生態的“數字投行”、合規安全技術服務商。現在RWA人才缺口很大,鄭州甄瓴科技這些企業已經在做人才孵化,早佈局就能佔得先機。對普通人而言,理財也會變簡單,不用複雜手續,就能低成本投全球優質資產,資產變現效率會大幅提升。但機遇背後,風險和監管紅線絕不能碰。技術上,跨鏈橋攻擊、演算法漏洞常發生;合規上,國內明確禁止境內搞資產代幣發行融資,境外機構給境內提供服務也違法,個人用VPN參與海外DeFi風險極高。全球監管規則不統一,也讓跨境流轉變數很多,這需要行業和監管層一起解決。這場鏈上金融革命,從來不是要推翻傳統金融,而是用技術把效率和公平拉滿。它讓越南咖啡農能平等融資,讓內地資產對接全球資本,也讓普通人有了更多理財選擇。未來十年,真正的機會不在炒幣的短期博弈裡,而在看懂這場流動性革命的本質——紮根實體、守好合規底線,才能接住技術帶來的紅利,走進資產更通透、流轉更高效的金融新時代。(RWA現實世界資產研究院)
瑞幸背後的晶片,藏不住了
瑞幸咖啡背後的晶片,藏不住了。當你走進瑞幸咖啡店,點一杯生椰拿鐵的所有過程,例如下單、出杯、核銷、取餐……這一切的背後其實都有一雙“眼睛”在盯著。在看什麼?它要即時識別訂單、判斷製作節奏、校驗物料狀態、監控裝置運行,還要把資料同步回總部,用於品控、調度和營運決策。這就是藏在瑞幸咖啡背後無數的邊緣側AI,它們有一個共性,那便是算力必須就近部署,響應必須足夠快,穩定性必須足夠強,成本還要可控。晶片,成了其中關鍵中的關鍵。就在今天,瑞幸背後晶片的廬山真面目終於浮出了水面——來自一家剛剛完成上市不久的中國國產通用GPU公司,天數智芯。前腳剛剛敲完鐘,時隔僅半個月時間,天數智芯便又一口氣發佈了四款邊端算力產品,彤央系列。而且不只是發佈的動作,像瑞幸已經在用的邊端算力,正是彤央。那麼這個系列的產品到底實力幾何,我們繼續往下看。一口氣發佈四款新品先來看名字。彤央之名,源自商周青銅器銘文,但在天數智芯的內部,彤央有著別樣的寓意:“彤”指向高能效計算能力,“央”則意味著在邊端場景中承擔核心算力樞紐的角色。換言之,這是一個為真實業務現場而生的算力系列。彤央系列的首發陣容,共包括四款產品:TY1000、TY1100,以及定位算力終端的TY1100_NX和TY1200。先看彤央TY1000。這是一個標準699Pin介面的模組,尺寸只有口袋大小,但在這個方寸之間,天數塞進了近200T的稠密算力。在實際測試中,無論是典型的CV任務,還是NLP推理,甚至是對參數規模達到32B的DeepSeek-R1模型進行推理,以及具身智能VLA模型及世界模型等場景,TY1000在多項指標上都展現出不弱於主流國際方案的表現。在天數智芯披露的測試資料中,TY1000在多類負載下的綜合效率,超過了輝達AGX Orin所對應的典型配置。雖然這並不意味著全面替代,但至少證明了一件事:在邊端通用推理這個維度,中國國產通用GPU已經具備了正面對比的能力。其次是彤央TY1100。這款產品在架構上進行了進一步升級,採用了12核ARM v9架構CPU,並在系統級算力供給上更加充沛。它面向的是對通用計算和AI推理都有較高要求的複雜場景,比如多感測器融合、邊緣資料預處理、即時決策等。如果說TY1000更偏向算力核心,那麼TY1100則更像是一塊完整的邊緣計算底座。接下來,是針對對視訊記憶體容量和性價比更加敏感使用者的TY1100_NX。更大的視訊記憶體配置,使其在多模型平行、長序列推理等場景中具備更高的穩定性,同時維持了即插即用的部署方式,降低了系統整合門檻。最後,便是彤央TY1200,則被天數智芯定義為算力終端。它的算力規格提升到了300 TOPS,更重要的是,它是面向終端形態的整體方案。這類產品的目標使用者,並不只是演算法工程師,還包括希望直接把AI能力裝進裝置的行業客戶。從產品組合上看,彤央系列並沒有走單點極致路線,而是刻意拉開了算力、形態和價格區間,覆蓋從算力模組到終端的不同部署需求。但天數智芯並沒有把重點只放在晶片的參數上。在生態層面,彤央系列在介面和形態上實現了與主流產品的Pin-to-Pin相容,大幅降低了客戶從既有方案遷移的成本。這一點,對於已經有成熟系統的工業和商業客戶來說,幾乎是“是否願意嘗試”的分水嶺。更重要的是,這些產品並不是為了發佈而發佈。在機器人領域,彤央與格藍若機器人合作進入企業實際應用場景;在工業側,比依電器等製造企業正在用其進行裝置智能化升級;在商業零售場景中,瑞幸咖啡只是其中一個典型案例;而在交通領域,彤央系列也已經參與到多個車路雲一體化試點中。當四個完全不同的行業場景,開始使用同一套通用GPU算力底座時,一個更大的問題隨之浮現:天數智芯真正想做的,究竟是什麼?天數智芯的“野心”也暴露了如果只看彤央系列,很容易理解為一家中國國產晶片公司想要率先補全雲邊端的業務版圖。但從其同樣於1月26日公開披露的架構路線圖來看,事情顯然沒有這麼簡單,在其業務大本營的雲端場景,天數有更野心勃勃的目標。天數智芯並不滿足於中國國產替代這個階段性目標。在多次公開場合中,它都明確提到,自己的長期目標是對標乃至超越輝達這樣的行業標竿。為此,天數智芯給出了一張明確到年份的架構路線圖。2025年天數智芯推出的天數天樞架構,超越輝達Hopper。據瞭解,這已經不是規劃,而是現實:該架構支援從高精度科學計算到AI精度計算,AI晶片在執行注意力機制相關計算時,算力的實際有效利用效率達到90%及以上。而測試資料顯示,天數天樞架構效率較當前行業平均水平提升60%,在DeepSeek V3場景平均比Hopper架構高約20%性能。到2026年,天數天璇架構,新增ixFP4精度支援,對標Blackwell;天數天璣架構,實現全場景AI與加速計算覆蓋,超越Blackwell。而在2027年,天數智芯規劃中的天權架構,則直接指向對Rubin架構的全面超越,重點融入更多精度支援與創新設計。支撐這條路線圖的背後,還有一整套底層技術能力。包括TPC Broadcast、Instruction Co-Exec、Dynamic Warp Scheduling在內的多項技術,構成了天數智芯在指令級平行、資源調度和算力利用率上的核心優勢。這些能力,決定了它是否真的具備在通用GPU賽道長期演進的可能性。那麼,天數智芯是否真的有這樣的實力?一個直觀的判斷方式,是看通用性。截至目前,天數智芯的通用GPU已經穩定運行400余種主流模型,並且強調Day 0適配能力;以DeepSeek為例,其在天數智芯平台上的適配和推理,已經成為客戶實際部署的一部分。第二個維度,是商業化落地。根據其公開披露的資料,天數智芯累計交付的晶片數量已經超過5.2萬片,服務客戶超過300家。在實際應用中,網際網路AI客服的算力成本被壓縮了一半,而單機性能翻倍;金融行業的研報生成效率提升了約70%;在高要求的叢集場景中,其千卡規模叢集已經實現了超過1000天的穩定運行。這些資料足夠耀眼,也足夠具體。尤其值得注意的是,天數智芯在招股書中,對客戶數量、量產發貨規模、卡級毛利等核心指標進行了相對完整的披露。這種攤開來講的方式,在當前的中國國產晶片行業中並不多見。也正是在這一點上,天數智芯與不少大廠自研晶片或專用NPU路線拉開了差距。它選擇了一條更難、也更慢的路——堅持通用GPU路線,從架構、指令集、編譯器到軟體棧進行全端自研。這意味著沒有盲區,也意味著每一步都必須自己趟過去。最後,回到瑞幸的那杯咖啡。當中國國產算力開始真正進入千行百業,進入門店、工廠、道路和裝置,晶片不再只是發佈會上的參數,已然是業務鏈條中不可或缺的一環。從這個角度看,此次發佈的意義,或許並不只在於發佈了四代架構圖,和四款邊端新品,而在於中國國產通用GPU,一邊抬頭,試圖超越行業標竿,並以更大的野心,嘗試面向無人區提出自己的路徑;一邊低頭,以一種更貼近現實的方式,不斷深入產業現場。而這,可能才是天數智芯真正想證明的事情。 (量子位)
《好市多年前特惠搶翻 新竹店星巴克咖啡豆「貨架被搬空兩層」》距離農曆新年剩不到兩週,各大賣場湧現採購人潮,美式賣場好市多(Costco)更是擠滿備貨民眾。有會員在臉書「好市多商品資訊分享」社團發文分享,新竹店目前特價商品被搶購速度驚人,其中星巴克咖啡豆貨架已被掃空兩層,提醒有需要的會員把握檔期趕緊補貨。該名會員表示,愈接近過年賣場人潮愈多,特價商品也被搶得特別快。目前新竹店仍有3項特惠品數量充足,包括汰漬洗衣精原價615元、折扣125元後只要490元,容量大又洗得乾淨,推測是因應年前大掃除需求,購買人潮絡繹不絕。星巴克咖啡豆則從999元降至799元,雖然貨架已被搬空兩層,但原PO認為這款香濃順口,很適合製作拿鐵。西雅圖二合一咖啡從689元降至549元,方便即沖、單包換算價格實惠,冬天來一杯特別暖心。貼文一出引發熱烈討論,有網友表示「二合一真的好便宜,我都買來放辦公室」、「星巴克這款咖啡豆是真的不錯,其實單喝我覺得也可以,味道很均衡」。也有人剛扛了一罐洗衣精回家,準備清洗各種被單和陳年衣服。另有網友詢問「想找個平日晚上去,人應該比較少?」也有人好奇咖啡豆是否能囤一段時間。原PO最後也提醒,由於近期賣場人潮眾多、特價品搶購快速,建議有需求的會員盡早前往,以免向隅。若想避開人潮,可選擇平日晚間或非尖峰時段前往採購,以獲得較佳的購物體驗。
機器人終於能“上班”了:PI 讓它連沖咖啡 13 小時
從一開始,他們就強調一件事:類大腦啟發的大模型本身就是一件“離譜地成功”的發明。用一個通用的學習演算法,加上大規模資料,就能在機器人、視覺、語言、聲音等各種模態上學出遠超傳統方法的能力,而這一切“真的能跑起來”,本身就非常震撼。來源:AI工業(採用 AI 工具整理)PI 的野心:用“機器人基礎模型”打穿智能瓶頸來源:AI工業(採用 AI 工具整理)Physical Intelligence 的使命,是為機器人建構基礎模型(robotic foundation models)。他們希望做到:原則上讓任何機器人執行任何任務。過去一年半,他們搭起了一整套可擴展的“積木”:證明同一個模型可以控制多種不同形態、不同平台的機器人,也可以在新環境中表現出一定的泛化能力。最新的 Pi-Star 0.6 則開始通過強化學習從經驗中持續學習,讓模型的性能逐漸逼近真實可部署的水準。他們已經在現實中讓機器人連續做了 13 小時咖啡,同一類模型還能遷移到手術機器人、無人機等完全不同任務上,表現出強的跨任務泛化能力。在“為什麼做基礎模型而不是自己造整機”這個問題上,他們的判斷非常明確:機器人行業真正的瓶頸一直在智能,而不是硬體。十多年前的機器人,只要由人類遙操作,就已經能完成打掃整屋這樣的複雜任務,這說明硬體早就足夠強。傳統路線是圍繞單一任務造一台專用機器人,本質上並沒有正面解決“智能層是最短板”這個問題。Physical Intelligence 選擇直接瞄準智能瓶頸本身,相信如果能把這一層打通,垂直產品和商業化場景自然會在各行各業湧現出來。他們承認,近幾年人形機器人硬體和靈巧手的進步非常快,例如 Optimus 的手已經精密到“像藝術品”。但在他們看來,更高階的硬體只是抬高了“理論上限”,而真正限制落地的還是“智能地板”。即使用相對簡單的夾爪,只要智能足夠強,也可以完成切菜、做飯等任務。現在連“達到人類遙操作員水平”這一步都還沒走完,真正的短板是控制層和決策層的智能,而不是手腳是不是又多了幾個自由度。為了系統化地攻克智能問題,他們把難題拆成三個維度:能力、泛化和性能。在能力這一點上,他們的目標是:只要你能為某個任務或某個機器人收集到資料,就應該有一個模型能學會並自動執行該任務。在早期的 Pi Zero 版本裡,他們認為已經驗證了這一點——對於很多不同機器人與任務,只要有資料,模型就能學會模仿並實現自動化。泛化是他們認為目前仍然非常棘手的問題。理想狀態是:機器人可以零樣本泛化,被搬進一個從未去過的新家,也能完成整理廚房這樣的基本任務。挑戰在於,不同家庭的佈局、物品位置、光照條件完全不同,機器人必須形成某種“環境常識”。他們的結論是:在機器學習裡,泛化唯一靠得住的答案就是“資料多樣性”——只有覆蓋足夠多樣的環境,模型才有能力在“相似但未見過”的場景中工作。在 Pi 0.5 中,他們已經看到一些跡象:機器人第一次進入某個新家,也能做簡單的收拾和清潔,雖然遠不完美,但至少表現出了一定程度的常識化行為。從 demo 到生產:部署—資料—再訓練閉環來源:AI工業(採用 AI 工具整理)性能這一維度,則關乎能不能真正“跑在生產上”。他們的目標是:把成功率和穩定性推到可以商業部署的水平。為此,他們非常看重“部署—資料—再訓練”的閉環:最可擴展的高價值資料收集方式,是讓機器人在真實場景中執行有經濟價值的任務,一邊創造業務價值,一邊順便積累訓練資料。長遠來看,這種真實互動資料的規模,有潛力遠遠超過今天網際網路上的靜態資料,成為未來訓練機器人基礎模型的主力來源。時間尺度上,他們原本估計至少要再等五年,技術才適合在商業場景部署一台真正有價值的機器人。但現實情況是,他們在大約兩個月前就已經開始實際部署機器人,比預期早了很多。他們認為現在剛剛跨過了一個關鍵門檻:模型已經“有用到足以開始部署”,能完成一定多樣度的任務,並在實際業務中創造價值。當然,他們也強調,不是所有場景都適合立刻上:失敗成本極高的任務、對泛化和隱私要求極高的家庭場景,短期內都需要謹慎。更現實的路徑是,先從可控、風險可接受的場景開始,隨著部署和資料積累,可部署場景的“光圈”會持續放大。他們也坦誠,基礎模型的真實能力範圍很難在訓練前完全預測,必須依賴大規模應用與測試。正因如此,他們選擇把模型開源,讓更多團隊在自動駕駛、手術機器人、農業等他們原本沒想到的領域測試這套系統。結果顯示,實際“可用光圈”比他們自己想像的要寬得多。但與此同時,要讓每一個具體業務場景都達到“可以每天穩定跑業務”的程度,仍需要長期的性能爬坡和對長尾問題的治理,這是一個持續多年的工程。架構路線:VLM 預訓練 + 機器人資料注入 → VLA來源:AI工業(採用 AI 工具整理)關於“架構是不是已經定型”這個問題,他們的態度是:當前的技術架構已經足夠支撐模型跑起來並開始部署,但絕不是終點形態。未來很可能不僅僅是“多收資料、擴模型”這麼簡單,在架構層面仍然會不斷演化,真正的“終極範式”還沒有被完全寫死。目前他們建構的是一個視覺-語言-動作模型(VLA),整體架構與常見的多模態視覺-語言模型(VLM)類似:底層是一個在網際網路級圖像與文字資料上預訓練的大模型,其上再大規模注入機器人資料進行訓練。現在,資料構成中大部分已經是他們自己採集的機器人資料,網際網路資料只佔少量。模型內部可以理解為:一側是視覺-語言骨幹,另一側接入一個他們稱為“動作模型 / 動作專家(action model / action expert)”的模組,用來根據圖像和指令生成驅動機器人執行任務的控制命令。整體就是一個單一的大型 Transformer 模型,參數規模已經達到幾十億等級,在機器人資料與網際網路資料上共同預訓練,其中很大比例來自人類示教與遙運算元據。在性能擴展上,他們目前主要依賴於機器人資料規模的擴展,也大量借鑑了VLM 領域的模型與訓練方法。他認為,未來架構仍有很多可拓展空間,例如:為模型提供更豐富的上下文資訊、在機器人上接入更多攝影機和視角,以及讓模型對物理世界有更強的理解能力——房間裡都有什麼、什麼容易被損壞、什麼物體容易移動等等。他判斷,未來五六年回頭看,今天使用的、源自 VLM 的骨幹網路很可能已經被新的架構替代,但資料本身,以及如何將資料引入模型的方式,大機率會保持現在的基本思路。從歷史演變看,在“學習”進入機器人之前,主流做法是依靠工程師手寫規則與程式碼,試圖覆蓋機器人在現實世界中遇到的各種情況,結果發現現實世界複雜度遠超預期,這條路行不通。於是問題被拆分為多個子模組:感知(perception)、規劃(planning)和控制(control),並逐漸形成相對獨立的研究社群與會議。隨後,大家開始用學習方法替換各子模組內部的規則:感知可以是學習的,控制可以是學習的,規劃也可以是學習的,這確實比完全手寫規則更好。但實踐表明,真正的問題在於這種預先把問題拆成若干模組,並為它們強行定義介面的流水線式架構——例如感知必須輸出精準的物體位置、規劃輸出軌跡、控制執行軌跡,這些固定介面在真實世界中反而成為最脆弱的環節。端到端的代價:資料鴻溝與“常識推理”難點來源:AI工業(採用 AI 工具整理)在這種反思下,機器人學習進入了端到端(end-to-end)階段:不再事先劃分感知、規劃、控制,而是直接把所有感測器輸入(如像素)送進網路,讓網路直接輸出動作,即所謂“從像素到動作(pixels-to-actions)”的方法,由網路或學習演算法自行決定內部是否、以及如何劃分功能。然而在實踐中,他們發現,要讓端到端方法真正可靠,需要極其龐大的資料量,一旦任務涉及常識推理,模型就很容易失敗;而要僅靠機器人自己以第一人稱視角採集足夠多的經驗資料,幾乎意味著要親身經歷幾乎所有可能情境,這在現實中難以實現。在這種背景下,他們發展出視覺-語言-動作模型(VLA)的路線:先利用在網際網路資料上預訓練好的模型,借助其已經具備的世界常識和語義理解能力,再在其基礎上增加動作相關模組,將這種世界理解與如何在現實世界中執行動作連接起來。通過這種方式,他們既能復用網際網路預訓練帶來的常識,又能通過機器人資料學習在物理世界中把事情真正做成。當前階段,可以概括為:一方面把網際網路預訓練的常識遷移到機器人領域,另一方面利用大規模機器人資料學習具體動作控制,目標是讓模型具備通用性,可以在不同機器人平台上生成合理動作。對於推理(reasoning)能力,他指出,大語言模型在鏈式思維、多步推理等方面的進展,通過共享或相近的骨幹網路,也在一定程度上滲透進了 VLA 模型。現有模型不再只是“看到什麼就做簡單反應”,而是已經在內部進行一定層面的動作規劃和決策。隨著通用大模型推理能力的持續提升,這部分能力預計會進一步發展,並反過來增強具身智能與機器人控制的表現。在他看來,如今的模型不僅要決定下一步動作,還會預測接下來大約 50 個時間步要做什麼(大概一兩秒的短時域),同時還會在語言空間裡自動把任務拆成子任務。比如你讓它“打掃廚房”,它會自己拆成“先開到操作台”“拿起玻璃杯”“把杯子放進水槽”等。也就是說,它已經在做短期動作規劃 + 自我拆解子任務,而且這部分能力未來只會更強。他判斷,未來用於推理的大模型強化學習(RL)進展,一定會遷移到機器人上。不過,這和現在給大模型做數學題、程式碼題的 RL 很不一樣。數學題本質上是純文字推理,人類會在腦子裡用文字想:“如果我這樣改公式,就會得到那樣的結果”。但在物理智能裡,更像你學習一項新運動(比如網球):你不會在腦中逐字描述“現在抓拍子、然後揮拍”,而是會想像動作本身、身體怎麼動,以及球和球拍的軌跡。所以,未來的模型需要在動作 / 軌跡等連續空間中推理,而不僅僅是文字空間。他認為真正的推理應該發生在一種更抽象的多模態空間:既能在文字裡推理,也能在圖像裡推理,甚至能在軌跡、狀態空間裡推理,然後綜合多種表徵得到答案。機器人在這裡是一個理想的試驗場:一方面,它必須真正落地到物理世界,受現實反饋約束;另一方面,機器人資料遠比網際網路文字稀缺且難採集,逼著我們正面解決資料少、噪聲大、分佈複雜的問題。正因為有這些壓力,機器人場景會逼出新的訓練方法和理解,這些新方法最後反過來還能提升通用 LLM。在資料問題上,他強調:機器人資料的關鍵不只是數量,還有質量和多樣性。但“多樣性”目前沒有嚴格統一的定義——同一任務用 10 種方式完成,和對 10 種不同物體做同一個任務,到底那個更“多樣”,社區還說不清楚。他們的經驗是:如果只是按原有方式不停采同分佈的資料,模型性能很快就會進入平台期,光堆資料量無法繼續帶來明顯提升。要想再往上走,就必須改變資料採集策略,有意識地采“更有價值的資料”,而這正是強化學習可以發揮作用的地方。Pi-Star 0.6:真實世界 RL 讓機器人從經驗裡持續變強來源:AI工業(採用 AI 工具整理)這就引出了他們的工作 Pi-Star 0.6。在此之前,他們做機器人“基礎模型”幾乎都是純模仿學習(IL):用遙操作演示資料訓練,讓模型去模仿人類示範軌跡。而在 Pi-Star 0.6 中,他們改成了“示教 + 真實世界強化學習”:先用示教資料訓練一個初始策略,再把它部署到真實機器人上執行真實任務。在真實執行過程中,機器人會收到人類給的獎勵訊號,並在必要時接受人工干預和糾正。這些真實互動產生的資料被不斷回流到訓練裡,模型學習那些行為應該被強化、那些應該減少,於是策略就能在真實世界中持續自我改進,從而擺脫單純堆疊示教資料帶來的性能平台期。在 RL 的具體落地方式上,他們選擇了現實世界優先,而不是主要依賴模擬。Pi-Star 0.6 論文中的強化學習,全都在真實機器人系統上完成。原因是:很多真正影響系統表現的,都是真實部署中的長尾故障,在“乾淨的模擬器”里根本不會出現。比如那個摺紙板巧克力盒子的真實任務:一開始系統表現很好,後來新批次紙板由於模切不完全、紙板輕微粘連,機器人一抓就把兩張紙板一起拿起來,放到桌上準備折盒子時,桌面突然多出第二個盒坯。如果你只在模擬器裡訓練,永遠只會拿到“完美分開的單張紙板”,這個故障模式壓根不會暴露;而在真實 RL 中,模型就必須學會識別並分離多餘紙板、移走它,再完成剩下那張的折盒過程。他還對比了行走(locomotion)和操作 / 抓取(manipulation)在模擬中的差異:對行走來說,最大難點往往是精準建模機器人自身體態和動力學;只要把這一台機器人建模得足夠好,模擬 → 現實的遷移相對可行。但對操作 / 抓取來說,難點是建模世界以及無數物體在被操縱時的反應——你不僅要控制“手從 A 移到 B”,還要預估“這個動作對所有接觸物體的影響”。這相當於要把整個世界建模出來,物體、材質、任務一多,規模就會迅速爆炸,這也是為什麼模擬 RL 在操作任務上的效果,遠不如在行走任務上的亮眼。他們在三個實際任務上,將機器人策略的執行吞吐量提升了 2 倍以上:包括搭紙箱任務、使用工業級意式咖啡機製作咖啡以及疊衣服任務。在每個任務中,僅基於人類示教訓練出來的基礎策略,被強化為執行更快、從失敗中恢復能力更強的版本。他們在官網展示了長時間運行的實驗視訊,例如機器人連續製作咖啡 13 小時、連續疊衣服 4 小時。這些長時間、不間斷的真實運行,證明機器人不再只是“拍一次成功畫面的玩具 demo”,而是能夠持續執行真實工作負載的系統,從而改變了人們對這類模型是否“可部署”的看法。他們強調,當前機器人領域真正的瓶頸在於可靠性和可持續部署能力。雖然網路上幾乎“任何你想像機器人能做的事,都能找到一次成功的視訊”,但這些視訊往往可以無限重拍,並不能代表系統在真實環境中的長期表現。對於實際部署而言,關鍵在於:模型在長時間連續運行下的穩定性、執行速度以及在不頻繁失敗的前提下能運行多久。如果系統隔三差五就出錯一次,就很難被認為是可部署的。在他們看來,此次 Pi-Star 0.6 的進展,標誌著這類模型開始逼近“真正可部署”的可靠性水平。在強化學習的角色上,他們認為這既是面向客戶部署的工程創新,也是提升模型能力的關鍵路徑。未來無論是家用機器人(能疊衣服、洗碗、做飯、移動、駕車),還是中小企業場景中解決“傳統自動化改造成本過高”的任務(例如裝巧克力盒),都要求機器人既要可靠高效,又要具備處理訓練階段未覆蓋新任務的能力。單純依賴不斷擴大人類示教資料規模並不現實,人類資料在數量和多樣性上存在硬性上限,基礎策略的性能上限也隨之受限。他們將重點轉向在真實部署中通過機器人自身經驗進行持續學習:先利用大規模人類資料和演示訓練出一個初始策略,然後在部署階段通過自主資料採集和強化學習不斷改進。他們預計,未來幾年會越來越依賴這種線上、在崗的資料收集和更新機制,用部署中產生的經驗資料來反向充實預訓練與微調,從而逐步建構覆蓋目標任務空間的“任務凸包”,讓模型能夠在這一空間內進行插值和泛化。他們將這一進展視為“讓系統從自身經驗中學習”的關鍵起點。他們類比人類學習過程:人類可以通過觀看視訊、觀察他人操作獲得初始能力,但真正成長仍然依賴於在真實任務中親自實踐、試錯、觀察動作對結果的影響並從中總結規律。在他們看來,能夠在規模化部署中真正“從自己的經驗裡學到東西”,是此次工作的一個重要里程碑。在具體案例上,他們提到意式咖啡中的壓粉(tamping)環節:初始模型會壓得過重,甚至出現機器人幾乎把自己頂離桌面的情況,其原因在於最初的人類示教資料更偏向“確保壓實、壓平”,導致模型學成了“用力過猛”。隨後,他們僅收集了大約 30–50 條人類糾正資料,再將這些少量但高價值的糾正樣本回灌給模型,結果模型就學會了更溫和且更接近正確的壓粉力度。這說明:即便模型已經在數百萬條 episode 上完成預訓練,少量高品質的人類糾正資料依然能夠顯著修正具體子技能,這對現實中的持續校準與在崗微調尤為重要。當被問到“在壓粉上學得更好,是否會讓模型在疊箱子等其他任務上也隨之變強”時,他們坦言:在這個具體例子中,壓粉能力的提升並不會直接遷移到疊箱子任務。但他們補充指出,同樣的糾正機制可以平行應用在眾多子任務上:例如為“分開黏在一起的兩個盒子”“修正折得不規整的盒子”等細分環節分別收集幾十條糾正資料。隨著對不同子技能持續做類似增量修正,這些局部改進會累積成整體表現和泛化能力的提升。在“持續學習(continual learning)”這一概念上,他們認為當前仍處於非常早期的階段。現有系統還稱不上是經典意義上的連續學習架構,距離那種“在不斷到來的資料流中持續更新、自動演化至更通用智能”的願景仍有不小差距。但與過去那種“訓練一次、產出一個靜態模型 artefact、後續幾乎不再更新”的範式相比,如今的系統已經更像一個“活的系統”:被部署之後仍然會嘗試新行為,從自身經驗中學習,並持續變好。在他們看來,這只是一個起點,卻是邁向可以在真實世界中一邊幹活一邊進化的機器人系統的關鍵一步。目前整個體系在他看來更像一套“可重複的配方”:不同任務各有一套示教和訓練流程,現在跨任務的“互相啟發”仍然有限,整體更偏向於針對每個任務重複執行成熟配方。隨著規模擴大,如果不同任務之間存在相似的動作模式,他們預期會逐漸出現從任務 A 遷移到任務 B 的效果,但當下的主要現實仍是“重複配方”,而不是強泛化。真正明顯的泛化能力主要來自預訓練。當模型在越來越多的任務和資料上進行預訓練時,新任務的“上手難度”會顯著降低,甚至會出現零樣本任務也能直接完成的情況。他們會定期重啟預訓練,每一次在資料量增加以及預訓練流程持續最佳化的推動下,模型能力都會進一步提升。展望未來,一旦大規模部署真正展開,機器人在真實場景中執行各種任務時產生的資料會不斷回流訓練,形成一個“部署 → 產生資料 → 模型變強 → 能部署得更多”的閉環資料引擎,他們認為真正大的泛化紅利將來自這一閉環過程。在架構設計上,系統大致可以被劃分為兩部分。一部分是策略網路(policy),通過人類糾偏與強化學習(RL)反饋持續提升決策能力。另一部分是獲得高品質 RL 反饋的機制:他們先讓人類對完整的任務嘗試(例如做咖啡、搬箱子)打上“成功/失敗”標籤,再用這些帶標籤的軌跡訓練一個價值函數(value function),使其能夠從任意中間狀態預測“從這裡繼續下去,大機率會成功還是失敗”。在 RL 訓練中,這個價值函數被用作基線:如果當前動作讓成功機率上升,就將對應資料“往上推”;如果軌跡朝失敗方向演化,就“往下壓”,從而間接完成對策略的強化更新。實驗結果顯示,在多工、多資料上預訓練價值函數時,會出現明顯的跨任務泛化。在某些任務中,價值函數甚至能比人類更早察覺失敗:例如,當機器人嘗試將咖啡機手把(portafilter)插入機器時,人類從視訊中往往要到真正卡住那一刻才意識到“要失敗了”;而價值函數通常會在提前三四十步時就開始明顯下跌,相當於在預先標記“這條軌跡不適合拿來學習”。這種“提前預判失敗”的能力,會隨著資料量和任務數量的擴張持續增強。從強化學習的視角來看,他們強調,RL 並不等同於只在終點給一次獎勵的策略梯度方法。通過價值函數、時間差分學習(TD)等技術,可以將原本只在結尾出現的稀疏獎勵,轉化為沿時間序列更稠密的學習訊號,從而支援更長時序、更複雜的任務。由於機器人領域並不存在類似語言那樣的“完美模擬器”,大量行為必須直接在真實世界中執行,這客觀上逼迫他們探索更高效的 RL 方法,尤其是圍繞價值函數的各種實踐。他們認為,這些在機器人場景中被迫打磨出來的 RL 技術,未來有望反哺整個大模型 / AI 社區。在資料與世界模型方面,當前階段被他們視為一個引導啟動(bootstrap)期,在這一階段,幾乎所有能幫助模型盡快跨過“可部署門檻”的資料來源都值得嘗試:包括模擬資料、人類演示視訊、手持拍攝視訊、遙運算元據等。從長期視角看,他們判斷真正佔主導地位的將是大規模部署後產生的真實世界資料,其規模與多樣性都會遠超啟動階段所能人工收集的一切。因此,當前狀態更像是在不斷試錯和堆料:“能想到的有用資料都先往裡加,只要能把模型推到可以開始大規模部署的那條線就行。”關於世界模型 / 視訊模型,他們認為這些路線與他們當前的 RL 技術,本質上都在解決同一個核心問題——反事實(counterfactual)和信用分配(credit assignment):究竟是那些動作真正決定了成功?如果在關鍵時刻做了不同選擇,世界會如何演化?世界模型的做法偏向於顯式預測整段未來視訊,例如“如果當時換一個手把角度,後續會不會卡住”;而基於價值函數的 RL 則通過更隱式的機制來處理同一問題。他們目前在這些方向上平行探索:從 Pi-Star / Pi-Star-6的結果來看,基於 RL 的方案已經展現出良好前景,但他們同樣認為,未來在世界模型、視訊模型與 RL 的組合上還有大量空間有待挖掘。在商業化與產品形態層面,他們坦言,在跨過啟動期、進入面向客戶的大規模部署階段後,最終是提供端到端垂直一體化的機器人解決方案,還是主要輸出模型與能力,由客戶自己完成業務整合,這一點目前仍在探索之中,尚未形成完全確定的答案。他們首先強調,現在整套技術還非常早期,剛剛到達一個“可以開始考慮真實部署”的門檻,所以當前最重要的是把底層技術打磨到足夠好、足夠易用,而不是急著選一個具體場景變現。他們希望先把系統做成儘可能通用、儘可能容易部署的“平台級能力”,把“可適用任務的光圈”儘可能打開,而不是一上來就把自己鎖進某個窄場景。回顧機器人創業史,很多公司一開始是做“通用機器人”的大願景,技術做了一段時間後,一旦選定一個落地應用,就開始圍繞這個場景不斷做特化和妥協:各種只為這個應用服務的工程 hack 堆上去,最後公司就變成了“只做倉儲揀選”等單一垂直應用的公司。他們非常想避免走上這條路,因為他們認為自己現在有機會,直接對“物理智能(physical intelligence)”這個總問題發起進攻。如果真的能把物理智能做通用,它帶來的長期收益遠遠大於今天緊盯某個單一應用。因此,他們寧願現在就把技術做得足夠通用、足夠易部署,把適用範圍開到最大,至於未來是賣模型、賣一體化解決方案,還是賣機器人整機,可以在技術成熟後再決定,現在過早選路線反而會把自己框死。拿他們的工作和自動駕駛對比,有的地方比自動駕駛容易,有的地方則更難。相對容易的一點在於,很多物理任務並不需要 100% 可靠:比如家裡機器人幫你疊衣服,100 件裡有 1 件疊錯完全可以接受,人類隨手糾正一下就好;但在自動駕駛裡,“每一百次來一次災難性失敗”顯然是完全不可接受的。與此同時,他們明顯受益於今天這個大模型時代:有了視覺–語言模型和更通用的基礎模型,系統本身就自帶一定的“常識”和泛化能力,還能汲取2009 到 2025 這十幾年裡自動駕駛和深度學習踩過的所有坑和經驗教訓,從一開始就採用更通用的範式來建模。難的地方在於,他們試圖建構的,是一個真正通用的物理智能系統:既要能開車,又要能做抓取與操作(manipulation)、行走、飛行,甚至控制手術機器人。但他們的經驗是:如果從第一天起就以“通用”為目標來設計架構和訓練流程,這個問題並沒有想像中那麼難。在“物理智能”裡似乎存在某種我們還沒完全搞清楚的結構,使得同一個模型可以在“駕駛、沖咖啡、飛無人機、操控手術機械臂”這些看似差異巨大的任務之間遷移和抽象。這一點讓他們對前景非常樂觀,覺得通用物理智能未必比自動駕駛更難,甚至在某些維度上可能更容易。談到最近最讓他們震撼的進展,其中一個明確的例子就是視訊模型。幾年前他們還在做早期的視訊生成與建模工作,那時完全沒有預料到:改進曲線會陡峭到今天這種程度——生成視訊幾乎難以與真實區分,而且還能完成複雜的時空變化與場景控制。更驚人的是,這一切竟然是從“下一個 token 預測”這樣看似簡單的預訓練目標裡湧現出來的。他們坦言,至今仍然對這種“從純預測任務裡湧現出通用智能”的現象感到震撼;今年無論是在數學競賽等級的挑戰,還是在科學發現和研究工具上的突破,都在不斷刷新他們對大模型上限的認知,也讓他們相信:大模型預訓練遠沒有見頂,反而像是剛迎來“第二口新鮮空氣”。他們反覆強調,最不可思議的地方,是這整套東西居然真的能穩定地工作。你搭建一個大致受人腦啟發的神經網路結構,配上一個通用的學習演算法,然後往裡灌入足夠多、多樣的真實資料,它就自己學會了我們幾十年工程堆不出來的東西,而且在機器人控制、視覺理解、語言處理、音訊等多個方向上全面超越傳統手工設計系統。現在已經可以讓機器人進入一個從未見過的家庭環境,也大致知道在家裡該做些什麼,或者讓它連續十多個小時重複完成像沖咖啡這樣複雜的操作——而這一切都來自一個端到端訓練出來的統一系統。他們承認,自己至今仍然沒有完全弄明白這個系統內部到底是怎樣組織知識和行為的,但事實證明它“就是能行”。在方法論上,他們認為整個 AI 領域其實也經歷了一個從“拆小問題”到“做大一統”的範式轉移。過去很長一段時間裡,主流做法是:把一個大問題拆成很多細小的子任務,在每個子任務上做極致最佳化,試圖最後通過工程整合把這些子系統拼回一個完整智能。真正的飛躍,出現在我們開始做大規模多工預訓練之後:不再為每個任務單獨設計目標和結構,而是用一個統一的預訓練目標,讓模型在多源海量資料上自己去“總結”,結果發現大量跨任務的能力會自發湧現。在他們眼中,這種從“任務碎片化”到“統一預訓練”的轉變,是過去十多年裡最出人意料、也是最具決定性的變化之一。有人把這兩種範式比喻成“手風琴”:一會兒收攏,把問題拆得越來越細;過一陣覺得不行了,再張開,回到“大一統”的解決方式,然後周而復始。對這個比喻,他們的看法是:現在已經很難想像再完全回到老一套“拆分優先”的範式。確實有很多人嘗試尋找“最佳組合”,例如把牛頓力學等我們已知的顯性規則硬編碼進模型,希望通過“預烤一部分知識”來降低學習難度。但依照他們的經驗,這種做法往往會限制模型發現新模式的能力,反而降低了系統的上限。從目前看到的證據來看,所謂“兼得兩端”的方案並不理想,他們更傾向於認為:應該把籌碼壓在“純學習”這邊——儘可能讓系統從資料和互動中自己學,而不是靠人為規則補丁來約束它。為了說明這一點,他們用了一個生物進化和兒童發展的類比。如果智能真的可以被很好地預烤到基因裡,進化早就會選擇讓你一出生就“知道一切”。現實卻是:像鹿這種動物,出生不久就已經接近一生能力上限,後天學習空間有限;而人類、烏鴉這類高智商物種,反而擁有很長的“笨拙童年期”,需要通過大量的試錯、遊戲和探索去學習複雜行為。換句話說,更高層次的智能往往意味著更少的預烤知識、更多來自經驗的學習。在機器學習中,他們也得出了類似的教訓:我們以為自己理解“智能應該如何被設計”,但現實是我們並不瞭解自己的思維結構,真正有效的做法是讓演算法在足夠豐富的世界經驗中、自主地學出那些我們自己都說不清的結構和規則。最後,他們又把話題繞回到“學習”本身:不管是大模型,還是具身機器人,抑或是人類小孩,核心都是在一個複雜世界裡,通過長期互動去獲取經驗、形成自己的內在模型。父母常常以為自己知道孩子在怎麼想,但實際情況卻是:孩子學習得極快,經常掌握一些父母從來沒顯式教過、甚至不知道是從那兒學來的東西。在他們看來,這恰恰說明了一個事實:真正強大的智能,往往不是預先寫死的規則,而是從持續、豐富、真實的經驗中“長出來”的。 (AI工業)