字節跳動,正在下一盤前所未有的大棋。
今年年初,一個消息在圈內炸開了鍋:字節AI的年度預算,據說達到了驚人的150億人民幣。這筆錢,幾乎相當一個中型網際網路公司的全部身家。
錢要往那兒砸?
我們看到了答案的雛形。36氪的獨家報導揭開了面紗:2026年,字節AI有四個關鍵命題,其中最核心、最“燒錢”的一條是——加大對世界模型訓練的投入,年底前,模型性能達到現階段世界模型全球領先水平。
這不僅僅是字節的野心,更是整個AI行業的一次戰略轉向。當大語言模型的“暴力美學”邊際效益遞減,當Scaling Law的爭論甚囂塵上,字節選擇了一條更艱難、也更性感的路:從理解文字,到理解物理世界。
為什麼是“世界模型”?
這確實很難。
我們熟悉的GPT、Claude,本質上是一個“語言大師”。它們讀過全人類的書籍和網頁,能寫詩、程式設計、聊天,但它們對“一個杯子掉在地上會碎”這件事,毫無體感。它們不知道蘋果的質感,不理解推門的力學,更無法預測一輛車在濕滑路面上的軌跡。
這就是“莫拉維克悖論”:對人類來說極其簡單的感知和運動任務,對AI來說卻異常困難。
而“世界模型”要解決的,正是這個根本性缺陷。它試圖讓AI理解物理世界的底層規律——重力、慣性、光照、材料屬性、因果邏輯。一個真正理解世界的模型,才能做出靠譜的決策,才能從“紙上談兵”的參謀,變成“能動手”的執行者。
字節的150億,賭的就是這個“理解”。
這筆帳,算得過來嗎?
很多人看到150億這個數字,第一反應是“瘋狂”。但如果我們拆解一下字節的AI佈局,就會發現這並非一時衝動。
首先,字節有“彈藥”。抖音和TikTok的現金牛,為這場豪賭提供了源源不斷的燃料。更重要的是,字節有“資料”——全世界最豐富、最多元的短影片資料。這些視訊裡,包含了人類行為、物體互動、場景變換、物理規律的海量真實樣本。這正是訓練世界模型的“黃金礦藏”。
其次,字節有“場景”。從抖音的AI特效,到豆包的語音助手,再到傳聞中的硬體裝置,世界模型一旦成熟,可以迅速嵌入到字節的整個產品矩陣中。一個能理解“你對著鏡頭笑一下,背景就變成櫻花雨”的世界模型,其體驗提升是革命性的。
最後,字節看到了“終局”。LeCun押注“隱空間世界模型”,輝達、特斯拉、Waymo在CVPR上大談“物理AI”,全球最聰明的大腦都在朝這個方向走。字節不想在下一輪技術競賽中掉隊。
所以,這150億,買的不是當下的營收,而是通往未來的船票。
世界模型,真的能跑通嗎?
坦率地說,沒人能打包票。
Yann LeCun的觀點很尖銳:“隱空間世界模型很難,但我們一定要做。” 難點在於,物理世界的複雜度是指數級的。一個“杯子掉在地上”的簡單動作,涉及到的物理變數、可能的狀態變化,遠超語言模型的Token預測。
但好消息是,我們看到了落地的希望。有一篇文章的標題很有意思:“一個GPT Plus會員的錢,夠機器人跑一個月世界模型了。” 這說明,成本正在急劇下降。當世界模型的推理成本從“天價”降到“白菜價”,其商業化的大門就打開了。
更令人興奮的是,中國公司已經在悄悄佈局。全球領先的視覺大模型團隊早已在隱空間世界模型上深耕多年。這並非一個從零開始的賽道,而是一場“臨門一腳”的衝刺。
字節的入局,將徹底改變這場遊戲的規則。
這對我們意味著什麼?
作為從業者、投資人、決策者,我們需要從字節的這步棋中,讀出三個訊號:
第一,AI競爭的“作業系統”正在切換。 過去,我們比拚的是模型參數量、訓練資料量、算力規模。未來,比拚的是模型對“物理常識”的理解深度。誰能率先建構出高保真、低成本的世界模型,誰就能定義下一代AI應用的標準。
第二,“具身智能”不再是科幻。 世界模型是機器人的“大腦”。字節重注世界模型,看似離機器人很遠,實則是在為未來的人形機器人、自動駕駛、家庭服務機器人鋪路。當字節的模型能理解“如何不灑水地把一杯咖啡端到你面前”,機器人走進千家萬戶的那一天就不遠了。
第三,投資邏輯要變了。 過去我們投大模型公司,看的是參數和榜單。未來,我們要看的是“物理資料”的積累能力、“場景閉環”的建構能力。擁有獨特物理場景資料(如工廠、倉儲、駕駛)的公司,其價值將被重估。像戴盟機器人、原力靈機這類攻關物理世界模型和具身智能的公司,正在成為資本的新寵。
字節的150億,不是終點,而是起點。
它像一聲發令槍,宣告了AI行業從“數字世界”向“物理世界”的全面進軍。這場戰役的勝負,將決定未來十年全球科技產業的權力版圖。
我們或許無法像字節那樣投入150億,但我們必須看懂這150億背後的風向。當世界模型不再是學術論文裡的概念,而是可以觸碰的商業現即時,每一個決策者都需要重新思考:我的業務,如何與這個“理解物理世界”的AI共生?
這確實很難,但機遇永遠屬於那些提前下注的人。字節已經亮出了底牌,接下來,輪到我們了。 (智零局)
