#字節
字節的“羅福莉”,撐起了Seedance的半邊天
隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點。其實在AI科學家圈子裡,女性數量雖然相對較少,但也絕非羅福莉一顆獨苗。在字節跳動,就有一位羅福莉式的人物。她就是Seedance 2.0視訊生成模型的預訓練負責人,曾妍。一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發負責人周暢、視訊生成技術核心負責人蔣璐。很少有人知道,曾妍的存在,同樣無可或缺。因為預訓練是整個模型的“基石”,它決定了模型的能力上限。大多數人把預訓練當成“喂資料”,但真正的高手知道,預訓練是在“塑造模型的世界觀”。資料怎麼配比、架構怎麼設計、訓練策略怎麼調整,每一個決策都在決定模型能看到什麼、理解什麼、生成什麼。無論你後面怎麼努力最佳化,預訓練只要沒做好,這個模型就一輩子達不到Seedance 2.0現如今的高度。不僅是貢獻大,曾妍的晉陞速度在字節也是相當快的。從她畢業進入字節開始算起,到現在的4-2職級,曾妍僅僅花了5年時間。4-2職級對應高級總監/權威架構師層級,屬於公司核心戰略級技術骨幹,年包(含基本工資、年終獎、股票)普遍在500萬以上。她到底做了什麼,才有如此成就?讓我們從她的求學之路說起。01 從西交到字節說實話,當我第一次看到曾妍的履歷時,並沒有覺得特別驚豔。1997年出生,西安交通大學本科,加拿大蒙特利爾大學電腦碩士。這條路徑放到現在的AI圈裡太常見了。但接下來發生的事,就不那麼“標準”了。2021年9月,曾妍以校招生身份加入字節跳動 AI Lab,起點職級是演算法工程師。入職僅兩個月,曾妍就以第一作者身份在arXiv上發表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是後來大家熟知的X-VLM模型。這篇論文解決的問題,用大白話說就是:怎麼讓 AI 既能看懂“大場面”,又能注意到“小細節”。傳統的視覺語言模型有兩個極端。一種是“粗線條”派,只看圖像整體和文字的對應關係,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。另一種是“顯微鏡”派,依賴昂貴的目標檢測器去摳每個物體,雖然能看到細節,但計算成本高得嚇人,還得依賴大量人工標註資料。曾妍提出的X-VLM,就是取兩者之所長。它能同時學習從整體到局部、從場景到物體、從粗到細的多層次視覺概念,並與文字中的不同粒度資訊精準對齊。或者我用一個我最近剛學會的話來形容:既見森林,又見樹木。這個“多粒度對齊”的思想,在當時看起來只是個學術創新,但它為曾妍後來擔任Seedance 2.0預訓練負責人埋下了伏筆。因為視訊生成的預訓練,本質上也是個多粒度建模的問題。你要想生成一個好看的視訊,那就既要把握整體敘事節奏,讓一段視訊有連貫的故事線;又要控制每一幀的細節質量,確保人物面容不變形、物體運動符合物理規律;還要建立時序維度上的關聯關係,讓前後幀之間的過渡自然流暢。這剛和X-VLM的底層邏輯是一致的。接下來的兩年,曾妍就像開了掛一樣。她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會發表了八篇論文,還擔任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會的審稿人。2023年,一個關鍵轉折點到來了。字節跳動成立大模型研究部門Seed,曾妍和所在團隊一同轉入。這個時間節點你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節也在這波浪潮中調整了技術戰略。曾妍擅長的多模態預訓練,在視訊生成這個新戰場上,能發揮她的全部實力。在Seed部門,曾妍作為第一作者主導了兩個重要項目,分別是CCLM和Lynx。先說CCLM(Cross-View Language Modeling)。這個項目讓AI模型同時學會“跨語言”和“跨模態”的理解能力。CCLM通過統一的預訓練框架,讓在英文圖像-文字資料上訓練的模型,可以零樣本遷移到中文、日文等其他語言的多模態任務上。說白了,就是讓 AI 學會“舉一反三”——在英文視訊上學到的理解能力,能直接用到中文、日文、西班牙文的視訊上。再說Lynx。這是一個系統性研究如何訓練GPT-4風格多模態大語言模型的項目。2023年正是GPT-4剛發佈的時候,大家都在摸索怎麼做出“能看圖說話”的大模型。曾妍團隊通過一系列對比實驗,找出了模型架構設計、訓練資料配比、指令微調策略等關鍵因素,最終做出了 Lynx 模型,在多模態理解和指令跟隨能力上都表現出色。用人話說,就是研究“怎麼造出一個既能看懂圖片又能流暢對話的AI”,並且搞清楚了那些因素真正重要。真正讓曾妍“出圈”的,是2023年年底的PixelDance。這個項目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視訊生成領域一個長期存在的矛盾,如何平衡動態性和穩定性。你想想,如果一個AI生成的視訊動作幅度很大、畫面變化劇烈,看起來確實生動有趣,但很容易出現畫面崩壞、角色變形、物體突然消失這些“靈異事件”。反過來,如果你追求穩定性,讓角色和場景保持一致,人物面容不突變,那生成的視訊就容易僵硬,像幻燈片切換而不是流暢的動態影像。曾妍團隊的突破在於,他們在預訓練階段就建立了嚴格的時序約束。傳統的視訊生成模型都是先生成視訊,然後再一幀一幀去修補。PixelDance則是讓模型學會了在保持一致性的前提下生成動態內容。核心創新點是在擴散模型框架中,引入首幀+末幀的雙圖像指令,配合文字指令聯合約束視訊生成,同時在網路結構中新增時序摺積與時序注意力層,從生成的源頭就錨定了視訊的起止狀態,從而保證大動態動作下的主體與場景一致性。就像訓練一個舞者,從一開始就教她在保持平衡的前提下做大幅度動作。PixelDance的成功,讓曾妍在字節內部的地位迅速提升。2024年,她從演算法工程師晉陞為演算法研究員,成為Seed團隊中最年輕的研究員之一。這個晉陞不只是對她學術能力的認可,更重要的是,她證明了自己能把研究成果轉化為實際產品。在大廠裡,這兩種能力的差別,就像會做菜和會開餐廳的差別。02 從 PixelDance 到 Seedance 2.0有意思的是,PixelDance就是Seedance的前身。Seed代表字節的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個改名不只是品牌策略,更標誌著模型從研究原型向商業產品的轉變。2025年6月11日,字節正式發佈了Seedance 1.0,曾妍是該模型的核心研發負責人。雖然直至2026年2月,曾妍才被字節官方確認為Seedance 2.0 視訊模型預訓練負責人,但知情人士爆料,早2025年下半年時,曾妍就已經正式牽頭Seedance 2.0的預訓練全流程工作,成為該項目的核心一號位。她的+2 leader是周暢,+3 leader是Seed團隊負責人吳永輝。Seedance 2.0核心技術突破之一是雙分支擴散變換器架構,這是曾妍團隊在預訓練階段就確立的基礎架構。傳統視訊生成模型採用“先畫後配”的模式。即先生成視訊畫面,再單獨生成或匹配音訊。這種方式的問題在於,音畫分離導致同步性差,人物說話時嘴型對不上,背景音樂的節奏與畫面情緒脫節,音效出現的時機與畫面動作不匹配。Seedance 2.0通過視訊與音訊平行生成的方式,共享同一個理解編碼器,從根源上實現了音畫原生協同。這個架構設計的關鍵在於,讓模型在生成每一幀畫面的同時,就考慮對應的音訊應該是什麼樣的,而不是等畫面全部生成完再去“配”音訊。文章開頭我就講了,預訓練是整個模型能力的基石。曾妍在這個階段需要處理海量的視訊資料,建立視覺、文字、音訊等多模態之間的對齊關係。她通過引入“跨分支校準模組”,即時校準視訊與音訊的節奏、情緒與場景匹配度,確保嘴型與台詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。預訓練階段把所有的多模態對齊關係、物理規律、運動模式都塞進模型裡,成為“默認項”。後續模型只要呼叫到相關內容,就會立刻給出預訓練時的結果。它不是簡單地讓模型記住訓練資料,而是讓模型從海量資料中提煉出普遍規律,形成對世界的基礎理解。Seedance 2.0生成時長1分鐘的2K視訊僅需60秒,比上一代Seedance 1.5 Pro快了30%。速度提升的背後,是曾妍團隊在預訓練階段對模型架構、訓練策略、資料配比的精細調優。她的團隊迭代速度極快,在預訓練階段就完成了擴散模型的多輪最佳化。最佳化注意力機制減少冗餘計算,改進噪聲調度策略加快收斂速度,精選高品質訓練資料提升樣本效率。每一個最佳化點單獨看都不起眼,但累積起來就是質的飛躍。模型規模越大,訓練成本越高,每一個百分點的效率提升都意味著數百萬元的成本節約和數周的時間縮短。Seedance 2.0還實現了多鏡頭敘事能力。這意味著模型不僅能生成長視訊,還能理解“全景-中景-特寫”的專業分鏡邏輯,自動規劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。這個能力很大程度上依賴於曾妍在預訓練階段投喂的字節跳動海量短影片資料。抖音每天產生數以億計的短影片,這些視訊雖然大多是普通使用者拍攝,但其中不乏優秀的鏡頭語言和敘事技巧。曾妍團隊從這些資料中篩選出高品質樣本,讓模型學習到了人類導演的鏡頭語言和敘事節奏。這種從資料中提煉出的“導演直覺”。03 曾妍與羅福莉同為女性AI科學家,曾妍和羅福莉在模型研發中,都擅長尋找“平衡點”。在DeepSeek時期,羅福莉參與的DeepSeek-V2,通過MoE架構的稀疏啟動,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。這就像設計一個大型圖書館,雖然藏書百萬冊,但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需啟動”的機制,讓大模型的成本驟然下降,卻不怎麼損失性能。羅福莉在性能與成本之間,找到了這樣一個平衡點。到了號稱“性價比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導團隊與北京大學聯合研發資源管理系統ARL-Tangram,讓模型的算力成本直降71.2%。然而成本下降並不意味著性能下降。使用了該技術的兆參數的旗艦模型MiMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內第二。羅福莉證明了一件事:性價比不是某個項目的偶然,而是一種可以跨平台複製的方法論。曾妍的平衡點則是前文提到的動態性和穩定性,讓視訊生成模型又能講好故事,又有畫面張力和視覺衝擊力。兩人不同的是職業規劃。羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創業公司,從工程應用到模型研究”。曾妍則是在字節內部一路深耕,5年時間完成了從校招畢業生,坐到了4-2的位置。兩條路徑沒有高下之分。在AI大模型這個燒錢、拼資源、看長期積累的領域,年輕的技術人才依然可以通過對問題的深刻理解,在短時間內做出關鍵貢獻。有可能他們研究的方向,你聽都沒聽過,但就是有效。她們的故事才剛剛開始。 (字母AI)
監管批准字節跳動、阿里巴巴、騰訊等公司哦買超過40萬塊輝達H200晶片/Kimi動了11年沒人敢碰的Transformer結構,馬斯克說:令人印象深刻
監管批准字節跳動、阿里巴巴、騰訊等中國科技巨頭購買超過40萬塊輝達H200晶片/Kimi動了11年沒人敢碰的Transformer結構,馬斯克說:令人印象深刻/比亞迪、吉利簽了Nvidia,Uber要在28個城市開無人計程車——2027年就開始/小米MiMo負責人帶著北大團隊炸場:強化學習訓練成本直降71.2%監管剛批了40萬塊H200,黃仁勳轉頭宣佈:我已經開始重新生產了!今年1月,監管批准字節跳動、阿里巴巴、騰訊等中國科技巨頭購買超過40萬塊輝達H200晶片,總價值約100億美元。這是中美晶片博弈裡罕見的"開綠燈"時刻——美國出口管制繞了一大圈,監管蓋了章,DeepSeek也在其中拿到了有條件購買許可。(來源:Reuters、《華爾街日報》)與此同時,中國官方發言人回應說"不瞭解具體情況"——100億美元的訂單,官方說不知道,這已經是一種態度了。更快的是輝達這邊。2026年3月17日,CEO黃仁勳在GTC大會上直接宣佈:已收到來自"眾多客戶"的訂單,H200中國版正在重啟生產。幾周前訂單來了,幾周內工廠開動。禁令、解禁、重啟,這條鏈條走完只用了不到兩個月。100億美元擺在那裡,到底是管制有效,還是管制本身就是一筆生意?(來源:Axios、CNBC)不是降級版!輝達Groq晶片5月入華,這次連"特供"都省了輝達去年底以約200億美元收購了推理晶片公司Groq,現在這顆晶片要直接賣給中國了。據Reuters消息,輝達正在為中國市場準備一款Groq晶片,預計5月上市,面向AI推理業務——也就是模型跑起來之後回答問題、執行任務那個環節。更關鍵的是,知情人士明確透露:這款晶片不是降級版,也不是專為中國特供的閹割版本。(來源:Reuters)之前H20是專門為中國"定製"的縮水版,這次連縮水都免了。這個時間點很微妙。H200剛剛重啟生產,Groq非降級版緊跟著入場,輝達在中國市場一口氣佈局兩條產品線。可美國出口管制的框架還掛在那裡,Groq晶片究竟走的是那個口子,目前沒有官方解釋。監管還沒表態,晶片已經在路上——黃仁勳每次在華盛頓和監管之間走鋼絲,都比上次走得更穩一點。(來源:Reuters)五角大樓要讓AI公司進軍事機密庫訓練模型,這件事比你想像的更炸這件事3月17日才被MIT Technology Review報導出來,五角大樓正在討論一個計畫:為AI公司建立安全隔離環境,讓它們用機密軍事資料訓練專屬的軍用版模型。不是部署,是訓練。意味著OpenAI、Anthropic或者Google的工程師,理論上可以接觸到美軍的機密資料集來"喂"模型。這是一個史無前例的方向,之前從來沒有商業AI公司被允許碰這類東西。(來源:MIT Technology Review)背景是:OpenAI已經與五角大樓簽了在機密網路中部署AI系統的協議,國防部也在今年1月發佈了AI戰略備忘錄。問題是,訓練和部署是兩件性質完全不同的事。部署是讓AI用軍事資訊,訓練是讓軍事資訊變成AI的一部分——這兩者之間的資料安全邊界,目前沒有任何明確的技術標準或法律框架來界定。Hegseth已經警告Anthropic必須配合軍方,OpenAI也大方接單。但誰來決定這些模型最終學到了什麼、記住了什麼,答案目前是:沒人知道。(來源:MIT Technology Review、PBS)GPT-5.4 mini和nano來了——OpenAI說這是"最強小模型",速度快了2倍多OpenAI正式發佈GPT-5.4 mini和GPT-5.4 nano,主打Agent、程式碼生成、多模態工作流,定位是"以極低成本提供接近GPT-5.4水準的性能"。GPT-5.4 mini相比上一代GPT-5 mini,在程式設計、推理、多模態理解、工具呼叫上全面提升,速度快了2倍以上;兩款模型都支援40萬token的超長上下文窗口(大約30萬個漢字),專門針對需要大量子任務串聯的Agent場景做了最佳化。(來源:OpenAI、ZDNET)這對開發者來說是實打實的降本消息——頂級性能的七成,花頂級價格的一個零頭。但OpenAI這一步的棋感,很微妙。GPT-5.4 mini是給API用量大、成本敏感的企業用的,nano是面向更高頻的輕量場景。兩款小模型同時推,等於在Agent賽道上把價格門檻砸穿——競爭對手做的那套"小模型夠用論",OpenAI直接親自驗證了。Anthropic、Google同樣有自己的"小強模型",但現在面對的問題是:你的小模型,是不是真的比OpenAI的小模型更小、更便宜、還更好用?(來源:OpenAI、ZDNET)阿里、騰訊都搶了,百度終於把"小龍蝦"塞進了小度音箱中國AI圈這陣子有個新詞叫"養龍蝦"——OpenClaw是一個開源AI Agent框架,因為logo像龍蝦,被叫爆了。騰訊最先動,做了QClaw接入微信和QQ;阿里隨後跟上。3月17日,百度宣佈將OpenClaw整合進旗下小度(Xiaodu)智能音箱,讓小度變成一個語音控制的Agent遙控器,用一句話就能觸發跨應用的複雜任務。(來源:Bloomberg)三大廠同台,百度靠的是硬體入口:小度的螢幕和麥克風,是其他兩家沒有的物理觸點。但有趣的是,在這場搶跑裡,百度的AI雲收入剛剛同比增長38%,OpenClaw的整合宣佈同一天發佈,時機選得極準——用一個熱詞捆綁一個財報數字,這是一種很熟練的敘事操作。問題是,把Agent塞進音箱和塞進聊天框,那個更容易讓使用者真的用起來?目前沒有任何資料,三家都在同一起跑線上等答案。(來源:Bloomberg)阿里巴巴發佈"悟空"平台,讓AI幫企業打工——現在還在內測阿里巴巴正式推出企業級AI平台"悟空(Wukong)",目前處於封閉測試階段。悟空的核心邏輯是協調多個AI Agent配合工作,處理文件編輯、表格操作、商業研究等複雜企業任務——不是一個聊天機器人,而是一套能"自己分工幹活"的Agent調度系統。(來源:Reuters)時間節點同樣刻意:剛好在中國agent熱潮爆發的那個當口,騰訊在聊,百度在跟,阿里這次選擇先做企業端。悟空和同期宣佈的"Token Hub"是阿里AI戰略的兩面。Token Hub是整合阿里所有AI研究、消費者產品、AI應用的新業務集團,由CEO吳泳銘(Eddie Wu)親自掛帥,核心命題是AI變現。(來源:Bloomberg)悟空是變現的產品抓手,Token Hub是整合內部資源的組織容器——從架構上看,這是阿里把AI從"成本中心"推向"利潤中心"的一次整體操刀。但封閉內測的悟空究竟什麼時候能開放,阿里沒說。(來源:Reuters)Manus突然下載到我電腦裡了!"My Computer"讓AI Agent徹底告別雲端2026年3月16日,Manus正式發佈桌面應用,核心功能叫"My Computer"——可在Windows和macOS上運行,讓AI Agent直接訪問你的本地檔案、瀏覽器、應用程式,以及在你電腦空閒時自動幹活。這是Manus從雲端走向本地的關鍵一步。之前Manus能做的事,都發生在遠端沙盒裡;現在它可以直接讀你的項目資料夾、開你本地的IDE、在你不看螢幕的時候繼續工作。(來源:Manus官網、9to5Mac)這不是"助手",更像一個在你電腦裡常駐的無聲員工。這件事最讓人不安的地方,恰恰是它最吸引人的地方——AI終於能碰你真實的本地資料了。雲端Agent和本地Agent的最大區別,就是這道"能不能接觸到你實際工作環境"的門檻。Manus選擇在這個時間點把門踢開,意味著Agent賽道的戰場從"在雲上幫你查資料",正式移到了"在你的電腦裡幫你幹活"。Cursor在程式碼領域已經打通了這一層,現在Manus要在更寬泛的通用任務上複製這條路——誰先讓使用者真的放心把電腦交出去,誰就贏了。(來源:Manus官網)比亞迪、吉利簽了Nvidia,Uber要在28個城市開無人計程車——2027年就開始輝達在GTC 2026大會上宣佈:比亞迪、吉利、五十鈴、日產四大車企將採用其DRIVE Hyperion自動駕駛平台,支援Level 4等級無人駕駛車輛。同時,Uber與輝達擴大合作,計畫2027年上半年率先在洛杉磯和舊金山推出全端Robotaxi服務,並於2028年擴展至覆蓋四大洲的28個城市。(來源:Nvidia官方、The Verge)一次發佈會,輝達同時繫結了整車製造端和出行營運端——中美日的車企,全進了這張網。這個陣容有點意思。比亞迪和吉利是中國新能源頭部,五十鈴是日本商用車代表,日產是傳統燃油巨頭——四種不同背景的車企,同時選了輝達的同一套平台,這本身就是一種背書。Waymo已經在舊金山和鳳凰城跑了好幾年,Cruise折戟,特斯拉Full Self-Driving還在講故事;輝達這次的策略不是自己造車,而是把自己做成Robotaxi時代的"底盤供應商"。2027年不到兩年,洛杉磯的街上會不會真的有Uber+輝達的無人車跑起來,值得盯著看。(來源:Reuters、The Verge)騰訊QClaw內測,14億微信使用者的手機裡快要住進一隻"AI龍蝦"了騰訊正在內測一款名為QClaw的產品——這是OpenClaw的微信/QQ雙端一鍵啟動包,讓使用者直接在微信聊天框裡調起AI Agent,完成本來需要跨多個App切換才能做完的任務。(來源:新浪科技、知乎)微信12億活躍使用者,QQ幾億年輕使用者,QClaw一旦全面上線,等於給OpenClaw這套開源框架接上了一個全球最大的流量入口。騰訊之前在AI產品上一直給人"慢半拍"的感覺,這次的動作算是把入口優勢打出來了。但QClaw目前只是內測,預計"近期上線"——沒有正式發佈日期。在這條賽道上,阿里的悟空也在等開放,百度小度已經宣佈整合,OpenClaw在中國的生態正在被三大廠同時圈地。微信入口的流量是真實的,但Agent能不能在14億人的聊天框裡真正活下來,取決於它能不能在一個"對話"介面裡把任務做得比人工快。這一步,騰訊比阿里和百度都更有條件驗證——問題只是它動不動得快。(來源:36氪、財富號)小米MiMo負責人帶著北大團隊炸場:強化學習訓練成本直降71.2%2026年3月16日,小米MiMo大模型負責人羅福莉與監管大學研究團隊聯合發佈ARL-Tangram系統,這是一套針對Agent強化學習的統一資源管理框架,核心數字是:將強化學習訓練步驟持續時長縮短至多1.5倍,節省高達71.2%的外部算力資源,同時在真實世界Agent任務上平均ACT提升4.3分。(來源:IT之家、新浪財經)簡單說,同樣的訓練效果,花的錢不到原來的三成。這在當下算力極度緊缺、訓練成本居高不下的背景下,是非常實際的突破。但這篇論文更值得注意的,是它的位置。羅福莉是小米內部MiMo模型的負責人,ARL-Tangram發的不是產品,是學術論文——小米在用學術成果的方式宣示自己在大模型基礎研究上有真正的積累。三月的AI圈到處是"發佈會",小米選擇發一篇論文。在大廠裡,這種動作通常意味著:接下來會有更大的東西落地。算力成本降了70%,下一步的問題是,這個效率用在那裡?(來源:搜狐、IT之家)Kimi動了11年沒人敢碰的Transformer結構,馬斯克說:令人印象深刻2026年3月16日,月之暗面三位聯合創始人楊植麟、吳育昕、周昕宇與數十名研究員聯署,發佈了一篇純架構層面的技術報告。他們重新設計了大模型的核心結構——殘差連接(Residual Connection),這個元件自2015年引入Transformer以來,超過10年幾乎沒有人動過。Kimi的方案讓每一層能夠選擇性地關注此前各層的輸出,而不是統一求和,實驗結果是48B參數規模的模型訓練效率提升1.25倍。(來源:新浪財經、澎湃新聞)論文發出後,馬斯克本人評價"令人印象深刻",前OpenAI研究科學家Andrej Karpathy同樣給予好評。這篇報告的戲劇性,不在於那1.25倍的效率提升,而在於它選擇攻擊的目標——一個10年沒人敢改的基礎元件。大多數模型創新發生在訓練方法、資料配比、規模擴展上;動架構本身,是風險最高也最難被外界驗證的路。三位聯合創始人都署名,不像是一篇普通論文,更像是一份聲明:Kimi在做自己的事,而不是跟在別人後面堆參數。馬斯克和Karpathy的背書,給了這篇論文在國際AI圈的能見度——但它能不能真正改變下一代模型的架構選擇,還需要時間驗證。 (AI Daily Insights)
字節跳動暫停 Seedance 2.0 全球發佈,版權糾紛凸顯AI訓練資料爭議
據The Information周六報導,字節跳動已暫停其最新視訊生成模型 Seedance 2.0 的全球發佈計畫。該決定是在公司與多家好萊塢製片廠和串流媒體平台爆發一系列版權糾紛後作出的。這一事件再次凸顯生成式人工智慧行業正在面臨的核心問題——訓練資料的版權合法性。隨著AI模型能力快速提升,圍繞資料來源和內容授權的法律風險正在迅速上升。Seedance 2.0發佈計畫突然暫停Seedance 2.0 是字節跳動近期重點研發的視訊生成模型,被視為其在生成式視訊領域的重要佈局。據報導,該模型原計畫面向全球開發者和企業客戶發佈,能夠根據文字提示自動生成高品質視訊內容,並被定位為與當前主流AI視訊工具競爭的重要產品。然而在發佈準備階段,好萊塢多家大型製片公司和串流媒體平台提出版權質疑,認為AI模型的訓練資料可能包含未經授權的影視內容,生成的視訊內容可能模仿或復刻現有影視作品風格,模型可能對影視產業造成潛在版權和商業衝擊。在相關爭議尚未解決之前,字節跳動決定暫緩 Seedance 2.0 的全球上線。好萊塢與AI公司的版權衝突升級近年來生成式AI技術的快速發展,使科技公司與傳統內容產業之間的矛盾不斷加劇。影視公司普遍擔憂,AI模型在訓練過程中可能使用了大量影視素材,包括電影和電視劇畫面、劇本與對白文字、視覺風格和鏡頭語言。如果這些內容未經授權被用於模型訓練,可能構成版權侵權。目前多家媒體公司已經對科技企業提起訴訟或提出正式投訴。在美國圍繞AI訓練資料的法律爭議已涉及多家大型科技企業,包括OpenAI、Google、Meta。出版商、新聞機構和影視製作公司均聲稱,其內容在未經授權的情況下被用於訓練AI模型。訓練資料成為生成式AI最大監管焦點隨著AI能力越來越接近真實內容生產,監管機構和版權持有方正將注意力集中在模型訓練資料來源上。當前爭議主要集中在三個問題:1、是否可以使用公開網際網路內容訓練模型科技公司普遍認為公開網頁內容屬於可抓取資料,但內容生產者認為公開可訪問並不等於可用於商業AI訓練。2、AI生成內容是否構成版權侵權如果AI輸出的視訊 圖像或文字高度模仿原作品風格 是否構成侵權仍存在法律爭議3、是否需要建立授權和分成機制部分媒體公司正在推動建立類似AI版權授權體系,要求科技公司為訓練資料付費AI視訊成為新的版權爭議焦點相比文字和圖像生成,視訊生成技術的版權爭議更加複雜。原因在於視訊涉及多種版權元素,包括畫面、音樂、劇本以及演員形象。影視產業商業價值巨大AI生成視訊可能直接衝擊影視製作市場。Seedance 2.0 的暫停發佈,被業內視為生成式視訊行業的重要訊號。AI視訊技術的商業化正在進入法律博弈階段。監管壓力正在快速增加分析人士指出,隨著生成式AI商業價值持續增長,全球監管機構可能進一步加強審查。在美國和歐洲多項政策正在討論中,包括強制披露AI訓練資料來源、建立版權許可制度、對生成內容進行水印標識。對於科技公司而言,未來AI模型開發不僅是技術競爭,也將成為法律與版權體系之間的競爭。 (美股財經社)
張一鳴,中國首富
3月5日,胡潤研究院在上海、孟買和牛津同步發佈《2026胡潤全球富豪榜》。榜單顯示,全球十億美金企業家數量首次突破4000人大關,達到創紀錄的4020位,較去年增加578位,相當於過去一年平均每天誕生兩位新的十億美金企業家。他們的總財富增長了28%。中國以1110位十億美金企業家超越美國(1000位),重新成為全球第一,新增人數達287位,貢獻了全球近半數的新面孔。印度以308位保持第三。2026胡潤全球富豪榜根據《2026胡潤全球富豪榜》的資料,全球前十名門檻已升至1.1兆元人民幣。54歲的埃隆·馬斯克在六年內第五次成為世界首富,其財富在過去一年飆升89%,達到5.5兆元人民幣。這一驚人增長主要由SpaceX估值飆升和特斯拉股價翻倍推動。亞馬遜創始人傑夫·貝佐斯以2.1兆元人民幣財富位居第二;Alphabet聯合創始人拉里·佩奇和謝爾蓋·布林財富分別增長65%和67%,排名第三和第五;76歲的伯納德·阿諾特以1.3兆元人民幣財富成為前十名中唯一的非美國企業家。人工智慧(AI)浪潮成為本年度最強勁的財富創造引擎。榜單上有114位十億美金企業家來自AI公司,其中46位是新上榜者,AI成為創造新富豪的最大來源。輝達創始人黃仁勳的財富增長34%,達到1.2兆元人民幣,首次躋身全球前十,排名第九。OpenAI的Sam Altman財富增長近兩倍達到330億元人民幣,而AI初創公司Anthropic的估值飆升至3800億美元,直接催生了七位新晉十億美金企業家。中國企業家榜中國以1110位十億美金企業家的數量重登榜首,新增287位。深圳超越上海,以132位成為全球十億美金企業家數量第二多的城市,僅次於紐約的146位,上海和北京分別以120位和107位位列第三、第四。字節跳動創始人張一鳴以5500億元人民幣財富成為中國首富,財富增長32%。農夫山泉的鐘睒睒(5150億元)和騰訊的馬化騰(4650億元)分列二、三位。寧德時代的曾毓群財富增長46%至3800億元,排名上升至第四。雷軍和馬雲家族以2300億元財富並列第10位。榜單中69%為白手起家,31%繼承財富,中國白手起家比例高達90%,遠高於其他國家。其中,霸王茶姬31歲張俊傑以85億元人民幣財富成為中國最年輕的白手起家十億美金企業家。全球285位白手起家女性企業家的75%來自中國,美國ABC Supply的戴安・亨德里克斯以1700億元人民幣第四次成為全球白手起家女首富。胡潤集團董事長兼首席調研官胡潤表示:“本年度超70%的上榜十億美金企業家十年前未躋身榜單,財富創造格局已發生巨變。過去一年的財富創造速度,創下了胡潤全球富豪榜發佈以來的歷史新高。AI浪潮與以往任何一次技術革命都有著本質區別,其產生的收益,絕大部分都流向了那些已掌握資料、算力與平台資源的群體。”他還預測,埃隆・馬斯克最早可能於今年突破兆美金財富門檻,成為全球首位兆美金企業家,到2030年,這一群體的數量或將達到十人。 (澎湃新聞)
騰訊與字節跳動:兩種網際網路哲學的博弈
在中文網際網路的版圖上,騰訊與字節跳動的競爭早已超越了簡單的商業對抗,演變為兩種截然不同的技術哲學與人性認知的碰撞。騰訊以“簡潔即正義”為準則,將產品打磨成空氣般自然的存在;字節跳動則以演算法為矛,刺穿人性的弱點,在資訊繭房中建構數字成癮的溫床。這場博弈不僅是商業版圖的爭奪,更是對人類注意力本質的深層探索。騰訊的產品設計遵循“少即是多”的極簡主義。微信的首頁佈局歷經十餘年未變,核心功能始終聚焦於即時通訊;QQ音樂通過“聽歌識曲”等單點突破而非功能堆砌贏得使用者。這種設計邏輯源於對使用者心智的敬畏——將複雜世界抽象為簡單互動。馬化騰曾強調:“使用者不需要100個功能,他們只需要一個解決問題的入口。”反觀字節跳動,其產品矩陣(抖音、今日頭條等)本質上是感官刺激的流水線。抖音的無限下滑設計、強節奏音效與15秒內容循環,構成了一套精密的多巴胺刺激系統。演算法通過即時捕捉使用者瞳孔變化、停留時長等生理訊號,動態調整推薦策略,形成“越刷越上癮”的惡性循環。這種設計哲學將使用者視為“資料礦工”,通過即時反饋機制持續挖掘注意力價值。騰訊的演算法服務於降低決策成本。微信的“搜一搜”功能通過語義理解直接呈現結構化結果,避免資訊過載;QQ信箱的智能分類系統將使用者從繁瑣的郵件管理中解放。這些演算法如同“隱形助手”,在使用者無感中完成資訊過濾。而字節的演算法則是慾望放大器。其推薦系統通過協同過濾與深度學習,建構出“千人千面”的資訊牢籠:使用者點贊一次萌寵視訊,演算法便推送100條類似內容;觀看爭議性社會新聞後,系統自動關聯情緒化評論,激化認知對立。這種機制本質上是對人性中“即時滿足”與“群體認同”的精準狙擊。騰訊通過社交關係鏈的閉環建構護城河。微信支付嵌入紅包功能、小程序連接線下場景、視訊號打通私域流量,形成“社交-支付-內容”三位一體的生態網路。使用者無需離開微信即可完成社交、消費、娛樂的全鏈條需求,這種場景滲透使騰訊產品成為數字生活的“水電煤”。字節跳動則採取流量殖民策略。抖音通過“挑戰賽”“直播帶貨”等模式,將使用者注意力轉化為廣告貨幣;今日頭條以“資訊流+搜尋”重構資訊獲取路徑,甚至反向滲透至微信生態(如公眾號文章被抖音二次分發)。這種“中心化分發+去中心化生產”的模式,正在改寫內容產業的權力結構。騰訊的“工具屬性”產品客觀上推動了數字平權。微信支付讓小攤販接入移動支付,QQ音樂降低音樂消費門檻,這些服務彌合了數字鴻溝。但過度依賴簡潔設計也可能導致功能空心化——當所有需求都被標準化滿足時,使用者的個性化表達空間被壓縮。字節的演算法推薦則製造了認知極化。使用者被困在資訊繭房中,不同群體間的理解鴻溝持續擴大。更危險的是,演算法通過“行為積分”(如點贊、轉發)將人類行為異化為遊戲化任務,社交關係被量化為可計算的互動指標。這種“數位化生存”正在重塑人類的心智結構。騰訊的“防禦性創新”策略值得關注。其混元大模型聚焦於提升AI的推理能力與記憶持久化,試圖在微信生態內建構“有溫度的智能體”。而字節跳動通過開源模型(如西瓜視訊的AI剪輯工具)降低技術門檻,同時加速佈局AIGC(AI生成內容)以鞏固演算法優勢。監管層已意識到演算法壟斷的危害,《網際網路資訊服務演算法推薦管理規定》要求平台公開演算法規則,但如何平衡商業利益與社會責任仍是難題。未來競爭或將從產品層面上升到價值底層邏輯的較量:是繼續縱容人性弱點,還是重建數字倫理?結語:在效率與人性之間尋找平衡點騰訊與字節的競爭,本質上是工具理性與價值理性的博弈。當騰訊用程式碼建構“無摩擦世界”時,字節跳動正在用演算法解構“人性弱點”。這場戰爭沒有絕對的勝者,因為沒有任何一項服務可以滿足人類的所有需求:騰訊的簡潔可能扼殺創造力,字節的精準可能摧毀判斷力。或許真正的破局點在於——讓技術服務於人性的完整,而非放大其碎片。畢竟,真正的數字文明不應是冰冷的效率機器,也不該是慾望的電子囚籠,而應是照亮人類潛能的普羅米修斯之火。 (悠悅投資)
炸裂!字節跳動估值5500億美元
字節跳動,又刷新歷史了!2月25日,全球頂級投資機構泛大西洋投資集團計畫出售其持有的部分字節跳動股權。此次股權交易為字節跳動給出的估值高達5500億美元,換算成人民幣約3.8兆元,引發全球網際網路圈廣泛關注。5500億美元是什麼概念呢?騰訊目前的總市值是6000億美元,而阿里是3600億美元,也就是說字節跳動的估值已經超越阿里,快趕上騰訊了。對於這一估值,我們可通過幾組資料直觀理解:2025年8月字節跳動員工股票回購時,估值為3300億美元,截至2026年2月,半年多時間內暴漲66%,其估值增長速度位居全球網際網路企業前列。這一估值也讓字節跳動穩固了中國第一獨角獸的地位,同時超越SpaceX,僅次於OpenAI,躋身全球第二大獨角獸。作為國內第二大獨角獸的螞蟻集團,其估值不足字節跳動的六分之一,兩者差距顯著,字節跳動的領先優勢已形成斷層。資本市場給出如此高的估值,並非盲目跟風,而是基於字節跳動紮實的業務根基和強勁的發展潛力,其背後的核心底氣值得深入拆解。第一,流量基本盤穩固——國內抖音日活躍使用者突破6億,佔據短影片市場半壁江山;海外TikTok表現更為突出,全球月活躍使用者接近19億,使字節跳動成為少數能同時打通國內外市場的網際網路平台。重要的是,使用者日均使用字節系APP時長超5小時,分別是騰訊系、阿里系的2倍和3倍,牢牢掌握了網際網路最稀缺的使用者注意力資源,為廣告業務提供了堅實支撐。第二,盈利能力處於全球頂尖水平——2024年,字節跳動全年營收約1.13兆元人民幣,日均營收達31億元,淨利潤高達2409億元,日均淨利潤6.6億元,淨利率穩定在20%以上,這樣的盈利表現足以獲得資本市場的高度認可。第三,電商與AI兩大業務構成了字節跳動的核心增長引擎,持續拉高企業發展天花板——在電商領域,國內抖音電商2025年GMV突破4.35兆元,規模接近阿里國內電商的一半;海外TikTok Shop增速迅猛,2025年全球GMV達500億美元,2026年目標直指800億美元。在AI領域,字節跳動的佈局同樣亮眼,也是資本市場最為看重的潛力所在。旗下豆包大模型C端月活躍使用者已突破1.72億,穩居國產大模型C端首位;同時,AI技術廣泛應用於抖音、剪映、飛書等核心產品,持續提升使用者體驗與辦公效率。據悉,字節跳動2026年將AI總預算提升至3000億元,全力佈局下一代AI技術,展現出強勁的長期發展決心。其實,泛大西洋投資早在2017年便佈局字節跳動,當時字節跳動估值僅200億美元。短短9年間,字節跳動估值翻了27.5倍,這筆投資也成為全球創投圈的經典案例,充分印證了字節跳動的發展價值。當前,字節跳動的上市時間表成為市場關注的焦點,各界對其上市節點充滿期待。不過,非上市公司估值存在一定波動性,但是,5500億美元的估值並非字節跳動的終點,有可能上市後會更高。從初創企業成長為全球科技巨頭,字節跳動的發展歷程像坐了火箭一樣。 (BAT)