#原始碼
大事不好!機器人學會預測未來了
不得了,機器人現在開始學會腦補未來了。這就是螞蟻靈波又又又又(連續第4天)開放原始碼的狠活兒——全球首個用於通用機器人控制的因果視訊-動作世界模型,LingBot-VA。怎麼個腦補法?簡單來說啊,以前的機器人(尤其是基於VLA的)幹活兒,主打一個條件反射:眼睛看到什麼,手立刻就動一下。這叫“觀察-反應”模式。但LingBot-VA就不一樣了,它通過自回歸視訊預測打破了這種思考方式,在動手之前,腦子裡先把未來幾秒的畫面推演出來。說實話,用想像力做決策,在機器人控制這塊還是相當新鮮的。但這不是LingBot-VA唯一的亮點,還包括:記憶不丟失:做長序列任務(比如做早餐)時,它會記得自己剛才幹了什麼,狀態感知極強。高效泛化:只要給幾十個演示樣本,它就能適應新任務;換個機器人本體,也能hold住。因此在LingBot-VA的加持下,像清洗細小的透明試管這種高精度任務,機器人已經是可以輕鬆拿捏:正如我們剛才提到的,今天是螞蟻靈波連續第四天開源。如果說前幾天的開源是給機器人加強了眼睛(LingBot-Depth)、大腦(LingBot-VLA)和世界模擬器(LingBot-World),那麼今天的LingBot-VA,就是讓這具軀殼真正擁有了靈魂——一個行動中的世界模型,讓想像真正落到執行層面。如此一來,通用機器人的天花板,算是被螞蟻靈波往上頂了一截。正如網友所述:從預測到執行;說實話這是巨大的飛躍。讓想像力先行一步LingBot-VA在架構設計上選擇了一條更進一步的路徑。在傳統的VLA(視覺-語言-動作)範式中,模型通常會將視覺理解、物理變化推理、低層動作控制這三項複雜任務放在同一個神經網路中處理,這在學術界被稱為表徵纏繞(Representation Entanglement)。為了追求更高的樣本效率和更強的泛化能力,LingBot-VA選擇把這團亂麻解開,提出了一套全新的解題思路:先想像世界,再反推動作。為了實現這個想法,螞蟻靈波團隊採用了一個兩步走的策略:視訊世界模型:先預測未來的視覺狀態(接下來會發生什麼)。逆向動力學(Inverse Dynamics):基於視覺的變化,反推出應該執行什麼動作(為了達到這個畫面,手該怎麼動)。這與傳統VLA有著本質區別:它不直接從“現在”跳到“動作”,而是要經過一下“未來”這個步驟。如何實現?螞蟻靈波團隊主要將三個架構層面作為突破口。首先就是視訊與動作的自回歸交錯序列。在LingBot-VA的模型裡,視訊Token和動作Token被放進了同一條時間序列裡。為了保證邏輯嚴密,團隊引入了因果注意力(Causal Attention)。這就像給模型定了一條死規矩:只能用過去的資訊,絕對不能偷看未來。同時,借助KV-cache技術,模型擁有了超強的長期記憶。它清楚地知道自己三步之前做了什麼,任務絕對不會失憶。其次是Mixture-of-Transformers (MoT) 的分工協作。這一步主要是為瞭解決我們前面提到的表徵纏繞的問題。我們可以把過程理解為“左右互搏”,但又很默契的一種配合:視訊流:寬而深,負責繁重的視覺推演。動作流:輕而快,負責精準的運動控制。這兩個流共享注意力機制,資訊互通,但在各自的表徵空間裡保持獨立。這樣一來,視覺的複雜性不會干擾動作的精準度,動作的簡單性也不會拉低視覺的豐富度。最後就是工程設計相關的工作。畢竟光有理論是不好使的,“實踐才是檢驗真理的唯一標準”:部分去噪(Partial Denoising):做動作預測時,其實不需要每一次都把未來畫面渲染得高畫質無碼。模型學會了從帶有噪點的中間狀態裡提取關鍵資訊,計算效率大大提升。非同步推理(Asynchronous Inference):機器人在執行當前動作的時候,模型已經在後台瘋狂計算下一步了。推理和執行平行,延遲感幾乎消失。FDM 接地(Grounding):為了防止模型想像力脫離現實,系統會用真實的觀測資料不斷校正想像,避免出現開放式的幻覺漂移。實驗結果與能力驗證在瞭解完理論之後,我們再來看實驗效果。螞蟻靈波團隊在真機實驗和模擬基準上,對LingBot-VA進行了全方位的實測。在真機測試中,LingBot-VA覆蓋了三類最具挑戰性的任務。首先是長時序任務,比如準備早餐(烤面包、倒水、擺盤)、拆快遞(拿刀、劃箱、開蓋)。這些任務步驟繁多,但凡中間有一步有誤,那可以說是滿盤皆輸。從LingBot-VA的表現來看,一個字,穩。即便是不小心失敗了,機器人也會記得進度,嘗試重來。第二類是高精度任務,比如擦試管、擰螺絲。這要求動作精度達到毫米級,得益於MoT架構,動作流不再受視覺噪聲的干擾,手極穩。剛才我們已經看了擦拭管的案例,再來看個擰螺絲的:第三類任務是針對可變形物體,例如折衣服、折褲子。這些任務的難點在於物體處於一個隨時變化的狀態,但LingBot-VA通過視訊推演,預判了布料的形變,操作行雲流水。除此之外,LingBot-VA在RoboTwin 2.0和LIBERO這兩個硬核模擬基準上,也是很能打的。尤其是在RoboTwin 2.0的雙臂協作任務中,無論是簡單的固定場景(Easy),還是複雜的隨機場景(Hard),LingBot-VA都展現出了不錯的實力:RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。而且有一個趨勢非常明顯:任務越難、序列越長(Horizon變大),LingBot-VA的領先優勢就越大。在 Horizon=3 的長任務中,它的優勢甚至擴大到了9%以上。而在LIBERO基準測試中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA記錄。總結一下,通過這些實驗,我們可以清晰地看到LingBot-VA的三個核心特質:長期記憶:在一個來回擦盤子的計數任務中,普通VLA模型擦著擦著就忘了擦了幾下,開始亂擦;LingBot-VA 則精準計數,擦完即停。這就是KV-cache的起到的作用。少樣本適應:面對全新的任務,只需提供50條左右的演示資料,稍微微調一下,它就能學會。這比那些動輒需要成千上萬條資料的模型,效率高了幾個數量級。泛化能力:訓練時用的是某種杯子,測試時換個形狀、換個顏色,或者把杯子隨便擺個位置,它依然能精準識別並操作。連續四天開源,已經產生影響把時間軸拉長,回看這四天的連續開源,我們會發現螞蟻靈波下了一盤大棋。因為這四個開放原始碼專案拼湊在一起,就會形成一條非常清晰的技術主線:Day 1: LingBot-Depth——解決“看清”的問題。讓感知能夠更加清晰。Day 2: LingBot-VLA——解決“連接”的問題。打通語言、視覺到動作的通用介面。Day 3: LingBot-World——解決“理解”的問題。建構可預測、可想像的世界模型。Day 4: LingBot-VA——解決“行動”的問題。把世界模型真正嵌入控制閉環,讓想像指導行動。這四塊拼圖湊在一起,釋放了一個強烈的訊號:通用機器人正在全面走向視訊時代。視訊,不再僅僅是訓練用的資料素材,它正在成為推理的媒介,成為連接感知、記憶、物理和行動的統一表徵。這對於整個行業來說,價值是巨大的。對通用機器人來說,長任務、複雜場景、非結構化環境,這些曾經的硬傷,現在有了系統性的解法。從具身智能路線來看,世界模型不再是一個可選項,它正式成為了機器人的中樞能力,從“能動”進化到“會想再動”。並且螞蟻靈波的持續不斷地開源動作,不僅僅是提供了程式碼、模型這麼簡單,更是一條可復現、可擴展的技術範式。而蝴蝶效應也在行業中開始顯現。就在這兩天,Google宣佈通過Project Genie項目讓更多人體驗Genie 3;宇樹科技宣佈開源UnifoLM-VLA-0……海外媒體也對螞蟻靈波的開源動作有了不小關注,點評道:螞蟻集團發佈了名為LingBot-World的高品質機器人AI模擬環境。這家中國金融科技公司完善了一套完整的開源工具包,用於物理AI系統的開發。這也是在全球機器人領域主導權爭奪戰中的一項戰略性舉措。嗯,螞蟻靈波的壓力是給到位了。總而言之,LingBot-VA的出現,標誌著世界模型第一次真正站上了機器人控制的主舞台。項目地址:https://technology.robbyant.com/lingbot-vaGitHub地址:https://github.com/robbyant/lingbot-va項目權重:https://huggingface.co/robbyant/lingbot-vahttps://www.modelscope.cn/collections/Robbyant/LingBot-va (量子位)
超越DeepSeek,中國開源“集團軍”正重塑全球AI生態
導語:中國開源,正在形成集團化作戰的優勢。DeepSeek和阿里Qwen等基礎模型撐起了中國開放原始碼的上限,而更多的中小企業正在它們的基礎上,不斷推出體量更小卻能力更強的垂直模型,讓今年以來中國大模型更新的速度不斷加快,不斷帶來新的驚喜。而在美國仍以閉源為主的背景下,中國企業擁抱開放原始碼的做法充分展現了中國的技術自信,也開闢出一條技術普惠與全球共生的新路徑,持續開拓海外市場,代表著全球AI技術從“單極霸權”轉向“多極共生”。01. 中國開源,正形成合力2月初,當中國開源大模型DeepSeek在全球140個國家和地區的應用市場下載排行榜同時登頂,OpenAI卻公然在媒體上指責,DeepSeek未經許可使用了ChatGPT的蒸餾資料。這樣的指責非但沒能為OpenAI“挽尊”,卻招來全球科研從業者的“群嘲”。如今,又一個把蒸餾buff疊滿的選手出現了。4月13日,崑崙萬維推出Skywork-OR1(Open Reasoner 1)系列模型,同規模下性能超越阿里QwQ-32B,對齊DeepSeek-R1。資金實力並不雄厚的崑崙萬維,為什麼也可以做出SOTA等級的大模型?其實官方並不諱言,他們的模型是基於DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B這兩款模型訓練而來。而正如名字裡體現的那樣,DeepSeek的這兩款模型,又蒸餾了阿里的Qwen系列模型。在借力優秀開源模型的同時,崑崙萬維也在為開源社區做出自己的貢獻。相比於只開源模型權重的DeepSeek,崑崙萬維還開放了自己使用的資料集和訓練程式碼,更加接近於“真開源”的概念。這意味著,任何使用者都可以去嘗試復刻他們的模型訓練過程。崑崙萬維這份成果,充分展示了開源最重要的意義——不僅僅是讓給使用者提供一個免費可用的產品,更能夠讓更多開發者站在前人的肩膀上,快速、低成本地推動技術繼續前進。事實上,就在去年業界還在討論大模型預訓練遭遇瓶頸的背景下,今年以來,中國大模型的迭代速度卻仍在加快,並且越來越多的企業投入開源。阿里雲通義千問從除夕夜開源全新的視覺模型Qwen2.5-VL,再到3月初發佈並開源了全新推理模型QwQ-32B,在開源當日就登頂全球主流AI開源社區HuggingFace的趨勢榜。階躍星辰則在一個月左右時間開源三款多模態大模型,其最新開放原始碼的是圖生視訊模型Step-Video-TI2V,支援生成的視訊具備運動幅度可控和鏡頭運動可控兩大核心特點,同時自帶一定的特效生成能力。智譜則在4月宣佈開源32B/9B 系列GLM模型,涵蓋基座、推理、沉思模型,均遵循MIT許可協議。甚至一度閉源的百度,也宣佈將於6月30日完全開源文心大模型。相比於國內開源生態的日益繁榮,美國大模型公司至今仍以閉源為主,這也讓中國大模型的出海迎來難得機遇——DeepSeek讓印尼教育公司Ruangguru借此低成本最佳化了教學模型;新加坡 B2B旅遊技術公司Atlas將Qwen整合至智能客服系統,實現7×24小時多語言支援……02. 為何美國閉源,中國開源?美國AI傾向閉源而中國AI愈發開放,實際上是兩國AI發展環境的必然結果。美國的AI產業主要由科技大廠和VC(風險投資人)主導,由於資方對於AI有著巨大的資本回報預期。因此美國的AI模型企業普遍具有強烈的技術信仰,即追求技術領先後實現一定程度的市場壟斷後創造巨額利潤,其生態也天然的傾向於閉源。以OpenAI發展歷程為例,其在創立期間作為非盈利實體,此後卻不斷走向封閉——GPT-1時完全開源,GPT-2部分開源遭遇反對後才全面開源,GPT-3正式走向閉源,隨後GPT-4時閉源策略進一步強化,模型架構、訓練資料完全保密,甚至限制企業使用者的API呼叫頻率。儘管OpenAI表示閉源是基於合規和管控技術濫用的出發點,但市場普遍認為OpenAI轉向閉源的標誌性事件是其與微軟達成百億美元級合作,將GPT-3嵌入Azure雲服務,形成“技術-資本”閉環。在去年10月微軟首次在財報披露其對OpenAI投資時就表示:“我們對OpenAIGlobal,LLC進行了投資,總投資承諾為130億美元,投資按權益法核算。”所謂的權益法也可以理解為微軟對於OpenAI的投資的目的是獲得回報而不是單純的慈善科研,顯然OpenAI通過閉源生態賣高價API就是其目前最大的收入來源,也成了OpenAI不願開放原始碼的最大阻力。而從OpenAI“分家”成立的Anthropic,更是在一開始就堅定了閉源路線,其大模型產品Claude則全面採取了閉源模式。而即便是美國開源唯一扛把子的META旗下的Llama,開源時也加入了兩條防友商條款:1、開源模型在META批准前不能用於超過7億月活的產品和服務2、不能利用Llama模型的輸出內容來訓練和改進其他的大語言模型可以看到,即便是開源模型,Meta的核心目的依然是打造自己的AI生態而非技術普惠。美國在資本層面選擇了閉源為主,開源為輔的AI戰略,可以說是純商業考量。相比之下,中國自上而下的頂層設計從一開始就重視開源,體現了自主可控思維下的產業優先路徑。早在2017年,中國政府就發佈了《新一代人工智慧發展規劃》,明確提出要加快AI與經濟、社會深度融合的目標,部署構築AI發展的先發優勢。2021年,開源相關內容更是明確列入中國“十四五”規劃中,引發各地積極推動技術革新處理程序。中國科學院院士梅宏就曾表示,語言模型未來的發展必須依賴於開源平台,只有在一個開放的環境中,才能確保各行業使用者對資料上傳和業務整合的安全性與信任度。去年12月工信部等四部門發佈的《中小企業數位化賦能專項行動方案(2025—2027年)》中,明確支援開放原子開源基金會設立“中小企業AI開源專項”,提供可複製,易推廣的訓練框架、測試工具等資源,降低企業技術門檻。工信部等四部門發佈的《中小企業數位化賦能專項行動方案(2025—2027年)》一個更現實的問題是,由於美國的潛在技術封鎖,中國在AI領域並不能單純的做追隨者,而必須打造能夠獨立自主的國產生態,在美國已經建設了一套閉源為主的生態下,再建設一套閉源生態無異於閉門造車,唯有開源生態才能快速助力AI產業的發展。除了頂層支援外,各地對開源生態上也付出了真金白銀的支援。智譜聯合北京國資成立的專注於大模型生態投資的Z基金宣佈,出資3億元支援全球範圍內的AI開源社區發展,任何基於開源模型(不侷限於智譜開源模型)的創業項目均可申請。中美AI產業在開源與閉源策略上的分野,本質是發展邏輯的根本差異——美國受資本驅動,科技大廠與VC的盈利訴求催生了“技術壟斷-高價變現”的閉源生態,即便如Meta嘗試開源,也難逃商業壁壘的桎梏;中國則依託頂層設計,以“技術平權+產業協同”為核心理念,通過政策賦能建構開放生態,讓開源成為降低技術門檻、推動實體經濟融合的基礎設施。這種戰略選擇,既塑造了兩國AI產業的不同路徑,也預示著全球AI生態正從“壟斷競爭”向“開放共贏”加速演進。03. 夠用就是夠好中國的AI開源生態,不僅正在加速中國及全世界的AI產業化發展,還讓美國技術優先的信仰陷入了一個尷尬的陷阱。面對DeepSeek效應帶來的步步緊逼,4月5日,Meta發佈自稱有史以來最強多模態大模型Llama4。然而實測下來,這是一款讓人大跌眼鏡的模型,號稱10m tokens的上下文長度頻頻出錯、初代小球測試難以完成、9.11>9.9的比大小失誤……模型上線幾天內,高管離職、測試作弊等醜聞也被內部員工爆料證實。更多消息證明,Llama4可謂是祖克柏趕鴨子上架的產物。那麼問題來了,為什麼祖克柏一定要趕在4月上線呢?正如前文所述,美國AI產業界對於技術有一種迷之信仰,認為自己的產品必須最強、最先進,因此紛紛開啟軍備競賽。而訓練AI所需的邊際效應遞減,使得大廠們在消耗了天量成本後,技術門檻不僅沒有建成,反而陷入了算力瓶頸的泥沼。OpenAI剛發佈GPT-4o的圖像生成功能,幾天後Altman就發推說他們的GPU“快燒了”。Gemini2.5發佈不到一周,GoogleAIStudio負責人就說他們仍受“速率限制”困擾,開發者每分鐘只能發20個請求。似乎沒有一家公司能應對超大模型的推理需求。GPT-4o生成的吉卜力風格的AI圖片實際上,美國正在陷入誤區。智源研究院的負責人表示:“如果一個新模型用100倍成本跑出了10分基準測試分的提升,那麼這個新模型對於80%以上的應用場景就毫無意義,因為沒有任何性價比。”而中國大模型企業加速開源生態,看似不再去爭奪這個第一,反而憑藉著“夠用就好”贏得了更多的客戶,尤其是工業界客戶的認可。相比於政企客戶動不動千萬的預算,很多企業和機構既有迫切的AI需求,但是又沒有那麼多預算現成解決方案,利用開源模型自行開發幾乎成為了他們不二之選:寶鋼用冶金工程關鍵工序“大模型+小模型”進行生產裝置智能預警;中煤科工的“煤科衛士大模型ChinamjGPT”,使煤機裝備裝置故障停機時間、維修成本分別降低30%和20%;上海孟伯智能物聯網科技有限公司基於輕量大模型打造了邊剪檢測、連退爐工藝最佳化應用平台;彌費科技基於大模型技術實現了半導體晶圓廠自動物料搬運系統智能預測維護與管理。這些都是開源模型在工業場景落地的代表案例。而除了工業用途外,開源生態也能幫助更多的公益事業。山水自然保護中心致力於雪豹及高原生態系統的保護,布設的紅外相機每個季度會拍攝大量照片或視訊,靠人工識別雪豹蹤跡效率極低,耗費大量時間和人力。華為昇騰與山水自然保護中心合作進行雪豹蹤跡識別華為把三江源紅外影像物種識別的相關模型和工具開源,降低了參與AI開發的門檻,讓更多使用該模型的研究保護機構受益,可舉眾人之力在資料集、資料處理和資料清洗多方面最佳化模型。04. 開放原始碼的 “集市”效應開放原始碼軟體運動的旗手、美國人埃裡克·雷蒙德在1999年的《大教堂與集市》一書中提出一個比喻:傳統的、封閉的軟體開發模式如同建造一座大教堂,軟體由少數專家(建築師)在與世隔絕的環境中精心設計和建構,只有在最終完成後才發佈給使用者;而開放原始碼的開發模式。如同一個熙熙攘攘、看似混亂但充滿活力的集市,軟體開發是公開的、去中心化的、演進式的。書中認為,對於許多類型的軟體項目,尤其是複雜的系統級軟體(如作業系統核心),開放、協作、去中心化的“集市”開發模式,儘管看起來可能混亂,但實際上比傳統、封閉、集中式的“大教堂”模式更有效率、更能產生高品質、更健壯的軟體。 它通過“早發佈、常發佈”和利用大規模同行評審(“足夠多的眼睛”)等機制,能夠更快地發現和修復錯誤,並更好地吸納使用者反饋和社區貢獻,從而推動軟體的快速迭代和創新。Linux等開放原始碼專案的巨大成功,驗證了雷蒙德的觀點。開源運動曾經為美國和世界帶來遠超投入本身的巨大價值。哈佛大學2024年的一份研究報告表示:“開源投入41.5億美元,為企業創造了8.8兆美元價值(即每投入1美元,創造2000美元價值)。如果沒有開源,企業在軟體上的支出將是現在的3.5倍。”如今,中國公司學到了這一點。美國AI企業似乎卻忘了。事實上,對於中國的大模型企業們,即使不考慮社會效益,選擇擁抱開源生態對於企業本身也並非無利可圖。多家大模型企業均告訴觀察者網,開源並不是放棄商業化,開源依然有開放原始碼的盈利邏輯,比起開不開源,如何技術上更加服務好客戶才是關鍵的問題。以智譜AI為例,其宣稱為國內唯一全面對標OpenAI的企業,但相比於OpenAI的閉源戰略,其反而是行業內開源戰略最堅定的踐行者之一。智譜於2023年率先開源國內第一個Chat大模型ChatGLM-6B,成立近六年來,智譜已開源55餘款模型,在國際開源社區累計下載量近4000萬次。智譜告訴觀察者網,智譜希望自己的開源戰略為北京打造人工智慧“全球開源之都”貢獻自己的力量。而具體到商業層面,智譜則選擇了開源吸引開發者生態,向B端和G端提供付費的定製解決方案。而除了賣解決方案,賣API也是一個重要的盈利環節。以DeepSeek為例,開源模型的第一筆生意是高性能API的銷售。基礎服務雖免費,但企業可提供高性能API服務,按呼叫量收費。DeepSeek-R1的API定價為每百萬輸入Token1元,每百萬輸出tokens16元。免費token額度用完了或者基礎API滿足不了需求,使用者就傾向於使用付費版保持業務流程的穩定性。相比於只有模型服務的企業,阿里則選擇另一種開源變現模式——生態捆綁。阿里的Qwen系列作為開源急先鋒,通過全模態開源吸引開發者使用雲端運算等基礎設施,形成場景閉環。他們的模型在前期只是一個引子,明碼標價的商品實則是雲服務。中國開源大模型的全球化應用已從“技術跟隨”轉向“生態主導”。當美國陷入“閉源壟斷”與“開源失控”的兩難時,中國通過“協議創新+場景深耕”,正在重構全球AI開源生態的底層邏輯。這場博弈的終極戰場,不在參數規模的競賽,而在AI技術與實體經濟深度融合的兆級市場。 (科工力量)
【DeepSeek】數字人的DeepSeek時刻!“中國造”heygem.ai全球開源72小時破1.3k stars
短短72小時,矽基智能在GitHub開放原始碼的數字人模型Heygem.ai便突破1,300顆Star,迅速成為全球技術社區矚目的焦點。這一現象級的增長速度不僅彰顯了Heygem.ai的技術領先性,更凸顯出全球開發者對開源生態的高度認可與對數字人技術普惠化的深切期待。從GitHub到Reddit,從知乎到X(原Twitter),技術社區的自發傳播與討論,使Heygem.ai迅速躍升為開源領域的標誌性事件。 Heygem.ai以“零訓練、秒級量產”突破行業桎梏,僅需1秒視訊或1張照片,即可精準克隆數字人形象與聲音,並在60秒內合成4K超高畫質視訊。這一顛覆性技術,使得過去動輒數小時乃至數天的數字人製作流程驟然壓縮至秒級,以遠超行業標準的效率、精度與視覺表現,重新定義了數字人生產力的邊界。在複雜光影、側臉、遮擋等場景下,Heygem.ai依然能夠實現100%口型匹配和自然流暢的情感表達,真正使數字人從實驗室走向實際應用。 此次開源不僅是技術能力的釋放,更是矽基智能“為世界創造1億矽基生命”宏大願景的重要落地。Heygem.ai以免費、無限量、全離線運行的模式,徹底打破傳統閉源廠家對數字人技術的壟斷,使AI分身從專屬於少數人的高端產品,變為人人皆可擁有、隨時可用的智能工具。這不僅意味著技術的科技平權化,更預示著數字人時代的真正到來,一個更加開放、自由、普惠的矽基數字人世界已然開啟。 01 72小時引爆全球最大開發者社區