前特斯拉團隊創辦,OpenAI首位天使投資人出手,數千萬美元押注工業具身智能|硬氪首發
硬氪獲悉,工業通⽤具身智能企業IndustrialNext近日完成數千萬美元A輪融資,本輪由全球頂級風投Khosla Ventures領投,老股東Y Combinator和沸點資本持續加注,告捷資本擔任獨家財務顧問。Khosla Ventures作為OpenAI的首位機構投資人、具有技術趨勢的敏銳洞察和長線投資的投資風格,是全球知名的技術投資驅動型VC。A輪資金主要用於擴大團隊、研發投入、量產交付和全球市場拓展。目前IndustrialNext累計已完成三輪投資,投資方包括了產業投資人聯想、小米和財務投資人Khosla Ventures、Y Combinator、沸點資本、奇績創壇在內的多元股東陣容。IndustrialNext成立於2021年,專注工業垂直領域具身智能技術的研發與應用,基於自主研發的端到端具身AI演算法,以工業實際需求為切入點打通感知-決策-控制閉環,為製造業核心場景和企業客戶提供通用的具身智能製造平台。作為一隻跨領域的創新團體,IndustrialNext由全球科技公司的精英工程師組成。核心創始人兼CEO Allen Pan曾是特斯拉AI自主工廠項目負責人,聯合創始人兼CTO Lukas Pankau曾在特斯拉Autopilot擔任首席軟體架構師;創始團隊以特斯拉、Google成員為班底,曾成功將自動駕駛的AI底層技術應用於特斯拉產線多個項目,在2017-2019年期間、完整經歷全球首個全自動汽車產線--特斯拉Model 3從0-1的建設,顯著降低生產制費和BoM成本。公司還引入了GoogleDeepMind RT系列具身模型核心演算法專家,同時有多位核心技術骨幹均來自SpaceX、波士頓機器人、奔馳、Momenta等科技大廠,在前沿AI技術、製造業洞察以及全球化視野等維度有顯著優勢。目前團隊人員規模仍在持續擴大。過去在以硬體為中心的工業自動化領域,受貿易環境波動和上游產品頻繁改動的現狀影響,固定資產投入效率大幅降低,產線稼動率陷入困境。期間,由於傳統裝置往往需預設任務、重複執行的作業特點,導致這一模式缺乏自主學習與動態迭代能力,已顯著觸及能力邊界。具體到生產環節表現為,一方面調線周期長,產線工藝調整、新產品部署需依賴工程師手動程式設計,硬體改造,同時伴隨大量偵錯,從需求提出到落地往往耗時數周甚至數月,難以匹配當下產品快速迭代的節奏。另一方面傳統自動化裝置的智能程度有限,對複雜任務執行能力不足;比如面對多品種小批次生產中常見的非結構化場景,如異形工件自適應抓放、過程件扣合組裝和複雜曲面動態鎖付等,往往需要感知-決策-執行閉環的具身智能裝置協同作業才可滿足柔性生產需求。傳統製造平台因無法通過資料積累演算法迭代提高智能程度,任何與預設輸入不同的波動都會導致輸出結果的精度下降或故障率上升,更別說完成超出預設程序的複雜任務操作,這也成為長期以來制約製造業向高端化、智能化升級的關鍵瓶頸。關注到行業普遍存在的裝置偵錯低效、智能化有限、柔性生產適配性差等痛點,IndustrialNext希望將過去在特斯拉自主工廠已驗證的產線技術進一步最佳化並推廣應用。2024年下半年,IndustrialNext推出了第一代製造業通用的具身智能製造平台。該平台通過具身AI演算法重構底層軟體架構,結合即插即用的模組化硬體設計,自研軟硬一體的具身智能製造平台,具備高級工程師和熟練操作工的能力,能夠快速學習、靈活調度和自主組態等。Allen Pan告訴硬氪,在總裝、測試、包裝等通用生產環節,由於部分產線因工藝柔性要求高、上游需求頻繁變動和投入產出比低等原因,仍然存在大量自動化無法覆蓋的“盲區”。而在引入IndustrialNext的具身智能製造平台後,通過學習實際生產資料和模擬資料等方式,使機器人高效習得人工或自動化裝置的組裝工藝,並快速部署到產線上,由機器人代替操作工完成現場靈活複雜的生產任務。經驗豐富的操作工無需離崗,轉而承擔操作指導與流程糾偏的角色,實現從“執行者”到“導師”的職能升級。這一模式的優勢在於,既避免產品產線迭代中裝備類固定資產的重複性投入,也可實現綜合成本的直觀降低與生產柔性的提升,可以有效填補傳統自動化方案在高動態、非結構化場景中的能力空白。在商業化戰略上,IndustrialNext瞄準全球市場,一方面依託中國製造業優勢,與KA客戶共同研發迭代產品,快速形成產品能力;另一方面,面向海外製造業客戶,推出標準化、開箱即用的具身智能製造平台,快速完成商業化放量。硬氪瞭解到,IndustrialNext的具身智能製造平台現已在3C和汽車行業的全球頂尖客戶完成驗證,在部分高柔性、快迭代的產線場景可實現更短的交付周期、更高的節拍和更低的損耗,獲得數千萬元的小批次訂單。未來,IndustrialNext將逐步拓展至多行業高端製造場景,加速推進工業具身智能的全球化落地。 (硬氪)
輝達華人硬核AI神器,「描述一切」秒變細節狂魔!僅3B逆襲GPT-4o
【新智元導讀】視覺AI終極突破來了!輝達等機構推出超強多模態模型DAM,僅3B參數,就能精準描述圖像和視訊中的任何細節。有了AI,誰還願意用手配「字幕」?剛剛,輝達聯手UC伯克利、UCSF團隊祭出首個神級多模態模型——Describe Anything Model(DAM),僅3B參數。論文地址:https://arxiv.org/pdf/2504.16072正如其名Describe Anything,上傳一張圖,圈那點那,它即可生成一段豐富的文字描述。即便是一段視訊,DAM也能精準捕捉到白色SUV,給出詳細的描述。DAM是一個專為詳細局部標註(DLC)而設計的模型,即為特定區域生成詳細且精確的描述。通過兩大創新,研究人員在細節與上下文之間找到平衡:· 焦點提示:對目標區域進行高解析度編碼,就像給模型配備了一副「放大鏡」,清晰捕捉到局部區域細微特徵· 局部視覺骨幹網路:將精確定位的特定區域,與上下文無縫整合換句話說,DAM不僅能放大細節看,還能放眼全域看,無論是靜態圖,還是動態視訊,都能做到遊刃有餘。網友驚嘆道,「終極視覺AI突破」!AI用「放大鏡」看世界在項目首頁中,輝達等研究團隊放出了更多精彩demo。任何人通過點、框、塗鴉或掩碼的互動,即可一鍵生成描述。上傳一張柯基在草地上歡快奔跑的圖,選中柯基,讓DAM去描述:一隻中等體型的狗,擁有濃密的紅棕色毛髮,腹部和腿部為白色。這隻狗尾巴蓬鬆,耳朵尖立,戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒,舌頭伸在外面。狗呈奔跑姿勢,前腿向前伸展,後腿向後伸直。一隻被擠到犄角旮旯的貓星人,DAM是這樣配文的,「一隻白貓,耳朵呈淺橙色,鼻子是粉色的。貓咪表情放鬆,眼睛微微閉著,全身覆蓋著柔軟的白毛」。再比如,隨手塗鴉一棟高樓,DAM可以不斷放大細節,給出這幢樓更細緻的描述:一座現代風格的摩天大樓,採用流線型矩形設計,外立面排列著間距均勻的豎向條形窗。建築呈階梯式結構,每一層段都比下層略微內縮,形成錯落有致的退台造型。建築幕牆主要由反光玻璃面板構成,整體呈現出極具現代感的拋光效果。甚至,DAM看著視訊中的一頭牛,就能直出一篇經典「小作文」:一幅描繪棕褐色奶牛的動態序列圖:這頭毛色濃密的奶牛臀部帶有淺色斑塊,初始畫面中它微微低頭,透著安詳的神態。隨著動作展開,奶牛開始穩步前行,四肢舒展著節奏分明的步態,尾梢的簇毛隨每一步輕擺,為行進增添流暢韻律。它始終保持挺拔的站姿,略微弓起的背部線條透出放鬆狀態,肌肉結實的腿部穩健地向前邁進。整個運動過程中,奶牛保持著均勻從容的步調,每一個動作都流暢而不迫,展現出寧靜自若的生命姿態。DAM如此厲害,是如何做到的?DAM技術架構,精準捕捉細節與傳統圖像描述(概括整個場景)不同,DLC聚焦於使用者指定的局部區域,來生成細緻入微的描述。想像一張照片中一隻貓,你不僅需要描述「一隻貓在窗檯上」,還要深入些幾「貓的毛髮呈現柔軟和灰色條紋,耳朵微微傾斜,眼睛在陽光下閃著琥珀色的光芒」。可以看出,DLC的目標是捕捉區域的紋理、顏色、形狀、顯著部件等特徵,同時也要保持與整體場景關聯。而在視訊領域中,DLC挑戰更大。模型需要追目標區域在多個幀中的變化,描述其外觀、互動、和細微動態的演變。為了應對DLC複雜需求,Describe Anything Model引入了兩大核心創新,讓局部細節與全域上下文完美平衡。焦點提示(Focal Prompt)通過「焦點提示」機制,DAM能夠同時處理全圖和目標區域的放大檢視。這確保它在捕捉細微特徵同時,不丟失整體場景的背景資訊。局部視覺骨幹網路(Localized Vision Backbone)DAM的視覺骨幹網路通過空間對齊的圖像和掩碼,融合全域與局部特徵。利用門控交叉注意力層,模型將詳細的局部線索與全域上下文無縫整合。新參數初始化為0,保留了預訓練能力,從而生成更豐富、更具上下文關聯的描述。這種架構讓DAM在生成關鍵詞、短語,甚至是多句式的複雜描述時,都能保持高精度和連貫性。DLC-SDP:破解資料瓶頸要知道,高品質的DLC資料集極為稀缺,限制了模型的訓練。為此,研究團隊設計了基於半監督學習的流水線(DLC-SDP),通過兩階段策略建構大規模訓練資料。階段一,是從分割資料集擴展。利用現有分割資料集短標籤(貓),通過視覺-語言模型生成豐富的描述(灰色短毛貓,耳朵直立。階段二,自訓練未標記的圖像,通過半監督學習,DAM對未標記的網路圖像生成初始描述,並迭代精煉,形成高品質的DLC資料。DLC-Bench:重定義評估標準那麼,如何公平地評估DLC模型。傳統方法主要依賴文字重疊,但這無法全面反映描述的精準性和細節。為此,研究團隊提出了全新基準DLC-Bench。通過LLM判斷,檢查描述的正確細節和錯誤缺失,而非簡單對比文字。DAM僅能生成詳細描述,還具備強大的靈活性和互動性。指令控制描述你可以根據需求調整描述的詳細程度和風格。零樣本區域問答而且,無需額外訓練,DAM就能回答關於特定區域的問題。碾壓GPT-4o,刷新SOTA在DLC-Bench和其他7個涵蓋圖像與視訊的基準測試中,DAM全面超越現有模型,樹立了新的標竿。如下表2所示,DAM在具有挑戰性的 PACO 基準測試中表現出色,創下了89高分。而在零樣本評估在短語級資料集Flickr30k Entities上,新模型相比之前的最佳結果平均相對提升了7.34%。此外,零樣本評估在詳細描述資料Ref-L4 上,DAM在基於短/長語言的描述指標上分別實現了39.5%和13.1%的平均相對提升。在研究人員提出的DLC-Bench測試中,DAM在詳細局部描述方面優於之前的僅API模型、開源模型和特定區域VLM。下表6所示,DAM在詳細局部視訊字幕方面刷新SOTA。總而言之,DAM的優勢主要有三大點:更詳細、更準確;更少幻覺;多場景適用。它的強大能力為眾多應用場景打開了大門,未來諸如資料標註、醫療影像、內容創作等領域,都可以加速落地。 (新智元)
OpenAI科學家揭秘:AI下半場驚天啟示!
本篇內容是提出ReAct、Tree of Thought等框架,定義SWE-bench等評測標準,推動Agent技術前沿的清華姚班、普林斯頓博士,OpenAI 科學家姚順雨,對於 AI 下半場的解讀,💡 目錄 💡01 我們正處於 AI 的半場時刻02 什麼是 AI 上半場03 AI 的有效配方04 歡迎來到 AI 下半場核心要點:1. AI發展進入“下半場• 階段轉變:從模型訓練(上半場)轉向問題定義與評估(下半場),標誌性事件是強化學習(RL)的泛化能力突破。• RL里程碑:過去RL僅限於單一任務(如AlphaGo),如今通過語言模態和推理能力,能解決軟體工程、數學解題、創意寫作等廣泛任務,實現多領域跨越。2. 上半場的核心:模型訓練主導**• 成功關鍵:演算法創新(如Transformer、GPT-3、AlexNet)推動AI進步,引用量遠超Benchmark(如Imagenet)。• 侷限性:任務定義簡單(直接轉化人類活動),依賴資料與算力堆砌,評價體系單一(以Benchmark表現為準)。3. 有效配方:RL的三大支柱•核心要素:① 演算法(如PPO、Actor-Critic)② 環境(複雜真實場景,如程式碼開發、數學推理)③ 先驗知識(語言預訓練、人類知識注入)• 成功邏輯:大規模預訓練 + 算力擴展 + 推理與行動結合,使RL突破泛化瓶頸。4. 下半場挑戰:重新定義AI範式• 評價體系 > 訓練:從“能否解決任務”轉向“如何定義有價值的問題”,需建構真實場景的評估標準(如使用者滿意度、商業價值)。• 環境與先驗被低估:RL需在複雜環境(如軟體開發、多步決策)中驗證,而非簡化模擬場景;先驗知識(如人類反饋)是泛化能力的關鍵。• 研究者思維轉變:需兼具產品經理視角,關注使用者需求與落地場景,而非僅追求模型性能。AI下半場是“定義問題”的戰爭,評價體系、環境複雜度、先驗知識將成為勝負手,而RL的泛化能力為這一轉型提供了技術基礎。以下為詳細內容01.我們正處於AI 的半場時刻We’re at AI’s halftime數十年來,AI 的核心一直在於開發新訓練方法和模型。這種路徑確實有效:打敗國際象棋和圍棋世界冠軍、在 SAT 和律師資格考試上超過大部分人、贏得 IMO(國際數學奧林匹克)和 IOI (國際資訊學奧林匹克)金牌,這些寫進 AI 歷史書裡的里程碑——DeepBlue,AlphaGo,GPT-4 和 o 系列,都來自底層訓練方法的創新,search,deep RL,scaling,reasoning。一切都在隨著時間持續進步。那麼現在到底有什麼變了?簡單來說,強化學習(reinforcement learning, RL)終於有效了。更確切地說,RL 終於有了泛化能力。經過幾次彎路,也跨過了一系列重要里程碑後,我們終於找到了正確的配方(recipe),能通過語言模態和推理能力來解決廣泛的強化學習任務。即便在一年前,如果你告訴大多數 AI 研究者,有一種 recipe 能同時應對軟體工程、創意寫作、IMO 等級的數學問題、滑鼠鍵盤操作以及長篇問答——他們只會嘲笑你在幻想。這些任務每一項都極其艱難,許多研究者整個博士期間只專注於其中一個細分領域。但今天這件事的確發生了。接下來會發生什麼?AI 的下半場——從現在開始——會從解決問題轉向定義問題。在這個新階段,Evaluation(模型評估) 會比 Training (模型訓練)更重要。我們不再只是問,“我們能不能訓練模型來解決 X ?” 而是開始問:“我們究竟應該訓練模型來做什麼,如何衡量真正的進展?”要想贏得 AI 的下半場,我們必須及時轉變心態和技能,也許要更像產品經理。02.什麼是 AI 上半場、The First half要理解 AI 上半場的意義,可以看看這個階段的 winners。先來想一個問題,你認為迄今最具影響力的 AI 論文有那些?我在 Stanford CS 224N 的課堂現場提出了這個問題,大家的答案並不意外:Transformer、AlexNet、GPT-3 等。這些論文的共同點在於它們提出了訓練更強模型的一些基礎性突破,但同時也在一些 benchmark 上展示了顯著的性能提升,從而得以發表。💡CS 224N 是 Stanford 深度學習與 NLP 主題的公開課,是過去十年 AI 領域的很多學生和學者入門 NLP 最好的課程之一。由 Chris Manning 教授主講。Chris Manning 是 Stanford 語言學和電腦科學系首任 Thomas M. Siebel 機器學習教授、人工智慧實驗室(SAIL)主任和以人為本人工智慧研究所(HAI)聯合創始人,他還是 ACM、AAAI 和 ACL 的 Fellow,並曾於 2015 年擔任 ACL 主席,是自然語言處理和機器學習領域的先鋒人物。這些經典論文還有一個潛在共性:它們幾乎都是訓練方法或模型,而不是 benchmark 或者 tasks。即便是被認為是最有影響力的基準資料集 ImageNet,它的引用量也不到 AlexNet 的三分之一。這種差距在其他案例中更加明顯。比如,Transformer 使用的主要 benchmark 是 WMT’14,WMT’14 的 workshop report 引用量大約為 1300 次,而 Transformer 本身的論文引用早已突破 16 萬次。這些對比形象地說明了 AI 上半場是關注於建構新的模型和訓練方法,evaluation 和 benchmark 則位於第二位,儘管對於學術發表體系而言,後者是十分必要的。為什麼會出現這種現象?一個重要原因是,在 AI 上半場,訓練方法比定義 tasks 更難也更令人興奮。從零開始發明一種全新的演算法或模型架構,比如反向傳播演算法、摺積神經網路(AlexNet),或是 GPT-3 所用的 Transformer,都需要非凡的洞察力和工程能力。相比之下,為 AI 定義 tasks 往往顯得更直接:我們只是把人類已經在做的事情,比如翻譯、圖像識別或下棋,轉化為 benchmark,這個過程幾乎不需要太多洞察,甚至不需要多少工程工作。訓練方法往往比具體任務更通用、適用範圍更廣,因此顯得格外有價值。比如,Transformer 架構最終推動了 CV、NLP、RL 等多個領域的進展,影響範圍遠遠超出最初驗證它效果的 WMT'14 這個翻譯資料集。一個出色的新訓練方法往往能在多個 benchmark 上取得較好效果,因為它足夠簡單、通用,它的影響也因此會超越某個具體任務。過去數十年來都是訓練方法論的創新先行,催生了許多改變世界的理念和突破,並通過在各個領域不斷提升的 benchmark 表現出來。那麼,為什麼今天這件事會發生改變?因為這些理念和突破的積累,在解決任務方面帶來了本質改變,造就了一套真正有效的 recipe。03.AI 的有效配方The recipe這套 recipe 到底是什麼?recipe 的關鍵成分並不讓人意外:大規模的語言 pre-training,資料和算力的 scaling,reasoning 和 acting 的理念。這幾個詞乍一聽很像今天出現頻率極高的 buzzwords。為什麼將這幾個詞稱為 recipe ?我們可以從 RL 的角度來看。RL 通常被認為是 AI 的“終極形態”,畢竟從理論上,它能夠保證在 game 中取勝,而在實踐上,幾乎所有 superhuman 水平的 AI 系統(比如 AlphaGo)都離不開 RL 的支撐。💡game:在博弈論中,game 指的是所有在封閉環境中,有明確輸贏的博弈任務。RL 領域有三個關鍵組成部分:演算法(algorithm)、環境(environment)和先驗知識(priors)。很長時間以來,RL 研究者主要關注演算法,比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等,也就是 agent 如何學習的這一核心機制。💡DQN:Deep Q-Network,即深度 Q 網路,是深度強化學習的一種重要演算法,使用深度神經網路來逼近Q 值函數,並通過最大化 Q 值來選擇最優動作,其中 Q 值計算的是 Agent 執行某個行動帶來的價值變化。TD-learning:Temporal difference learning,即時序差分學習,結合了動態規劃(Dynamic Programming)和蒙特卡羅方法(Monte Carlo)的優點。Actor-critic:即演員-評論家演算法,是一種結合策略梯度和時序差分學習的強化學習方法,包括演員(Actor,負責行動)和評價者(Critic,負責評價)用神經網路分工進行博弈。PPO:Proximal Policy Optimization,即近端策略最佳化,是 OpenAI 在 2017 年提出的一種強化學習演算法,被認為是目前強化學習領域的 SOTA 方法,也是適用性最廣的演算法之一。PPO 簡化了以前的策略梯度演算法,通過幾個關鍵技術提高了訓練的穩定性和效率。這是之前 RLHF 最常用的 RL 演算法,在 reasoning model 場景下 Deepseek 提出的 GRPO 演算法正在取代成為主流。TRPO:Trust Region Policy Optimization,即置信域策略最佳化,是一種用於強化學習的策略最佳化演算法。相比之下,環境(environment)和先驗知識(priors)往往被當作既定條件,或者被儘可能簡化處理。例如,Sutton 和 Barto 的經典教材幾乎講的都是演算法,對於環境和先驗知識幾乎隻字未提。但在深度強化學習時代,環境在實踐中的重要性凸顯:一個演算法的效果往往高度依賴於它所開發和測試的環境。如果忽視環境,可能會導致我們建構的最優演算法只在過於簡化的環境中有效。那麼,為什麼我們不先思考清楚真正想要解決的環境,再去尋找最適合它的演算法?OpenAI 最初就是這麼計畫的。OpenAI 先是打造了 Gym,一個用於各類 game 的標準 RL 環境,接著又推出了 World of Bits 和 Universe,試圖將網際網路或電腦變成一個 game。這個設計很好,一旦我們可以將所有數字世界轉化為 environment,再用 RL 演算法來解決問題,我們就能實現數位領域 AGI。💡Gym:Gym 是 OpenAI 在 2016 年 4 月發佈的一個用於開發和比較 RL 演算法的工具包,提供了多種預定義環境,以便研究者和開發者可以在相同的 benchmarks 下測試他們的演算法。World of Bits 和 Universe:OpenAI 的 World of Bits 是基於 Universe 的訓練平台,也是 Universe 項目的前身。Universe 發佈於 2016 年 12 月,是一個能在幾乎所有環境中衡量和訓練 AI 通用智能水平的開源平台,目標是讓 AI Agent 能像人一樣使用電腦。這個設計很好,但並不完全奏效。雖然 OpenAI 取得了巨大的進展,比如利用 RL 解決了 Dota、機器人手等問題,但還沒有解決 computer use 或 web navigation ,並且,在一個領域表現出色的 RL agent 並不能遷移到另一個領域。某些關鍵因素仍然缺失。直到 GPT-2 或 GPT-3 出現,我們才發現缺失的是先驗知識 (priors)。你需要進行大規模 pre-training,將常識和語言知識提煉到模型中,然後通過微調使其成為網路 agent(WebGPT)或聊天 agent(ChatGPT),從而改變世界。結果發現,RL 中最重要的部分可能甚至不是 RL 演算法或環境,而是先驗知識,而這些先驗知識的獲取方式與 RL 完全無關。語言模型的 pre-training 為對話類任務提供了良好的先驗知識,但在控制電腦或玩電子遊戲方面卻不夠理想。因為這些領域和網際網路的文字分佈相差很大,直接在這些領域上做 SFT 或 RL 的泛化效果很差。我是在 2019 年意識到的這個問題,當時 GPT-2 剛剛發佈,我在它的基礎上做了 SFT 或 RL 來解決基於文字的 game,最終做出了 CALM。CALM 是世界上第一個基於 pre-training 語言模型建構的 agent,但它要花費上百萬步的 RL,才能在單一 game 中取得進展,而且無法遷移到其他 game 上。雖然這正是 RL 的特點,對 RL 研究者來說並不意外,但我仍覺得很反常,因為人類可以輕鬆上手一款新遊戲,而且在零樣本的前提下做得比 agent 更好。這時,我迎來了人生中第一個頓悟時刻:人類之所以能泛化,是因為人類不僅能做“去 2 號櫃子”、“用 1 號鑰匙打開 3 號箱子”或“用劍殺死地牢怪物”這類操作,還能思考:“地牢很危險,我需要一件武器。附近沒有武器,我需要在鎖著的櫃子或箱子裡找,3 號箱子在 2 號櫃子裡,那我應該先去那裡把櫃子打開。”思考(thinking)或推理(reasoning)是一種很特殊的行為,它並不會直接改變外部世界,但卻擁有一個開放、無限組合的空間,我們可以想一個單詞、一句話、一段話,或者一萬個隨機英語單詞,但周圍環境不會立刻發生變化。在經典 RL 理論中,reasoning 是一個糟糕的存在,因為它會讓決策變得不可能。比如,一個人需要從兩個盒子中選一個,其中一個裝著 100 萬美元,另一個是空的,這個時候預期收益是 50 萬美元。現在如果我們往這個人面前放了無數個空盒子,那麼他的預期收益就變成了 0。但如果我們在  RL 環境的動作空間(Action Space)中加上 reasoning,我們就能利用語言模型 pre-training 中獲得的先驗知識進行泛化,並可以在不同的決策中靈活分配 test-time compute。💡動作空間:不同的環境允許不同種類的動作,在給定的環境中,有效動作的集合被稱為動作空間(Action Space)。在離散動作空間(Discrete Action Space),agent 的動作數量是有限的,在連續動作空間(Continuous Action Space),動作是實值的向量。這個過程很神奇,我會在未來專門寫一篇 blog 來講。可以通過 ReAct 這篇論文先瞭解我對 agent reasoning 的看法。💡ReAct:ReAct 是姚順雨在 ReAct: Synergizing Reasoning and Acting in Language Models 中提出的框架,到今天還在 agent framework 中佔有一席之地。當下,我對於這件事的解釋是:雖然一個人面前被放置了無數個空盒子,但他在此之前,他已經在各種 game 中見過這些盒子,之前的這些選盒子的經驗能幫助他更好地識別出那個盒子更可能裝著錢。用一句抽象的話來說:語言通過 agent reasoning 來實現泛化(language generalizes through reasoning in agents.)。一旦我們擁有了正確的 RL 先驗知識(語言 pre-training)和 environment(將語言推理作為行動),演算法可能是最微不足道的部分。現在我們有了 o 系列、R1、deep research、computer-using agent,未來還會有更多的成果。多麼諷刺的轉折!長期以來,RL 研究者更關心演算法,遠勝於關心 environment ,幾乎沒有人關注先驗知識——所有的 RL 實驗本質上都是從零開始的,但我們繞了幾十年的彎路,才意識到也許我們的優先順序應該反過來。但正如 Steve Jobs 所說:You can’t connect the dots looking forward; you can only connect them looking backward.04.歡迎來到 AI 下半場The second half這套 recipe 在徹底改變 AI 的遊戲規則,AI 上半場的遊戲規則是:• 我們開發出新穎的訓練方法或模型,在各種 benchmarks 上取得更好的成果。• 我們創造出更難的 benchmarks,並繼續這個循環。現在這個遊戲規則正在被徹底改變,原因在於:• 這套 recipe 本質上已經把攻克 benchmark 的過程標準化、流程化了,我們不再需要太多新的想法。並且因為這套 recipe 具有較好的 scaling 和泛化能力,你為某個具體任務設計的全新方法可能只能帶來 5% 的提升,而下一代的 o 系列模型即使沒有專門針對這個任務訓練,也能帶來 30% 的提升。• 即使我們設計出了更難的 benchmark,它們也往往會很快(而且越來越快)被這套 recipe 攻克。我的同事 Jason Wei 做了一張精彩的圖,直觀地展示了這個趨勢。那 AI 下半場應該做什麼?如果新的訓練方法不再必要,更難的 benchmark 也會被越來越快地攻克,我們應該怎麼做?我認為我們需要從根本上重新思考“評估”(evaluation),這不僅意味著設計更新、更難的 benchmarks,而是要徹底質疑現有的評估方法,創造新的評估方法,這樣才能迫使我們發明超越現有有效的 recipe 的新方法。但這很難,因為人類有慣性,人類很少去質疑最基礎的假設——你只是理所當然地接受它們,卻沒意識到它們其實只是“假設(assumptions)”,而不是“定律(laws)”。用一個例子來說明這種慣性,假如你基於人類考試,發明出了一種史上最成功的 AI 評估方法之一。在 2021 年這也許是一個突破性的想法,但到了 3 年後,這一方法已被很多人使用,屬於非常常規的評估方法。那麼你接下來會做什麼?很可能是再設計一套更難的考試。再比如,你已經成功解決了基礎的程式設計任務,那麼你接下來會做什麼?很可能是尋找更難的程式設計任務,直到達到 IOI 金牌的水平。慣性是一種很自然的現象,但問題也正出在這裡。AI 已經在國際象棋和圍棋上戰勝了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,達到了 IOI 和 IMO 金牌的能力,但至少從經濟或 GDP 的角度看,世界並沒有發生太大變化。我將這個稱之為“效用問題(utility problem)”,我認為這是當下 AI 領域最重要的問題。也許我們很快就能解決“效用問題”,也許還不能。但無論結果如何,這個問題背後的根源可能非常簡單:我們的評估方法在很多基本假設上與現實世界的設定不同。舉兩個假設為例:• 假設 1:評估應該是自動運行通常一個 agent 會收到一個任務輸入,自動完成任務,最後得到一個任務獎勵。但現實中,agent 往往需要在整個任務過程中持續與人類互動,比如你不會給客服發一條長資訊,然後等十分鐘,期待對方給出一條詳細答覆來解決所有問題。當我們質疑這種評估假設時,就催生出了新的 benchmarks,要麼將真實人類引入互動環節(例如 Chatbot Arena),要麼引入使用者模擬(例如 tau-bench)。•假設 2:被評估的任務應該是獨立同分佈(i.i.d.)的如果你有一個包含 500 個任務的測試集,評估的時候,你會將每個任務獨立運行,最後對結果取平均,得出整體評分。但現實中,任務往往是順序進行的,而不是平行的。一位 Google 的軟體工程師在逐步熟悉 google3 倉庫後,會越來越高效地解決問題,但一個軟體工程 agent 在同一個倉庫中解決多個問題,卻無法獲得這種熟悉度。我們顯然需要 long-term memory 的方法(事實上已經有一些相關嘗試),但學術界缺乏能合理體現這種需求的正確 benchmarks,甚至缺乏質疑 i.i.d. 這個被視為機器學習基礎假設的勇氣。💡獨立同分佈:Independent and identically distributed,即 i.i.d.,是機器學習中一個重要的假設,它表明訓練資料和測試資料遵循相同的機率分佈。這個假設確保了在訓練集上訓練的模型能夠有效地在測試集上進行泛化,從而在未知資料上保持良好性能。這些假設一直以來就是默認存在的。在 AI 上半場,基於這些假設來設計 benchmarks 是合理的,因為在智能水平較低時,提高智能通常就能提升效用。現在在這些假設下,那套通用 recipe 已幾乎被保證奏效。那麼 AI 下半場這個新遊戲的玩法會是:• 我們需要開發麵向現實世界效用的全新評估設定或 task;• 我們需要用 recipe 來攻克這些評估設定或 task,或用新元件來增強 recipe,然後重複這個循環。這個遊戲很難,因為它充滿了未知,但也格外令人興奮。AI 上半場的玩家專注於攻克電子遊戲和標準化考試,AI 下半場的玩家則通過把智能轉化為有用的產品,打造出數十億甚至兆美元的公司。上半場充斥著各種不斷迭代的訓練方法和模型,而下半場在某種程度上對它們進行了篩選。通用 recipe 會輕鬆碾壓你的漸進式改進,你創造出能打破這套 recipe 的新假設。那時,你就能做出真正改變遊戲規則的研究。歡迎來到 AI 下半場!(機構調研記)
估值暴增5倍!Manus母公司蝴蝶效應完成5.5億融資拓展AI應用
據媒體報導,Manus的母公司蝴蝶效應(Butterfly Effect)完成了一筆高達7500萬美元(折合人民幣約5.5億元)的新融資。此次融資由美國矽谷知名風投公司Benchmark領投,所籌資金將用於探索用AI智能體系統替代人類執行日常任務。融資完成後,蝴蝶效應投後估值增長約5倍,達到近5億美元(折合人民幣約36.4億元)。此前,Manus憑藉“全球首個通用AI Agent(智能體)”的名號引發廣泛關注。其打造的Agent能夠自主瀏覽網站,執行訂票、分析股票等任務,再加上高達5萬塊的內測邀請碼被熱炒,一度引爆全網。從蝴蝶效應的案例展示來看,Manus的突出賣點是“一鍵完成”。原本需要多個軟體協同完成的工作,使用Manus能迅速搞定。例如,當使用者輸入“幫我做一下介紹小米SU7十頁的PPT”,在未提供任何資料的情況下,Manus就能生成一份圖文並茂的PPT,還省去了排版和設計步驟。儘管Manus產品深受使用者追捧,但公司在滿足Agent服務需求方面面臨挑戰,受到伺服器容量和營運成本的限制。今年3月媒體消息顯示,Manus使用Anthropic的Claude AI模型和其他工具,平均每項任務要向Anthropic支付2美元。為解決相關問題,3月11日,Manus宣佈與阿里雲通義千問團隊達成戰略合作,雙方將基於通義千問開源模型,在國產算力平台實現Manus全功能落地。此外,公司還計畫利用這筆新融資將服務拓展到包括美國、日本和中東在內的其他市場。 (TechWeb)
中國國產晶片站起來了
4月18日,寒武紀公佈2025年第一季度財報資料,期內公司營收11.11億元,同比增長4230.22%;淨利潤3.55億元,扣非淨利潤2.76億元。對比寒武紀2024年全年11.74億元的營收規模,一季度表現格外引人注目。這也是寒武紀自上市以來連續第二個季度實現盈利。要知道,寒武紀自2016年創立以來累計虧損54億元,2024年全年仍虧損4.52億元,而2025年第一季度單季淨利潤就達到3.55億元。受此影響,財報公佈後首個交易日,寒武紀股價上漲3.8%,市值達2901億元。當然,這樣的漲幅只有一個交易日,市場對寒武紀的盈虧轉變仍保持謹慎。產業分析師指出,雖然寒武紀實現短期盈利,但仍面臨多方面考驗:客戶過度集中、現金流持續為負、研發投入壓力大等問題依然存在。同時,自2023年以來寒武紀股價已上漲超過500%,市盈率維持在2000倍以上,高估值與當前業績仍形成鮮明對比。01事實上,寒武紀業績改善的核心因素是營收結構的調整。查看寒武紀2024年財報資料可以發現,其雲端智能晶片及板卡業務收入達11.66億元,佔全年營收的99.3%,而這一比例在2023年僅為13.5%。這意味著公司已從過去依賴行政項目的智能計算叢集業務,轉向面向商業市場的雲端晶片產品線。從行業環境的變化來看,一方面,DeepSeek等大模型推動算力需求上升;另一方面,美國對華高端AI晶片出口管制催生國產替代需求。在此背景下,網際網路公司、營運商成為寒武紀的主要客戶。但是,資料顯示寒武紀客戶結構仍存在明顯集中風險。2024年財報中,寒武紀前五大客戶貢獻銷售額11.11億元,佔總額94.63%;其中第一大客戶銷售額9.30億元,佔比79.15%。長江證券分析認為,公司下遊客戶正從行政部門轉向網際網路企業和營運商。這種客戶結構轉變使2024年第四季度營收達到9.89億元,佔全年比例84.2%。市場需求方面,國內大廠紛紛加大算力投入。阿里計畫三年投入3800億元建設雲和AI基礎設施,騰訊和字節跳動也增加相關投資。IDC預測顯示,中國智能算力市場將在2027年達到1117.4EFLOPS,年增長率超30%。寒武紀自身也在為擴張做準備。公司2025年一季度研發支出2.35億元,比去年同期增長38.33%;存貨從2024年底的17.73億元增至一季度末的27.55億元;預付款項增至9.73億元。高盛預測,寒武紀未來三年營收年複合增長率可達111%,2030年利潤率有望接近國際同行。02雖然寒武紀盈利表現改善,但市場估值與實際業績差距明顯。截至4月23日,公司市盈率達2203.68倍,與輝達54.39倍的市盈率形成鮮明對比。要匹配當前2800多億市值,寒武紀年盈利需達51億元,是目前水平的數倍。部分市場人士質疑這種估值合理性,認為股價已透支未來多年業績。同時,公司資金狀況也令人擔憂。財報資料顯示,寒武紀2024年經營現金流為-16.18億元,而2023年為-5.96億元;2025年一季度為-14億元。寒武紀帳面現金從2024年的19.72億元下降至2025年一季度的6.38億元。而單季研發支出就達2.72億元,現金儲備只夠維持短期營運。隨著技術瓶頸不斷被攻克,國內AI晶片競爭也日益白熱化。據華爾街見聞資料,海光資訊2024年DCU產品營收增長210%,市場滲透率從5%升至18%;龍芯中科的國產指令集AI加速卡逐步替代寒武紀在政務雲市場份額;華為昇騰910B通過租賃模式搶佔行政訂單市場。先前外界對寒武紀等國內晶片公司最大的質疑是,如何解決產業鏈依賴的問題?2022年底,大量晶片公司被美國列入出口管制實體清單後,台積電等關鍵代工廠商無法為其生產先進工藝晶片。另外,EDA工具(電子設計自動化)也主要採購自美國公司如Cadence、Synopsys,IP核技術則依賴ARM等企業。這影響了自主產品的迭代能力,也是大多數國產晶片企業共同面臨的問題。但從目前來看,寒武紀等公司似乎已經找到了更安全、更穩定的產業鏈供應來源。招商證券分析指出,在貿易限制背景下,國產替代已成不可逆趨勢。國盛證券研報認為,國產AI晶片不僅在單晶片性能上縮小差距,在多卡叢集能力方面也加速追趕,性價比正逐步提升,2025年可能成為國產算力的關鍵年份。對於創始人陳天石和寒武紀團隊而言,當前盈利只是第一步。要真正成為"中國輝達",寒武紀不僅需要持續技術創新,更需要建立穩定可持續的業務模式。 (蔚然先聲)
三蹦子之後,這款中國國產機器人開始搶佔歐美“後花園”
雖然世界貿易體系最近震盪不斷,但不影響中國製造的智能產品繼續在歐美市場受到追捧。01園林工具智能化大升級現在割草機已經改名了,叫“割草機器人”。而這背後所代表的智能化升級,在歐美市場非常受用。科沃斯、追覓科技等主營智能家電的企業,其業績均表示出相關產品在海外堪稱爆發性增長。科沃斯生產的割草機器人主要銷往歐洲,根據其2024年半年報,割草機器人在海外的收入和銷量分別同比增長185.9%和252.1%;追覓科技2023年才推出第一款割草機器人,但據內部人員透露,歐洲市場的出貨量早已超過10萬台。由於城市規劃、居住環境不同,中國企業生產的割草機其人基本都是銷往海外,海外市場不僅成熟,最重要的是這幾年也有轉型換代的需求。傳統的割草機主要分手推式割草機、騎乘式割草機,都是以燃油驅動。而歐美地區,尤其是歐洲,近年來環保政策不斷縮緊,天生帶有智能化、低噪音、零排放等優勢標籤的割草機器人恰逢其時。再者說,草坪修剪在歐美國家屬於“剛需”。德國各州和美國部分地區甚至規定,公共場所和私人住宅的草坪高度不得超過20釐米,違反則會面連罰單。02技術外溢,卷完電車卷割草機傳統的戶外園林工具基本都有智能化短板,具體到割草機器人,以前不是沒有過類似的產品,但需要在草坪邊界需要預埋電磁線,機器人依靠電磁線感應調轉方向,才能實現導航和避障。但是國內科技企業大多已經把掃地機器人身上成熟的“無邊界技術”,移植到了割草機器人身上。這樣一來,割草機器人只需搭載攝影機、雷射雷達等感測器,不需要預埋設施就能實現導航、避障、人機互動、防盜。這種升級是方方面面的,比如以往可能是碰撞避障,現在有了雷射雷達、攝影機,直接就能視覺避障,看到就識別——這一點和自動駕駛有異曲同工之妙。有意思的是,和自動駕駛一樣,割草機器人也分出兩條路線:科沃斯第二代產品採用“純視覺方案”,追覓科技打算採用硬體成本較高的3D雷射雷達多感測器融合技術。衛星定位加上硬體升級,割草機智能化大幅提升還有一個類似於“高精地圖”的功能,那就是通過接收衛星訊號,實現割草機器人自己的高精度定位。高精度衛星定位並不稀奇,只不過少有用在園林工具上的。基於衛星訊號,割草機器人能在在空曠場景下實現釐米級軌跡精度,即使有樹蔭、建築遮蔽也沒關係;再結合雷射雷達,的確能進一步提升定位精度和穩定性。如果用智能電車的思路來審視割草機器人,那它能卷的還很多,畢竟中國企業技術外溢的優勢就擺在這裡。開源證券研報提到,自2023年起,以中國品牌為主的無邊界割草機器人種類明顯增多;隨著產品性能逐步最佳化完善,到2028年割草機器人行業的銷量有望超300萬台。 (壹零社)
2025年中國跨境電商十大領軍企業:模式創新與全球突圍
隨著"一帶一路"倡議深入實施和RCEP紅利持續釋放,中國跨境電商行業在2025年迎來新的發展格局。本文基於企業最新財報、海關總署資料及第三方調研報告,整理出目前最具代表性的十大跨境企業。 (註:非官方排名,依企業首字母排序)一、產業發展新圖景2025年中國跨國電商進出口規模預計將突破3.5兆元,佔外貿總額比重提升至8.5%。在政策紅利(如"離境即退稅"新政)與技術革新(AI選品、虛擬試衣)的雙重驅動下,行業呈現三大特徵:1. 市場格局重構:歐美市場成長趨近(年增約8%),東南亞(年增15%)、拉丁美洲(年增18%)、中東(年增22%)成為新增長極。2. 模式迭代升級:從"流量驅動"轉向"品牌+技術"雙輪驅動,獨立站佔比提升至35%,社交電商GMV年增加40%。3. 政策深度賦能:全國165個綜試區形成"產業帶+跨境電商"生態,江蘇、廣東等地出台專項行動計畫,推動30個以上特色產業帶建設。二、十大領軍企業深度解析1. 阿里巴巴國際站(B2B領域絕對王者)核心優勢:覆蓋200+國家,服務3000萬中小企業,年GMV超800億美元。首創"信用保障體系",交易糾紛率低於0.3%,成為全球B2B信任標竿。推出"數字外貿作業系統",整合物流、支付、合規等全鏈路服務。在東南亞啟動"數字自貿區"項目,聯合10國政府打造跨國貿易數位化走廊。2. SHEIN(快時尚顛覆者)創新密碼:彈性供應鏈實現"7天爆款",庫存周轉率比ZARA快3倍。2024年再利用產業庫存布料2.8萬米,減少42噸碳排放,綠色供應鏈成新標籤。與TikTok合作推出"邊看邊買"功能,轉換率提升27%。歐美市場份額達28%,超越ZARA成最受歡迎快時尚品牌。快時尚巨頭近期公佈ESG報告顯示,其採用區塊鏈技術的溯源系統已覆蓋90%供應商。在洛杉磯開設的首間線下體驗店,試衣間配備AR虛擬穿搭鏡,單店日均客流突破8,000人次。3. 拼多多Temu(價格戰終結者)成長引擎:全託管模式壓縮中間環節,商品價格僅為亞馬遜1/3。2025年Q1下載量超1.2億次,歐美市場滲透率突破15%。物流時效提升至"5日達",退貨率控制在5%以下。爭議焦點:低價策略引發歐盟"反傾銷"調查,部分品類面臨30%關稅。4. 安克創新(品牌出海標竿)技術壁壘:充電類產品全球市佔率35%,專利數超2000項。2024年研發投入佔比12%,推出全球首款AI溫控行動電源。佈局智慧家庭賽道,亞馬遜Best Seller產品佔比達40%。獨立站GMV佔比提升至25%,復購率超45%。這家從亞馬遜起家的深圳企業,已成為全球消費電子領域的隱身冠軍。 2024年財報顯示,其無線音訊品類在歐美市場佔有率突破18%,最新推出的AI智慧充電裝置系列,通過歐盟CE認證後單季銷量超200萬台。5. 行雲集團(供應鏈隱形冠軍)生態賦能:數位化供應鏈服務覆蓋100+國家,年處理訂單量超5億單。西部營運基地落地重慶,整合新能源車、智慧終端等產業帶資源。首創"跨國電商+中歐班列"模式,物流成本降低20%。2025年完成B輪融資,估值突破150億元。6. 京東全球售(品質電商代表)差異化路徑:依託京東物流全球倉配網路,實現"211當日達"服務。2025年啟動歐洲市場測試,重點佈局母嬰、家電等高毛利品類。推出"出口轉內銷"計畫,年採購量達2000億元。AI質檢系統將退貨率從8%降至3.5%。依託京東印尼、泰國本地倉的佈局優勢,2024年東南亞訂單量較去年同期成長147%。值得關注的是其"京造"自有品牌出海戰略,智慧按摩器材系列在馬來西亞中產群體中復購率達41%。7. 敦煌網(小額貿易專家)轉型成果:2025年Q1下載量激增940%,歐美市場重購率提升至38%。推出"跨國貿易合規化平台",幫助中小商家解決VAT、智慧財產權等痛點。與巴西政府合作建立"數字貿易產業園",在地化服務能力增強。年交易額突破120億元,3C品類佔比超60%。深耕B2B領域18年的平台,近期上線了AI智慧報關系統。據其發佈的《中小跨國貿易白皮書》顯示,平台活躍買家中有32%是海外社區便利商店經營者,最暢銷的"中國製造"是小家電和3C配件。8. 棒谷科技(垂直品類王者)核心競爭力:自營平台覆蓋30000+SKU,電子產品復購率達45%。全球倉儲面積超50萬平米,物流時效提升至72小時。與1000+工廠深度合作,實現"柔性生產+快速交付"。在俄羅斯市佔率達18%,超越速賣通。廣州起家的老牌獨立站玩家,2024年完成智慧物流系統升級後,歐洲訂單妥投時效縮短至3.7天。其特色在於"場景化選品",例如針對北歐極光旅遊季推出的防寒裝備套裝,創下單日10萬+銷量紀錄。9. PatPat(母嬰賽道獨角獸)精準定位:聚焦母嬰童裝,SKU超10萬,復購率超55%。2024年營收突破80億元,歐美市場份額達12%。與TikTok合作推出"育兒直播",轉換率提升30%推出環保系列產品,使用再生材料佔比達30%。10. 速賣通(性價比之王)市場策略:俄羅斯市場份額超40%,年GMV突破200億美元。2025年啟動"品牌升級計畫",扶持1,000家中國白牌企業轉型。物流時效提升至"10日達",覆蓋全球200國。技術創新:AI客服系統回應時間低於2秒,解決70%諮詢問題。阿里巴巴旗下平台最新推出"全球72小時達"服務,在西班牙、法國等核心市場實現85%的履約率。其特色頻道"中國匠人"帶動非遺產品出海,蘇繡團扇年銷量超50萬把。三、潛力企業與產業趨勢潛力企業榜單:TikTok Shop:依託短影片流量,2025年巴西下載量超2000萬次,歐洲市場GMV年增加150%。連連數字:跨境支付市佔率達35%,服務100萬+中小型商家。蘭亭集勢:婚紗品類全球市佔率超60%,2024年營收成長45%。行業趨勢洞察:政策紅利釋放:全國版跨境電商出口退免稅政策落地,企業資金周轉效率提升30%。技術深度滲透:AI選購工具使爆款率提升25%,虛擬試衣技術降低退貨率15%。綠色化轉型:30%頭部企業建立碳足跡追蹤體系,永續商品GMV佔比超20%。新興市場崛起:東南亞、中東、拉丁美洲貢獻55%新增GMV,成必爭之地。四、風險與應對建議主要風險:合規風險:歐盟VAT新政實施,30%企業面臨稅務成本上升。物流瓶頸:全球海運價格波動,旺季配送時效延長50%。人才短缺:跨境電商人才缺口達500萬,複合型營運人才年薪超50萬元。應對策略:合規建設:建立在地化合規團隊,使用智慧稅務系統。物流最佳化:佈局"海外倉+專線物流",縮短配送時效至3-5天。人才培養:與大學合作開設跨國電商專業,年培養50萬人才。五、區域政策風向標廣東:2025年跨境電商進出口占全國1/3,推動"產業帶+跨國電商"融合,建設10個特色產業帶。浙江:實施"地瓜經濟"提能工程,目標2027年出口規模翻倍,培育400個國際品牌。江蘇:打造30個跨國電商產業園,重點發展新能源、汽車零件等品類。 (全球跨境電商產業觀)
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題