#可靈
LeCun哈薩比斯神仙吵架,馬斯克也站隊了
吵起來了。圖靈獎得主和諾貝爾獎得主,為了“智能的本質”——直接激情友好地交流上了。AI三巨頭之一、圖靈獎得主Yann LeCun明確表示:純粹就是胡扯(complete BS)。而諾貝爾獎得主、GoogleDeepMind CEO哈薩比斯也不留情面了,指名道姓回擊:LeCun的說法簡直是大錯特錯。論戰之激烈,關注度之高,已經讓𝕏專門開闢了一個話題類股:馬斯克也跑來吃瓜了——沒有任何多餘的解釋,但這波他站哈薩比斯——“Demis is right”。當然,馬斯克的站隊可能也有別的原因。畢竟他和LeCun素來不是很對付,跟哈薩比斯則亦師亦友——馬斯克還是哈薩比斯DeepMind早期投資人。要科學吃瓜,可能還是要知道他們究竟在激辯什麼?爭論焦點:智能的本質是什麼?事情還要從LeCun幾天前接受的一場採訪說起。他在節目中言辭犀利地指出:根本不存在所謂的“通用智能”,純粹就是胡扯(complete BS)。這個概念毫無意義,因為它實際上是用來指代人類水平的智能,但人類智能其實是高度專業化的。我們在現實世界裡確實幹得不錯,比如認個路、導航blabla;也特別擅長跟人打交道,因為咱們進化了這麼多年就是幹這個的。但在國際象棋方面,我們表現很差。而且還有一堆事兒都搞不定,反倒是有些動物比我們強得多。所以說,我們其實就是“專才”。我們認為自己是“通用”的,但這僅僅是一種錯覺,因為我們能理解的所有問題都侷限於我們能想到的那些。簡單概括就是,LeCun認為人類智能並不“通用”,而是為了適應現實物理世界而專門進化出來的某種專業能力。人類之所以擅長識別物體、躲避危險、與他人合作等,也只是因為這些能力在進化中被環境塑造。然而,這一觀點很快遭到了哈薩比斯的直接回懟。哈薩比斯表示:LeCun的說法簡直是大錯特錯。他這是把“general intelligence”和“universal intelligence”兩個概念搞混了。然後他一一駁斥了LeCun的觀點,其原話如下:大腦是目前宇宙中已知最精妙、最複雜的事物,實際上具有極強的通用性。但是在實際的系統當中,“天下沒有免費的午餐”這個道理是無法迴避的——任何實際且有限的系統,在其所學目標分佈周圍,都必然存在一定程度的專門化。但從圖靈機的理論意義上講,通用性的核心在於,只要給予足夠的時間、記憶體(及資料),就能夠學習任何可計算的內容。而人腦(以及AI基礎模型)正是近似的圖靈機。並且,針對LeCun關於國際象棋棋手的評論,哈薩比斯認為人類能發明國際象棋本身就令人驚嘆,更不用說從科學到波音747等現代文明的一切了。關於LeCun對棋手的評論——人類最初竟能發明國際象棋(乃至從科學到波音747的整個現代文明!)本就令人驚嘆,更不用說還能出現像馬格努斯·卡爾森那樣棋藝卓絕的人物。他或許並非嚴格意義上的最優解(畢竟記憶有限、決策時間也受限),但考慮到我們的大腦本是為狩獵採集而進化,他和我們如今所能成就的一切,已足以展現人腦的驚人潛力。顯而易見,哈薩比斯對“智能”的理解從不侷限於電腦科學,而是深度融合了神經科學。一直以來,他認為真正衡量智能的兩個關鍵標準分別是通用性(Generality)和學習能力(Learning),為此他經常拿1997年“深藍”戰勝卡斯帕羅夫舉例——雖然“深藍”在國際象棋上很強,但還是連簡單的井字遊戲都不會玩,所以足以見得這種程序的死板之處。而關於這場對決,哈薩比斯還透露,最吸引他的不是“深藍”這個系統,而是卡斯帕羅夫的大腦(畢竟他能作為人類代表與AI進行比賽)。沒錯,又是“大腦”這個關鍵詞。哈薩比斯一直堅信,人類大腦是宇宙中已知的唯一關於“通用智能可行性”的存在性證明。當大腦和AI結合之後,所謂的“通用人工智慧”其實就是能夠展現出人類所擁有的所有認知能力的系統。至於具體如何實現AGI,哈薩比斯多年來也形成了一套自己的方法論,總結起來就是——預測建構理解,規劃擴展可能,強化學習實現自主進化。第一步:以預測為基石。在他看來,智能的本質在於預測——無論是預測下一個單詞還是預測蛋白質的折疊形狀。這是所有認知活動的基礎形式,也是AI理解世界的內在驅動力。第二步:引入搜尋與規劃AI系統首先要建立一個世界模型,然後在此基礎上進行搜尋或規劃,以在巨大的組合搜尋空間中找到最優解。第三步:最終通向深度強化學習這是哈薩比斯最推崇的終局路徑,也是對大腦運作方式的模擬——深度學習負責模式匹配和尋找結構,強化學習負責通過試錯進行規劃和達成目標。這在生物學上對應著大腦的神經通路和多巴胺獎勵系統。至此,我們看到兩位大佬關於智能本質的爭論,表面上看起來似乎確實截然不同。一個認為“通用性智能”是胡扯,本質上智能是自然世界高度專業化的產物;另一個認為通用性智能不僅存在,而且仍有巨大潛力有待挖掘。但事實,真的如此嗎?上述爭論過後,LeCun又再次出來回應了,而且這次直接點名了分歧核心——用詞。我認為分歧主要在於用詞。我反對用“通用(general)”來指代“人類水平”,因為人類是高度專門化的。不過,雖然承認用詞有分歧,但他還是繼續重申了“人類智能並不通用”的觀點。其論證如下:第一,理論完備≠實際通用。你也許不同意人類思維是專門化的,但事實確實如此。這不僅是理論能力的問題,更是實踐效率的問題。顯然,一個經過良好訓練的人腦,如果配合無限量的紙和筆,是圖靈完備的。但對於絕大多數計算問題來說,這種方式效率極低,因此在資源受限的情況下(比如下棋),它遠非最優方案。就是說,哈薩比斯所構想的“理想的圖靈機”對解決現實問題幾乎沒有意義,因為真正的智能必須在有限資源下高效運作——而人腦的進化恰恰是資源約束下高度最佳化的結果。第二,兩個典型例子可以反映大腦的“非通用性”。在理論上,一個兩層神經網路可以以任意精度逼近任何函數;但在實踐中,幾乎所有有意義的函數都需要隱藏層中包含數量巨大、難以實現的神經元。正因如此,我們才使用多層網路——這正是深度學習存在的根本原因。再換一個角度來看:視神經大約有100萬根神經纖維。為了簡化討論,我們假設訊號是二進制的,那麼一次視覺任務就可以被視為一個從100萬位元對應到1位元的布林函數。在所有可能的此類函數中,有多少是人腦可以實現的?答案是:一個無窮小的比例。通過這兩個例子,LeCun再次重申了自己的觀點:所以我們不僅談不上“通用”,而且是極其高度專業化的。可能的函數空間極其廣闊。我們之所以沒有意識到這一點,是因為其中絕大多數函數對我們來說複雜到難以想像,看起來幾乎完全是隨機的。而且他還提到了愛因斯坦曾經說過的一句話——世界上最不可思議的事情,是世界竟然是可以被理解的。在所有可能的、隨機的世界組織方式中,我們竟然能夠理解其中極小的一部分,這本身就令人驚嘆。而我們無法理解的那一部分,我們稱之為“熵”。從這個意義上說,宇宙中絕大多數的資訊都是熵——是我們孱弱的認知能力無法理解、因而只能選擇忽略的內容。總之,事情battle到最後,網友們也是紛紛回過神來了——這場爭論最大的bug可能就在用詞上了。而拋開用詞不談,本質上來看,兩個人其實更像是在談論不同的問題:一個核心在強調“我們是什麼”,另一個則在強調“我們能成為什麼” 。而這,也恰恰指向了同一個更深層、也更現實的議題——接下來,我們究竟該以怎樣的方式實現AGI?答案:世界模型不管是在LeCun還是哈薩比斯這裡,答案其實都已經很清晰了——世界模型。眾所周知,即將從Meta正式離職的LeCun,下一站就是創業世界模型。據《金融時報》爆料,其新公司名為Advanced Machine Intelligence Labs(AMI Labs),計畫於明年一月正式亮相,目標估值30億歐元(約247億人民幣)。在LeCun的理解中,世界模型所要追求的不是渲染精美的像素,而是掌握控制理論和認知科學。他認為對AI而言,只有中間那個抽象表徵才重要(和JEPA研究一脈相承),模型沒必要浪費算力去生成像素,只需專注於捕捉那些能用於AI決策的世界狀態。換言之,瞭解“世界的結構是什麼”才是最關鍵的。而哈薩比斯這邊也在採訪中多次表示,世界模型絕對是自己和Google接下來的重點。今年8月,GoogleDeepMind推出了新版世界模型Genie 3。哈薩比斯表示:我們談論的世界模型,指的是那種能夠理解世界運行機制中因果關係與協同效應的模型,也就是一種“直觀物理學”——事物如何運動、如何相互作用、如何表現。你已經可以在當前的視訊模型中看到這種能力的雛形。而檢驗是否真正具備這種理解的一種方式是否能夠建構一個逼真的世界。因為如果你能夠生成它,那麼在某種意義上,你就已經理解並內化了這個系統的運作規律。這也解釋了為什麼Genie、Veo這些模型首先會以視訊模型的形式出現。在他看來,這種可互動的世界模型正是通往AGI的關鍵一步。通過對比,我們能發現雖然二者都是在描繪“世界模型”,但他們的理解和實踐方向也明視訊記憶體在差別——LeCun代表著“世界模型即認知框架”,而Google哈薩比斯代表著“世界模型即模擬器”。嗯,同一個概念,不同的理解和實踐——怎麼不算一種call back呢?(手動狗頭)Anyway,回顧歷史,實際上AI的每一次躍遷都伴隨著這樣的“爭吵”:符號主義和連接主義的爭論,定義了智能的根基究竟是“邏輯”還是“資料”;端到端學習和模組化系統的爭論,定義了“系統該如何建構”;再加上我們今天的“開源VS閉源之爭”、“智能本質之爭”……還是那些老話,“真理不辯不明”、“真理越辯越明”。不過玩笑說說,等到真理辯明了,那個老頭可要來了……One More Thing幾乎同一時間,LSTM之父Jürgen Schmidhuber又出來隨機掉落了一個“小彩蛋”,他預判了預判——LeCun即將創業的世界模型,他們在2014年就有涉獵了(原話是二者高度相似)。怎麼說呢,Jürgen Schmidhuber老爺子這幾年,基本都在“維權”了。作為LSTM的發明者,LSTM一度在ChatGPT誕生前被稱為“最具商業價值的人工智慧成就”,而作為LSTM之父,Jürgen Schmidhuber早在三巨頭獲得圖靈獎之前就被《紐約時報》稱為“成熟人工智慧之父”。但當AI時代真正到來,各種技術發明者桂冠沒有他、圖靈獎沒有他、諾貝爾獎也沒有他……Schmidhuber只能一次次維權、隔空懟人,最後成為祥林嫂·Schmidhuber。幸好,還有推特,可以讓他首頁上清晰完整展示——以及推特當前的擁有者馬斯克,他評價Jürgen Schmidhuber時言簡意賅:一切的發明者。這,確定不是在陰陽八卦? (量子位)
這位德國華裔被《經濟周刊》評為能影響德國21世紀經濟走向的人物之一
導語: 華裔工程師陳兆芃創立的思靈機器人(Agile Robots)公司,正試圖通過研發出能夠進行精細非單調性操作的人形機器人,來幫助德國重塑其作為機械製造強國的聲譽,以應對來自中國和美國的激烈競爭。其技術聚焦於機器人“手”的靈巧性,挑戰傳統自動化極限。源自《經濟周刊》作者: Thomas Stölzel陳兆芃熱愛機器人。像許多現代人一樣,他在家裡有幾台機器人:一台用於割草,另一台清潔游泳池,還有一台負責吸塵。這位在中國出生、現居慕尼黑的工程師目前正為他的小女兒開發一隻機器狗。他對在不遠的將來首次在家中使用一台基礎的通用機器人感到樂觀。陳兆芃強調,這還不是一個真正像人的模型。但是,至少:“它將能夠承擔很多家務勞動。”不過,他目前不願透露太多細節。機器人技術已經主導了陳兆芃的職業生涯二十年。他在中國北方的哈爾濱工業大學完成學業後,曾在德國航空航天中心(DLR)進行研究,該中心是全球領先的機器人開發機構之一。隨後,他在2018年創立了思靈機器人。如今,他的公司是全球最有前途的競爭者之一,致力於將類人機器人帶入日常生活,尤其是為了取代非單調的手工勞動。這是該行業長期以來的夢想。因此,陳兆芃代表著德國為捍衛其作為機械製造強國聲譽所做的最重要嘗試之一——以應對中國和美國。就在11月,他在一群記者面前推出了“思靈一號”(Agile One),這款人形機器人將在思靈機器人自己的工廠中,與人類工人並肩協作,協助組裝機械臂和其他機器。顯而易見,人形機器人將在未來幾年徹底改變工業製造。將出現所謂的“黑燈工廠”,在那裡幾乎沒有人類工作。不少人可能會對這種設想感到毛骨悚然。然而,對於高工資國家來說,這同時也是一個機會,它們或許可以再次與印度或孟加拉國等國競爭生產基地的地位。陳兆芃表示,在勞動力短缺的地方,工廠的產能可以翻倍甚至三倍。“對於像我這樣的機器人研究人員來說,這是一個令人難以置信的激動人心的時代,”這位企業家說道。潛力是巨大的。到目前為止,工業界雖然已經成功地利用銲接機器人(例如來自 Kuka)等自動化單調性任務。但智慧型手機仍然需要手工組裝,僅僅是因為機器人太昂貴或根本沒有人類那麼靈巧。例如,到目前為止,機器人仍然無法從一箱螺絲中取出一顆螺絲,將其在指尖轉動,然後擰入螺紋中。美國投資銀行摩根士丹利(Morgan Stanley)估計,在25年內,將有一億台人形機器人在使用中,其中90%用於商業領域。這將是一個年交易額達五兆美元的市場。關鍵在於模仿人手的靈巧性。誰能做到這一點,誰就能獲勝。而這正是陳兆芃的專業領域。十年前,他在德國航空航天中心位於奧伯普法芬霍芬(Oberpfaffenhofen)的研究院,完成了關於“手”的博士學位。當時,科學家的機器手在物理上已經可以做到人類抓取器官所能做的一切。但直到今天仍然缺乏的是其背後的智能。陳兆芃說:“我們已經非常接近了。”硬體和軟體都已具備。現在它需要學習,就像一個真正的人類一樣。這需要時間。陳兆芃舉起一個瓶子,擰開螺旋蓋。“我們的機器人今天已經可以很好地做到這一點,”他表示。但他不能保證機器人每次都能成功地完成這項任務,不論何時。靈巧性是一種反射,手會察覺到瓶子是否因為太重而滑落。然後它會抓得更緊,但又不會緊到把瓶子捏碎。這是一個高度複雜的相互作用,涉及觸覺、肌肉、關節和100多根肌腱。有些肌腱會被拉緊,有些則會放鬆。中國和矽谷可能通過大量的機器人初創公司、宏大的聲明和引人注目的展示而閃耀光芒。例如,展示那些動作與人類幾乎無法區分的舞蹈人形機器人,或者掌握格鬥技巧的機器人。但就機器人技術知識而言,德國仍然在全球處於領先地位,尤其是在“手”的技術方面。這也歸功於德國幾十年來在硬體和軟體方面的持續努力。陳兆芃講述:“我在加利福尼亞州見過一些機器人公司成立後不久就倒閉了,因為它們過於專注於軟體。”在機器人開發中,軟體和硬體必須共同考慮。而正是在這個連接點上,歐洲和德國的機械製造知識具有真正的份量。機器人更像汽車而非智慧型手機,還有一個原因。智慧型手機不會啟動並傷害到人。“機器人本身必須始終絕對安全,為了我的女兒和家裡的兩隻貓的安全,”陳兆芃說。任何危及這種安全的操作都不能被允許。目前,美國人工智慧行業的一個重要承諾是,可以利用網際網路視訊來訓練機器人獲得某些能力。陳兆芃對此表示懷疑,並將這種方法比作培訓醫生。他認為,這種練習只會讓機器人像一個勤奮的醫學生一樣,頭腦裡有很多知識。但它無法達到經驗豐富的外科醫生在手術台上的水平。這需要實踐中的訓練。而這正是思靈機器人的方法。機器人的人工智慧必須由多個層面組成,才能實現真正的靈巧。網際網路上的視訊可以幫助開發各種動作,使機器人儘可能通用。但它需要模擬和真實的訓練資料才能真正學會。陳兆芃的公司正在慕尼黑的一個培訓中心進行所有這些工作。儘管擁有創新能力,但在德國科技界中,有不少人對思靈機器人仍持懷疑態度。近年來,該公司收購了幾家德國自動化專業公司。例如,收購了此前陷入困境的協作機器人製造商Franka Emika,其產品被世界各地大學和研究機構用於科研。又比如,收購了擁有50多年歷史的機器人和自動化系統整合商 Bär Automation。甚至寶馬的內部物流分拆公司Idealworks也被這家慕尼黑初創公司收入囊中。最近,思靈機器人收購了蒂森克虜伯(ThyssenKrupp)的工廠建設部門,連同650名員工。人們普遍擔憂:最終可能會重蹈庫卡或晶片製造商安世半導體的覆轍——技術訣竅流向中國,留下的只是眾多生產基地中的一個,在公司內部競爭中越來越艱難,從而逐漸失去重要性。思靈機器人營運副總裁羅裡·塞克斯頓(Rory Saxton)指出,國際投資者有興趣避免這種情況發生。除了來自日本的軟銀(Softbank)、富士康和阿布扎比皇室集團(Abu Dhabi Royal Group)之外,還包括許多中國投資公司,如高瓴資本(Hillhouse)、紅杉中國(Sequoia China)、高領創投(GL Ventures)、線性資本(Linear Capital)以及科技公司小米。陳兆芃竭盡全力消除這種疑慮。他紮根於慕尼黑,他的公司是一家巴伐利亞公司。他說:“來自東方和西方的人都想來這裡。”對於許多人才來說,現在去美國很困難。慕尼黑是一種中立場所,人們可以在這裡工作,而不必思考自己屬於世界的那一個極點。陳兆芃將思靈機器人比作富士康:他們無處不在,在中國、印度和美國都有業務。“為什麼這不能也適用於我們?”陳兆芃問道。《經濟周刊》(WirtschaftsWoche)今年再次評選出30位將影響、改變並推動德國在本世紀末向前發展的人物。因為有許多人和項目讓人充滿勇氣。所有獲獎者名單可以在這裡找到。 (德國派)
90後華人科學家:超一億美金年薪背後的權力遊戲
一紙離職信,震動矽谷AI版圖。2025年11月20日,圖靈獎得主、被譽為“AI教父”之一的楊立昆(Yann LeCun)在領英上發表告別辭,宣佈將於年底離開效力12年的Meta。這位曾一手締造FAIR(基礎人工智慧研究實驗室)輝煌的宗師級人物,在65歲之際選擇重新出發,追尋關於“世界模型”的未竟理想。楊立昆的離去,標誌著Meta AI戰略路線徹底轉向:從FAIR所代表的學院派長期理想主義,全面倒向以產品化與商業落地為導向的實用主義。這一歷史性轉身的背後,是Meta內部早已展開的權力重組。就在數月前,年僅30出頭的華人科學家趙晟佳(Shengjia Zhao)——前OpenAI核心開發者——空降Meta,引發組織震動。趙晟佳的加盟充滿戲劇性:入職不到30天便萌生去意,祖克柏親自以“首席科學家”頭銜與天價薪酬極力挽留。他的“上位史”,成為矽谷AI人才爭奪白熱化的真實縮影。當圖靈獎得主楊立昆選擇離開堅守12年的Meta,當30歲的趙晟佳以超一億美金年薪空降矽谷,這場看似簡單的新老交替背後,是一場關乎AI技術路線、企業戰略與文化認同的深層博弈。從OpenAI到Meta,從清華園到矽谷,這位年輕科學家的選擇不僅改變著個人命運,更在重塑科技巨頭間的權力天平。圖源:Shengjia Zhao 的 X清華少年到史丹佛博士的進階翻開趙晟佳的履歷,一條近乎完美的頂尖學者成長路徑徐徐展開。2012年,他考入清華大學機械工程系,後因對電腦的濃厚興趣轉至電腦系,於2016年取得學士學位。在清華的四年裡,他的視野遠不限於課堂。2014年,趙晟佳赴美國萊斯大學交換學習,這段經歷徹底打開了他的學術視野:課堂講座常延續至深夜討論,各類想法在交流中不斷被檢驗、挑戰與完善。更重要的是,他在跨文化、跨學科的協作中,學會了以多元視角理解和推進科研。本科畢業後,他將目光投向了矽谷。2016年,趙晟佳進入史丹佛大學攻讀電腦科學博士,師從Stefano Ermon教授。在六年的博士生涯中,他全心投入深度生成模型、變分推斷等前沿方向。其代表作《InfoVAE: Balancing Learning and Inference in Variational Autoencoders》於2019年發表在AAAI,至今引用量已超23000次,成為該領域的里程碑論文。博士期間,他幾乎囊括了各類頂尖獎項:ICLR 2022傑出論文獎、Google卓越獎學金、高通創新獎(QinF)、摩根大通博士獎學金等。(趙晟佳的教育經歷)然而,真正讓他在全球AI領域聲名鵲起的,是在OpenAI的三年。2022年6月博士畢業後,趙晟佳作為技術團隊成員加入OpenAI。當時ChatGPT尚未面世。他不僅是ChatGPT、GPT-4、GPT-4.1的早期核心開發者,更是OpenAI推理模型體系的關鍵奠基者——主導了“o1”與後續“o3”系列的研究。“o1”在AI業界的影響堪稱技術核爆。它將思維鏈從理論概念轉化為可規模化部署的產品,使AI從機率性的語言續寫工具,躍升為具備類人邏輯推理能力的系統。這一突破迅速引發Google、DeepSeek、xAI等全球頂尖實驗室的跟進。與此同時,他還領導OpenAI的合成資料團隊,在行業深陷高品質資料匱乏的困境中,建構了一套可複製、可擴展的資料生成範式。可以說,在Meta向他伸出橄欖枝之前,趙晟佳已是當代生成式AI技術範式的重要建構者之一。他掌握了業內競相追逐的“新型擴展範式”——對於急於在AGI賽道實現反超的祖克柏而言,他無疑是必須爭取的關鍵人才。三十天離職危機今年夏天,Meta陷入了前所未有的焦慮與混亂。公司寄予厚望的Llama 4模型發佈後表現平平,更因"性能評測造假"爭議而聲譽受損。面對OpenAI和Google的持續領跑,以及中國AI實驗室在開源領域的快速追趕,祖克柏決定放手一搏。他斥資143億美元收購資料標註巨頭Scale AI,並任命其28歲的創始人Alexandr Wang為Meta首席人工智慧官。隨後,旨在整合公司所有AI資源的"Meta超級智能實驗室"(MSL)正式成立,標誌著Meta向AGI發起了全面衝刺。為了給MSL配備頂尖人才,Meta開啟了一場瘋狂的挖角行動。祖克柏不僅親自向目標研究人員傳送邀請郵件,還安排他們在其太浩湖莊園進行面談。Meta開出了高達九位美元的薪酬方案,其中部分offer的有效期僅有幾天。正是在這樣的背景下,趙晟佳被Meta從OpenAI成功挖來。更引人注目的是,圍繞著他迅速集結了一支實力雄厚的華人科學家團隊:團隊成員包括前OpenAI多模態後訓練研究負責人畢樹超、前OpenAI感知技術研究負責人及Gemini多模態部門聯合創始人余家輝、OpenAI o3-mini和o1-mini的核心開發者任泓宇、前OpenAI電腦視覺專家常慧雯,以及前Google DeepMind高級研究科學家翟曉華。祖克柏為這支夢之隊承諾了頂級資源支援。據悉,趙晟佳和MSL團隊將能夠使用計畫於2026年建成的"普羅米修斯"計算叢集,該叢集擁有高達1000兆瓦的電力供應,足以支撐前所未有的超大規模AI訓練。然而,這段"聯姻"在開始後不久就面臨危機。據多家媒體報導,趙晟佳加入Meta僅數日,就遭遇了嚴重的管理混亂和文化衝突。MSL內部資源分配不公、官僚作風盛行,承諾的算力資源遲遲未能兌現,這讓習慣OpenAI高效科研環境的趙晟佳深感不適。知情人士透露,趙晟佳當時已決定離開,甚至與老東家OpenAI達成了回歸協議,並簽署了入職檔案。這一消息對祖克柏而言無異於當頭一棒。若這位重金聘請的頂尖人才在入職不到一個月就重返競爭對手,不僅將使Meta顏面盡失,更將對其重振AI雄心的計畫造成致命打擊。為留住趙晟佳,祖克柏展現了驚人的決斷力。他直接介入,打破常規,授予趙晟佳"Meta超級智能實驗室首席科學家"頭銜,並正式確立其領導地位,要求其直接向自己和Alexandr Wang匯報。祖克柏更在Threads上高調宣佈這一任命,特別強調趙晟佳是實驗室的聯合創始人,"從第一天起就是我們的首席科學家"。這不僅是一次薪酬留人,更是一次地位與權力的鄭重承諾。最終,趙晟佳選擇留下,成為Meta AI版圖中僅次於祖克柏和Alexandr Wang的第三號關鍵人物。權力更迭暗戰趙晟佳最終選擇留下,但Meta的內部動盪遠未平息。事實上,MSL的成立與趙晟佳的迅速上位,恰恰催化了Meta新舊勢力更替下的深層矛盾。儘管趙晟佳被成功挽留,同期加入的其他頂尖人才卻未能適應。據外媒報導,與趙晟佳同期加盟的兩位前OpenAI研究員——Ethan Knight與Avi Verma,在入職不到一個月內相繼離職,重返OpenAI。來自GoogleDeepMind的研究科學家Rishabh Agarwal也在短短數月後選擇離開。對這些頂尖研究者而言,Meta雖能提供豐厚的薪酬,卻難以復現他們理想的科研環境。一位離職員工坦言:“人才終將流向能產生共鳴的地方。缺乏內在凝聚力的體系,終會從內部瓦解。”與此同時,管理層的“低齡化”與信任危機逐漸浮現。統管Meta AI全域的Alexandr Wang年僅28歲,此前並無人工智慧領域的研究經驗,其背景主要來自營運資料標註公司Scale AI。這種“外行領導內行”的局面,在內部引發了諸多資深科學家的困惑與不滿。有內部人士透露,Alexandr Wang所帶來的Scale AI高管團隊與Meta原有體系格格不入,管理方式簡單直接,甚至導致Meta與Scale AI在資料合作層面出現裂痕。更深遠的影響體現在FAIR實驗室的邊緣化。在MSL成立前,由楊立昆一手打造的FAIR實驗室一直是Meta AI的金字招牌。然而在新架構下,FAIR被整體併入MSL體系。儘管楊立昆名義上仍保留FAIR首席科學家頭銜,但在匯報關係上,這點陣圖靈獎得主需要向28歲的Alexandr Wang匯報。儘管祖克柏與楊立昆本人均公開否認角色變化,但在外界看來,隨著公司資源全面向以產品化為導向的MSL傾斜,堅持“世界模型”長線研究的FAIR團隊,實際上已失去對Meta核心AI戰略的主導權。Llama 4的失利成為壓垮駱駝的最後一根稻草,也成為楊立昆選擇體面離開的導火索。儘管雙方在分手聲明中保持了極大的克制,甚至達成了投資合作的“第三條道路”,但楊立昆的離去,無疑標誌著Meta AI那個充滿理想主義的學術時代正式落幕。面對重重挑戰,Meta正嘗試踩下剎車。據《金融時報》獲得的內部備忘錄顯示,Meta已暫停MSL除關鍵崗位外的所有招聘,以期在制定新戰略的同時更審慎地規劃未來。而這一切的挑戰,恰恰發生在個人能力與時代機遇碰撞的關鍵節點。對趙晟佳而言,出任首席科學家僅僅是開端。他不僅需要帶領團隊在技術上追趕GPT-4、打造更強大的Llama 5,更要在Meta複雜的官僚體系與文化衝突的夾縫中,為祖克柏找到通往AGI的可行路徑。而這場權力更迭的意義,早已超越了趙晟佳個體職業生涯的起落。它對應出整個AI產業在理想與現實間的艱難平衡,也預示著科技巨頭在AGI征程上更加激進的投資邏輯。這位90後華人科學家必須證明:超一億美金的薪酬背後,是與之匹配的遠見與實力。在趙晟佳按下"普羅米修斯"叢集啟動鍵的那一刻,一場新的AI競賽已經悄然開始。 (首席商業評論)
「可靈」將年賺10億,AI能否重塑2700億快手?
今年Q1、Q2、Q3,可靈收入分別超過1.5億元、2.5億元、3億元。預計2025全年,可靈收入將超過10億元。但在快手的商業大盤中,可靈收入佔比不足1%,它能否帶來更多的確定性?AI應用爆發,科技巨頭正“跑馬圈地”,而“五環外”的快手已經喊出:AIGC產品可靈將年賺10億元。快手2025Q3財報顯示,公司實現收入355.54億元,年增14.2%,經調整淨利潤約50億元,其中,最值得注意的是,可靈Q3收入超過3億元。據悉,今年Q1、Q2,可靈收入分別超過1.5億元、超過2.5億元。粗略計算,前三季度,可靈收入已超過7億元。對此,快手管理在第三季電話會上宣佈,上調可靈全年收入預期至1.4億美元,約合人民幣10億元,較年初目標(6000萬美元)增長超過一倍。資本市場反應迅速,隨後4個交易日,快手港股股價上漲了11.26%。但AI也是一把“雙刃劍”,加劇了股價波動。截至11月27日,較年內高點(92.6港元),快手已跌超26%,本輪迴調幅度大於阿里、騰訊、百度。其間,或許隱含著投資人的擔憂:面對OpenAI的Sora、Google的Veo、字節跳動的即夢AI,快手能否繼續保持領先優勢?在快手的商業大盤中,可靈收入佔比不足1%,它能否帶來更多的確定性?AI成了快手的“希望”快手變“慢”,進入“多事之秋”。今年9月,快手旗下電商子公司成都快購科技,涉嫌違反《電子商務法》,並被國家市場監管總局立案調查。同月,快手因未落實資訊內容管理主體責任等問題,被網信部門採取了約談、責令限期改正、警告、從嚴處理責任人等處罰措施。再疊加直播產業疲軟等因素影響,快手直播業務顯著承壓,2025Q3營收約96億元,僅年增2.5%,大幅低於整體營收成長速度。其他服務(含電商)營收增速亮眼,但第三季度,快手電商GMV為3,850億元,僅年增15.2%,增速遜於抖音電商(30%+)。當傳統敘事的想像力消逝,性感的AI,成為了快手新的「希望」。快手籌謀AI已久。和阿里、騰訊、字節做「基礎設施」不同,快手更偏向實用主義,去年聚焦視訊生成發佈了可靈AI,比即夢AI還早兩個月。今年,快手不斷加碼。 4月底組織“變陣”,可靈AI事業部成立,與電商、商業化、國際化、快手主站、本地生活並列為一級業務部門。9月,可靈AI迭代升級,新版大模型Kling 2.5 Turbo發表。據Artificial Analysis發佈的測評榜單,在文生影片和圖生影片領域,Kling 2.5 Turbo均位居全球第一。在快手三季報中,AI更是貫穿全篇,被提及多達48次,頻率高於一季報和半年報。其中,快手不僅著重敘述了可靈的業務進展和成績,還大篇幅強調,AI正賦能內部業務降本增效:自研的端到端生成式檢索架構OneSearch推動商城搜尋訂單量提升近5%,端到端生成式推薦大模型OneRec的應用,驅動國內線上行銷服務收入提升了4%-5%......並且,快手還將進一步追加算力投資,CFO金秉預計,2025年快手整體Capex支出,將較去年實現中高雙位數的同比增長。顯然,快手「重倉」AI,對可靈寄予厚望。但,可靈能一直保持高成長嗎?可靈「商業化」領先,即夢AI加速ToC曾經,快手和字節「對戰」短片、電商、短劇、本地生活,快手略遜一籌。如今,AI視訊火爆,AI技術使部分影片的製作成本降低20%以上,部分短劇製作的效率顯著提升一倍以上。並且,伴隨著技術愈加成熟,可靈、即夢AI等產品的單秒定價已進入「幾毛錢」時代。圖片來源:中金公司研報快手和字節是中國短影片“雙雄”,如今“對決”AIGC,可靈、即夢AI相互對標,但發展路線不同。可靈類似Sora,以DiT架構為基礎,同時已經發佈了統一多模態生成理解模型Orthus,能輸出更高解析度和影格率的視訊。綜合公開測評和資料,可靈製作的影片擁有電影級畫質、表現力強,對真實世界的模擬更逼真,但輸出時間較長。另外,可靈是生產力工具邏輯,「瞄準」專業製作者,有一定的使用門檻。即夢AI以自研的Seedance1.0模型為基礎,擁有更高級的圖片審美、多鏡頭敘事能力,影片運鏡靈活、均衡可控,生成速度更快。它是網路產品邏輯,走「大眾」路線,門檻較低,一般使用者簡單學習就能上手。差異化的使用者定位下,可靈、即夢AI已經分化。這是電影公司、專業生產者的付費意願較高,可靈商業化進度更快,前三季營收超7億元,預計今年營收超10億元。可靈AI產業合作負責人王若暄先前透露:付費比例很高,一大半是海外使用者。即夢AI背靠字節,To C是優勢,其使用者規模更大。據QuestMobile統計資料,今年Q2,即夢AI月活958.9萬,環比成長68.2%。可靈月活113.3萬,環比下跌16%。今年9月,即夢AI月活進一步攀升至1,012.31萬名。不過,AI視訊應用才剛剛興起,當前還處於做大「蛋糕」的周期。後續,將是流量和生態體系的競爭。快手Q3日活4.16億,創歷史新高,月活7.3億,而抖音MAU超過10億,字節旗下的番茄小說MAU達到2.45億,紅果短劇MAU達到2.36億,汽水音樂MAU已突破1.2億,字節擁有更充裕的流量體系。業務協同方面,可靈與快手短影片、短劇聯動。即夢AI在上游可聯動番茄小說、紅果短劇、汽水音樂獲得版權,下游聯動抖音分發,生態更豐富。總的來看,可靈的技術和商業化領先,但出海必須直面OpenAI、Google,在國內要抵禦字節的體系化進攻。AI漸行漸近,可靈承載快手的希望,不能有絲毫鬆懈。AI能否重塑2700億快手?今年以來,快手股價走勢與AI緊密相關。投資人關心,AI能否帶來更多的確定性,並重塑2700億快手?Q3電話會上,快手給了部分答案。一方面,可靈的核心場景仍將是“AI影視創作場景”,主要精力仍將是專業創作者。中金公司測算,2024年全球AI視訊生成市場規模約6億美元,中期來看,P端與B端生產力工具市場規模可望達到100億美元。同時,快手聯合創始人、CEO程一笑也表示:我們也會保持在C端應用場景的探索,在未來合適的時間點,將可靈AI的技術能力進一步產品化,並與社互動動結合,加速C端應用的商業化。換言之,可靈ToC,將是「後話」。另一方面,可靈很可能會抓住AI漫劇的風口,並積極參與上游的內容製作。據快手披露,其短劇日活使用者已突破3億,使用者日均觀看時長年增44%。 AI漫劇如火如荼,有望成為新增量。目前,快手已經制定了流量、現金等扶持機制。但動漫的核心受眾是二次元群體,在AI驅動下,它能否破圈? AI技術會降低成本,但創造性不足,AI漫劇會不會像短劇一樣趨於同質化?還可以確定,快手將加速AI與電商、廣告行銷等業務的融合,以實現新的成長。不過,就在快手準備大幹一場的時候,可靈AI負責人張迪卻突然離職了。中國企業家援引一位接近快手人士的話稱,“張迪的離開還是有些臨時。”據悉,可靈AI事業部已由快手高級副總裁蓋坤直接管理,但他同時還分管社區科學線,如何分配好精力和資源,是個挑戰。重要人才的流失,也給快手的AI新敘事,蒙上了一層陰影。目前,可靈收入佔比不足1%,快手的估值邏輯仍偏傳統。截至11月27日,快手總市值2,690億元,動態本益比13.12倍,與之對比,百度港股動態本益比24.96倍,阿里港股24.59倍,騰訊21.07倍。股價方面,以前復權計算,較最高點(417.34港元),快手股價下跌83.6%。未來,快手能否重回巔峰時刻? AI可能是唯一路徑,可靈要成為快手的“新老鐵”,扛起大梁,還需要進一步證明自己。說明:資料來源於公開揭露,不構成任何投資建議,投資有風險,入市需謹慎。 (懂財帝)
Fortune雜誌─圖靈獎得主楊立昆被曝將離職Meta創業
據《金融時報》援引知情人士消息,AI圈知名大佬楊立昆已告知同事,再過幾個月他就要離開Meta公司,創辦自己的公司了。楊立昆是圖靈獎得主,也是AI領域的頂尖研究者。他致力於打造自己眼中的下一代AI系統。但是他的離職,也必定會成為Meta公司乃至整個AI行業的一個重要轉折點。2025年11月5日,楊立昆博士在倫敦聖詹姆斯宮出席2025年度伊麗莎白女王工程獎招待會。圖片來源:Yui Mok / Pool—Getty Images楊立昆今年65歲,他於2013年12月加入Facebook,擔任基礎AI研究室(FAIR)創始主任。他從2003年起在紐約大學任教,目前仍擔任該校的銀級教授。楊立昆的學術成就十分傲人。最為人熟知的,就是他在上世紀80年代末研發出了摺積神經網路,特別是他開發的LeNet架構能夠成功識別手寫字體,掀起了一場電腦視覺領域的革命。2019 年,他與傑佛瑞・辛頓、約書亞・本吉奧三人因在深度學習領域的突破性貢獻而被授予圖靈獎。而正是這三人在理論上的奠基,才使深度神經網路成為當代電腦科學的一項核心技術。在電腦科學領域的早期成就楊立昆1960年7月8日出生在法國的蘇瓦西蘇蒙莫朗西。他父親是一名工程師,因而他從小就對電子裝置產生了興趣。後來他考入了巴黎高等電子與電工技術工程師學院(ESIEE Paris),於1983年獲得電氣工程文憑。隨後他在巴黎第六大學攻讀電腦科學博士學位,1987年發表了一篇關於連接學習機制的博士論文,他在論文中提到了一種早期形式的利用反向傳播演算法訓練神經網路的方法。不過在那個時代,搞神經網路還被認為是一個不切實際的任務。博士畢業後,楊立昆在多倫多大學與傑佛瑞・辛頓共事,進行了一年博士後研究,然後於1988年加入了AT&T公司的貝爾實驗室。正是在那裡,他研發出了摺積神經網路——這一突破性技術能讓電腦能夠以模擬人類視覺的方式處理圖像資訊。他的手寫數字識別系統效果顯著,美國國家現金出納機公司(NCR)從90 年代中期開始,將該技術應用於銀行支票讀取機,最高峰時期處理了全美國10%至20%的支票。楊立昆還主持研發了DjVu圖像壓縮技術,該技術讓網際網路檔案館等數位圖書館能夠線上分發掃描文件。之後,他曾在NEC研究所短暫任職,後加入紐約大學。Meta的離職潮目前,Meta公司正在試圖對其AI戰略進行全面調整。今年6月份,Meta向資料標註公司Scale AI投資143億美元,並聘請該公司CEO、28歲的美籍華人汪滔領導該公司新成立的部門“Meta超級智能實驗室”。這次重組對楊立昆本人也有一些影響,他之前要向Meta的首席產品官克里斯・考克斯匯報工作,現在卻要向汪滔匯報工作了。這次結構調整,也反映出了Meta公司內部更深層的戰略分歧。目前,Meta的Llama 4模型未達預期,Meta在AI上整體落後於OpenAI和Google等競爭對手,在此背景下,Meta的老闆馬克・祖克柏傾向於加快部署大語言模型和AI產品,而楊立昆之前曾公開表示,他對大語言模型持懷疑態度,因為他認為大語言模型永遠無法達到人類等級的推理和規劃能力。據《金融時報》報導,楊立昆的創業計畫還初在洽談融資的初期階段。他的新公司主要聚焦於他所謂的“世界模型”——這種模型是通過學習視訊和空間資料,來對環境產生內在理解,而非單純依賴文字資料。他此前經表示,這種系統旨在模擬因果場景並預測結果,但它可能需要十年左右的時間才能成熟。Meta的戰略轉型也並不是一帆風順的。今年早些時候,Meta的多名前員工曾對《財富》透露,由於公司資源向商用AI傾斜,導致長期研究受到忽視,FAIR實驗室現在實際上已處在一種半死不活的狀態。Llama模型原始研究論文的作者有超過一半在論文發表後數月內離開了Meta。今年10月份,Meta裁撤了AI部門的大約600個崗位。因此,儘管楊立昆的離職是一項重大人事變動,但它也突顯了行業內的一個核心分歧——在當下的AI行業中,不同產品的競爭日趨激烈,而究竟那條路才能達到最終所謂的“通用型人工智慧”(AGI),AI研究者在其中又應扮演什麼樣的角色,人們的看法是存在明顯差異的。(財富FORTUNE)
人形機器人:大小腦&靈巧手
大小腦在技術路線上,可能分層大小腦是當下,“端到端”是未來,刻意佈局“小腦”MCU似乎沒必要,可考慮著眼長期佈局“大腦”SOC。“小腦”演算法往往是機器人本體公司的核心之一,如特斯拉、宇樹、優必選,但也不乏能提供一定整合度的第三方綜合解決方案供應商,如DPX、LSZN、GGKJ,但問題又回到了估值上。目前人形機器人有兩類發展路線,其一是分層大小腦,其二是“端到端”。1.分層大小腦類似於人的“大腦->小腦->肢體運動”的模式,認知決策和運動功能區分開,各自處理自己擅長的事。大腦(大模型)在資訊深度加工、認知決策上有顯著優勢,其反應過程可能偏慢,暫時無法承擔高頻的即時運動控制,而小腦則通過規則清晰的運動控制演算法,能夠實現類似於“條件反射”式的低功耗即時響應。類似於人在跑步時不會刻意用大腦去控制左右腳和手臂的擺動,只給出“繼續跑”的總決策,下意識的肌肉記憶(≈運動控制演算法)就能完成動作。2.“端到端”類似於直接向大腦發出指令,省略中間的控制過程,大腦自動處理期間的所有分工與執行過程,輸出結果,比如“攝影機畫面->神經網路->直接生成步態”。相當於中間的過程全在黑箱之中,需要大腦有強而快的運算能力。目前市場主流量產品基本均採用大小腦分層的方案,一方面可能是推理芯的性能可能尚未達到理想值,另一方面“端到端”的黑箱特性使廠商無法識別並解決問題。據券商整理,大腦、小腦均有不同的技術路線:“小腦”MCU決定了“大腦”指令實際的執行效果,專用的人形機器人MCU通常涵蓋多種功能,甚至要多個MCU來實現,一套完整的運動控制系統由運動控製器(規劃運動)、編碼器(測量方位)、驅動器(訊號轉化)、電機(產生機械能)、感測器件(接收訊號)等核心部件,以及軟體向的演算法構成。1.上游MCU晶片(核心,狹義的小腦?)演算法往往是機器人本體公司的核心之一,如特斯拉、宇樹、優必選,但也不乏能提供一定整合度的第三方綜合解決方案供應商,如地平線、雷賽智能、固高科技。海外:德州儀器、英飛凌、薩瑞;國內:地平線、黑芝麻智能、瑞芯微、全志科技、峰岹科技、雷賽智能。2.中游控製器、驅動器等海外:ACS、Aerotech、安川、科爾摩根、西門子;國內:匯川技術、雷賽智能、埃斯頓、固高科技、禾川科技、信捷電氣。3.相關輔助模擬模擬:索辰科技。靈巧手靈巧手雖體積不大,但卻是機器人實現精細操作的關鍵部件,廠商不但要懂硬體和演算法,還要廣泛深入各類應用場景,“拿雞蛋的目的是什麼,抓扳手的用途是什麼”是受機器人“大腦”控制,而“拿起雞蛋而不碎,抓起扳手而不滑”是受靈巧手自身的“小腦”控制。靈巧手是特斯拉Optimus最重要的研發迭代方向,工程量幾乎佔到人形機器人整機研發的一半,馬斯克不止一次表示“核心攻關在手和XX”。一旦靈巧手最佳化完成,意味著核心硬體已趨於收斂,或是機器人走向規模化量產的最後一環。在尋求量產上,特斯拉一直在推動供應鏈做減法,早期驗證使用的複雜、高成本方案最終常被更具性價比的方案取代,如滾珠絲桿替代滾柱絲桿,無刷電機替代空心杯電機。Optimus齒輪靈巧手的結構如下圖:對靈巧手而言,設定自由度非常重要,可以分為全驅動和欠驅動兩種方案,其中全驅動方案中驅動源和自由度數量一致,而欠驅動則自由度大於驅動源,缺少部分採取耦合隨動。據銀河證券研報,靈巧手可分為四種驅動方案,如下圖,目前主流方案是電機驅動。傳統模式同樣重要,主要有四種傳動方案(3+1),如下圖,目前尚未定型。目前靈巧手迭代的趨勢是:高自由度、輕量化、增加感測器、模組化(腱繩)。腱繩方案帶來什麼變化?①使用腱繩,引入輕量化材料;②使用微型滾珠絲槓;③價格較高的空心杯電機被無刷電機取代;(無論如何電機仍是人形機器人最主要的成本,但使用的電機逐漸變的更傳統、更大宗化?)④增加視覺、觸覺感測器。單個靈巧手ASP小幾萬塊,價值量大,主要成本項是電機、微型絲桿、感測器、腱繩等部件,多方都希望參與其中,主要有以下幾類廠商:①特斯拉、小米等頭部人形機器人大廠依靠核心供應鏈自研;②專注於靈巧手研發的第三方企業(傲意科技、星動紀元、強腦科技等);③部分從事電機、絲槓的廠商向靈巧手整機延伸(如兆威機電、震裕科技等)。腱繩主要使用金屬絲(鎢鋼?)和高分子材料(高分子聚乙烯)兩種材料,目前高分子材料無論是綜合性能、使用壽命還是成本均更優,可能是更有競爭力的選擇,但存在不耐高溫的問題,需增加塗層工藝解決。據調研資料,目前腱繩屬於消耗品,單手單次成本在2000元左右(高分子60-80元/根,鋼絲150-250元/根),每年需更換1-2次,假設取值1.5次,人形機器人目前靈巧手中每年腱繩的成本約為6000元,以百萬台人形機器人產量規模估算,年市場規模最大為60億,考慮到量產增效降本,實際可能大幅小於該數值。 (鉛筆投研)
機器人的“最後一公里”:深聊靈巧手的“不可能三角”與六大技術門派
大家覺得讓機器人學會走路難,還是讓它學會打開一聽可樂難?我猜大部分人都會說走路難吧,畢竟人類花了幾百萬年才學會直立行走,波士頓動力的機器人摔了無數次才學會後空翻。但我最近在採訪的時候,才發現一個完全顛覆我認知的事實:在機器人世界裡,開可樂這件事比走路可難太多了!也就是說,控制靈巧手要比控制軀體難上至少十倍,而從目前的售價對比上我們也能感受到:中國Unitree G1人形機器人(會走路):1.6萬美元;波士頓動力Atlas機器人(會後空翻):預估14萬美元;英國Shadow Robot的靈巧手(會擰瓶蓋):價格未公開,但業內估計超過10萬美元也就是說:一隻手的價格接近一個完整的頂級機器人!這是什麼概念?這好比一個方向盤的價格接近整輛特斯拉。所以機器人的靈巧手為什麼難做?目前技術發展到什麼階段了?業內的技術派系有那些、有什麼值得關注的公司?今天我們就來聊聊,這個讓全世界頂級機器人工程師都頭疼的終極難題——機器人靈巧手。以及我們與特斯拉前靈巧手負責人創業的團隊TetherIA一起聊聊,一個300多美元的“Android版機器人靈巧手”如何試圖顛覆這個被壟斷了30年的高端市場。01機器人的“最後一公里”為什麼我們能看到機器人在工廠裡分揀產品,在倉庫裡搬運貨物,但卻很少看到它們能像人一樣靈活地擰開可樂瓶蓋,或者精準地拿起一顆螺絲釘?答案就在於:手的複雜性遠超我們的想像。人類的手有27個自由度,包含27塊骨頭、29個關節、34塊肌肉,以及數不清的神經末梢——這是一個經過了數百萬年進化的“精密儀器”。更神奇的是,這個“儀器”讓我們能夠既有力量握緊工具,又有精度穿針引線。這樣的能力造就了人類文明,但對機器人來說,要復刻這樣的能力,就非常有挑戰了。Xu DongTetherIA聯合創始人兼CTO大家看一下人手的構造,就會發現其實人手非常靈活,裡面關節非常多。我們以大拇指舉例:大拇指從上往下,有IP joint(拇指指間關節)、MCP joint(拇指掌指關節),這兩個關節都可以實現屈伸和彎曲。再往下的關節叫CMC joint(拇指腕掌關節),這個關節就明顯靈活很多,可以做側擺動作,也可以做彎曲和伸直動作,甚至還能原地旋轉。而且它的運動範圍非常大。你會看到,關節之間的連接非常小,這就是為什麼人手既能靈活,又能保持非常小的體積的原因。而這,就是機器人工程師們面臨的終極挑戰——機器人靈巧手,英文叫Dexterous Hand,在機器人學裡,它專門指高度仿人、具有多自由度、能夠完成精細操作的機器人手。它能夠模擬人手的抓取、操作和感知功能。那什麼樣的機器人手才能稱得上“靈巧”?第一,它得有足夠多的“關節”。我們人手有27個自由度,而機器人靈巧手通常需要6個以上,高端產品能達到20-27個。這就像是給機器人裝上了真正能“動手指”的手。第二,它得有“繡花”般的精細控制。我們說的是毫米級甚至更精細的操作——想像一下用機器人手穿針引線,或者像我們一會兒要看到的那樣,精準抓取只有5毫米的M5螺絲釘。第三,它得有“觸覺”。不只是能看到,還要能“感受”。觸覺感測器、力覺感測器、位置感測器等等,就像給機器人裝上了神經系統,讓它知道抓得是輕是重,是軟是硬。第四,它得會“察言觀色”。遇到圓的就用一種抓法,遇到方的就換另一種。看到玻璃杯就輕拿輕放,看到鐵塊就可以用力一些。這就是自適應抓取的能力。最後,它得長得像人手。人類世界的所有工具都是為人手設計的。如果機器人能夠模仿人手的結構、功能和配置,它們就能快速且經濟高效地應用,而無需改變我們的環境。如果我們看看歷史會發現,靈巧手從有這個概念,到現在逐步趨向成熟,已經走過了40多年的歷程。1980年代:開山之作Stanford/JPL Hand開創了靈巧手的先河,3根“人形”手指,每根三個關節,配備觸覺/力反饋。但它更像是證明“這事兒能做”的概念機。1990-2000年代:百家爭鳴到夾爪稱王Utah/MIT Hand、DLR Hand等各顯神通,技術路線百花齊放,但都停留在實驗室:能演示,但離實用還差十萬八千里。就在靈巧手還在實驗室“紙上談兵”時,簡單粗暴的兩指夾爪已經佔領了工廠。雖然只能“抓”和“放”,但便宜、穩定、夠用。這就像是功能機時代——雖然簡陋,但解決了核心需求。2000-2010年代:商業化破冰Shadow Robot、Allegro Hand等陸續商業化,價格高達數萬美元,主要服務科研機構。這個階段就像早期個人電腦——功能有了,但普通人買不起。2020年代:巨頭入場特斯拉入局改變遊戲規則。馬斯克不只要做靈巧手,還要規模化生產。同時,GPT等AI大模型的突破為機器人控制打開了新世界的大門。2025年:轉折點特斯拉22個自由度的新手、TetherIA的300美元開源革命、各路開放原始碼專案湧現。靈巧手即將迎來“智慧型手機時刻”——從極客玩具變成人人可得的工具。然而,靈巧手雖然迎來了巨大的突破,但還是有很多的難點。這個難點並不僅僅在技術上的突破,更重要的是要兼顧性能,成本還有可靠性,這就成了一個“不可能三角”。02靈巧手的“不可能三角”性能、成本、可靠性在現場採訪中,我才知道一個可能會顛覆很多人認知的觀點:靈巧手的控制比整機控制要難10倍!在TetherIA位於矽谷的辦公室,我見到了他們一路以來設計的各種迭代版本,以及他們剛發佈上線的這款開放原始碼的靈巧手產品Aero Hand Open。在我自己真正上手嘗試去控制靈巧手之前,我都非常不理解,一個完整的人形機器人要平衡、要走路、要導航,怎麼可能比一隻手還簡單呢?但當我自己嘗試去控制這隻手的時候,發現真是沒那麼容易。Xu DongTetherIA聯合創始人兼CTO我們覺得這個難點其實是多方面的。因為機器人是一個複雜的系統,現在大家比較關注的是AI控制的層面,主要是VLA模型(Vision-Language-Action 視覺-語言-動作)的泛化能力,這毫無疑問是一個很大的難點。另外,我們覺得從整個整機系統角度來說,這個手的硬體本身也是很大的一個卡點。人手是非常靈巧的,它的相對尺寸很小,每個關節都很靈活,手指又非常纖細,還能做到速度和力量之間的平衡,並且特別經久耐用。我們人類主要是靠雙手和外界進行接觸,但在傳統的機器人裡,更多的是避免機器人和外界接觸,因為一旦接觸就是碰撞,對機器人就有損傷,而手恰恰需要和外界接觸,所以綜合起來,這些都是硬體上的難點。除了硬體和控制的難點,其實還有很多更不為外行所知的地方。比如,你在控制的同時,希望能夠讓human-in-the-loop(人機迴圈),讓人在其中對機器人產生影響和作用,這就牽扯到遙操系統,以及開發過程當中的模擬系統,以及背後整個體系。其實都有很多的困難。我在操作的過程中感覺到視覺與力量的協作,是非常關鍵的。由於我是完全感知不到觸感和力度,我抓握的完全是空氣,只能憑藉我的眼睛觀察靈巧手與物體的接觸反饋來及時調整。這就很像軟體驅動靈巧手的過程。我們知道,人類的抓握過程依賴於神經系統、肌肉控制和多模態感知。人類抓握力的調整分為兩個閉環控制:第一是前饋控制(Feedforward Control),也就是大腦基於視覺和經驗,在抓取前預測所需力量。例如,看見一瓶水時,大腦會預估重量,先設定一個初始抓力。第二個階段是反饋控制(Feedback Control),在手指接觸物體後,即時通過觸覺和滑動資訊進行調整。如果物體開始滑動,神經系統將在<100毫秒內反射性增加力量。這是一種快速的“感知和反應”的閉環。如果靈巧手要完全複製人手的這個反饋閉環,需要的不只是感測器和控制演算法的堆疊,而是一個更接近人類神經系統的分層控制架構。可以類比為“大腦控制”和“小腦控制”:大腦控制依賴視覺、經驗和推理,用於規劃動作和做出高層決策;而小腦控制則依靠觸覺、力反饋和即時的平衡調整,負責細節上的動態微調與協調。把多模態感測(力/力矩、觸覺、視覺)與感知—判斷—調整的閉環控制結合,再通過深度強化學習不斷最佳化整個系統的策略,真的是非常有挑戰的研發過程。所以在2023年年底,BC特斯拉的第二代人形機器人Tesla Optimus Gen 2發佈捏雞蛋的demo那麼受到關注,正是因為它基於視覺的“大腦”和基於力控的“小腦”在協作進步。雖然實現這一切很難,但要真正實現機器人在多場景下的應用,還真是得依靠靈巧手不可。這個邏輯很簡單:人類世界是為人類設計的。所有的工具、裝置、環境都是按照人的尺寸和能力來設計的。要讓機器人真正融入人類世界,最有效的方法就是讓它們具備類似人類的能力。所以,要想讓靈巧手真的走向產業化、還有一個難題要解決,那就是靈巧手的”不可能三角”。如果把機器人靈巧手比作一個三角形,那麼它的三個頂點分別是:性能、成本、可靠性,而這個三角形有個殘酷的特點:你只能最佳化其中兩個角,第三個必然會受到犧牲。而如果想要高性能,英國Shadow Robot公司的靈巧手就是完美的例子。它擁有超過120個感測器,可實現觸覺感知,擁有20個電動關節和24個自由度,其尺寸、形狀和運動范圍與人手相當,非常適合執行專為人手設計和最佳化的任務。但是,它的價格超過10萬美元!想要低成本?市面上有很多開放原始碼專案,比如DexHand和Amazing Hand,可以3D列印,成本能控制在300美元。但性能嘛...只能說是“擺造型”,抓取功能基本是沒法使用的,甚至一些入門級的商業產品在這方面也不足。想要高可靠性?那就得簡化設計,減少故障點。越複雜的系統,維護成本越高,故障率也越高。但這樣一來,性能又會大打折扣。Xu DongTetherIA聯合創始人兼CTO因為機械手每一個關節、每一個自由度的運動都需要有電機來控制,如果把電機做得很小,它的功率輸出和性能就會相應變弱。所以,要想匹配人手的自由度、人手的尺寸、以及人手的力輸出和速度,就是一個非常困難的“不可能三角”。這就像是在玩一個永遠無法獲勝的遊戲,除非你能夠找到突破這個三角形的新方法,而在產業中,大家一直在尋找這樣的方法來突破不可能三角,這也衍生出了靈巧手江湖中的6大門派。03技術流派大揭秘6大門派的江湖恩怨為瞭解決靈巧手的“不可能三角”,在機器人靈巧手的江湖裡,主要有六大門派,各自有著不同的武功路數:Chapter 3.1 直驅派:簡單粗暴的“搭積木選手”這一派的哲學很簡單:需要動那裡,就在那裡放個電機。就像韓國Wonik Robotics的Allegro Hand,16個自由度,16個電機,電機“一對一”服務;還有最新出的國產產品SharpaWave,Wuji Hand以及XHand,都是這個路線。這種設計的優點在於方便精細控制。缺點在於,電機驅動器體積小、抗衝擊差、不可反驅、指末端力輸出小,而且維護和維修都不太方便。Xu DongTetherIA聯合創始人兼CTO因為機械手每一個關節、每一個自由度的運動都需要有電機來控制,如果把電機做得很小,它的功率輸出和性能就會相應變弱。所以,要想匹配人手的自由度、人手的尺寸、以及人手的力輸出和速度,就是一個非常困難的“不可能三角”。Chapter 3.2 繩驅派:最接近人體的“仿生學大師”這一派的代表是特斯拉的Optimus和Shadow Robot。特斯拉大家都熟悉了,而Shadow Robot這家英國公司就像是靈巧手界的“勞斯萊斯”。近30年的技術積累讓他們在高端市場佔據統治地位,但高昂的價格也限制了他們的市場擴張。他們的設計思路最接近人體:把“肌肉”(電機)放在前臂,通過“肌腱”(鋼絲繩或高強度合成纖維)來控制手指運動。這就像是控制木偶一樣——所有的線都連到一個中央控制台,通過拉動不同的線來實現複雜的動作。這種設計的優點是輕量化、力量輸出穩定、具備一定自適應能力,而且佈局和人體更接近。特斯拉最新的Optimus手宣稱它擁有22個自由度,已經非常接近人手的27個自由度了。我們實地探訪的TetherIA他們現在推出的這款高性價比靈巧手也是採用的繩驅方案。但是,繩驅動也有自己的麻煩。Xu DongTetherIA聯合創始人兼CTO雖然特斯拉是堅定走“繩驅”路線——但是我們看到其實很多創業公司,真正跟隨特斯拉技術路線的並不多,而且很多人會質疑特斯拉。為什麼呢?我們覺得,因為“繩驅”最根本的優勢,就是剛才我介紹的,能夠實現比較好的力輸出和自適應。但它根本的劣勢在於,尤其是對於欠驅動來說,它沒有辦法實現精準控制。因為它是欠驅動,每個地方的力輸出會隨著自適應的情況不同而不同。這個時候,就需要我們能夠在軟體裡,對“繩驅靈巧手”的各個模組進行精準的建模。只有你很好地理解這個手在不同條件下會發生什麼樣的變化,你才可能實現精準的控制。Chapter 3.3 液壓派:追求極致力量的“暴力美學”加拿大Sanctuary AI公司就走的液壓驅動派系。他們的Phoenix機器人配備了21個自由度的液壓手,能夠產生強大的力量輸出。液壓系統的優勢是力量大、響應快、功率密度高,能完成高負載任務,但傳統上液壓系統都很龐大。Sanctuary AI的突破在於將液壓元件小型化到硬幣大小,並且經過了20億次循環測試而無洩漏。這就像是把挖掘機的液壓系統縮小到了手錶的尺寸,技術難度可想而知。不過,液壓系統依然面臨成本、維護、噪音和能效方面的挑戰,因此目前主要用於特定工業和研發場景。Chapter 3.4 連桿派:發揮機械美學的“優雅派”這一派的代表作是源自韓國研究團隊提出的ILDA靈巧手,通過精巧的連桿設計實現高自由度動作。它的哲學是:將驅動器全部整合在手掌內部,用連桿、搖臂、滑塊等機構把多個直線動作“分配”到多個關節,讓手指多個關節彎曲,擺出類似人類手指的各種姿態。這種方案的優點是結構緊湊、自由度高、外形優雅,充分展現了機械設計的美感;但它的缺點也很突出——抗衝擊性較差,在複雜或高負載場景下可靠性不足,導致整體實用性偏低。Chapter 3.5 混合派:工程師的“中庸之道還有一些設計嘗試將直驅、繩驅、連桿機構等組合起來,折中成本、重量和性能。例如一些開源或學術手就採用連桿+部分驅動的方案,用較少的執行器實現更多自由度,在科研和教學中很受歡迎。混合方案之前一直停留在學術研究領域,而TetherIA正在通過混合派路線,開發他們旗下的另外一款高自由度靈巧手方案。他們通過剖析人手的具體功能和結構(結合繩驅及拉桿方案),將上面提過的繩驅、拉桿等方案有機結合在一起,通過強大的工程化實現能力,開發出了一款既高效又可靠的高自由度靈巧手方案。Chapter 3.6 值得一提的“開源派”他們是亂拳打死老師傅——不拼技術精度,不比硬體豪華,而是用開放原始碼的方式打破行業壁壘。雖然單個產品可能不如Shadow Robot那樣精密,但它們的威力在於“群狼戰術”:把靈巧手的價格門檻做到最低,讓全世界的工程師都能玩得起靈巧手,從而反過來推動技術的進步。從DexHand到ORCA Hand,越來越多的開放原始碼專案正在降低技術門檻。這就像是Android系統對手機行業的影響一樣,可能會徹底改變遊戲規則。而TetherIA在研發一款高自由度、非常接近人手性能的靈巧手的同時,發現系統其實可以極致簡化,於是也做出了一款低自由度、但據說也是市面上性能最好之一的靈巧手。這款靈巧手已經在前陣子發佈,並全部開源,售價僅僅為300美元。團隊對我們說,他們這款靈巧手是極度任務導向的。雖然自由度較低,但能完成很多接近人手的任務。那我們就來看看,這雙手已經能完成那些複雜的任務。04四個Deomo背後的技術密碼接下來通過四個TetherIA的最新產品展示demo,我們來看看每個看似簡單的動作背後隱藏著什麼樣的技術挑戰。Chapter 4.1 抓取螺絲釘M5螺絲釘直徑只有5毫米,這個demo看起來簡單,實際上是對精細控制能力的終極考驗。Xu DongTetherIA聯合創始人兼CTO小物體的難度在於也是多方面的:一個是在於它的精準控制能力;另外一個是在於,當你抓小物體的時候,如果力輸出的方向沒有辦法很好的配合,往往會把小物體抓飛。這其實都體現了:既要有硬體設計上實現很好的自適應,以及力輸出的一致性,另外其實也是我們整個軟體系統要相應配合,實現對這個相對複雜的“繩驅靈巧手”的精準操作。Chapter 4.2 抓取大物件抓大盒子的挑戰完全不同。這時候,機器人手只有指尖的一小部分在接觸物體,就像是用指甲尖去抓握一個籃球。Xu DongTetherIA聯合創始人兼CTO因為這個盒子幾乎和機器人的手一樣大,因此必須非常精準地去抓住它。基本上這種情況下,你只能用指尖來施力,也就是靠機器手最後一節關節來提供力量。所以對於機械手來說,這樣的抓取就變得相當棘手。這個盒子的大小,已經是人手大小能夠抓的最接近的尺寸了。手的大小對於人類來說是限制,對於機器人靈巧手來說也是。但是你可以看到我們的靈巧手,對於處理這種接近它手大小極限的物體的時候也是沒有問題的。Chapter 4.3 開可樂開可樂是最讓人印象深刻的dem,因為它真正展現了機器人手的“人性化”特徵。Xu DongTetherIA聯合創始人兼CTO這是體現了我們硬體結構設計上的一些創新,以及我們對手的實用性的一些理解。我們覺得,其實人在很多情況下,指甲都起到很重要的作用。一個就是您剛才提到的可樂瓶,我們需要有一個自適應,能夠在狹小的空間裡實現相對較大的力輸出。另外,在生活中很多細節上,比如洗菜、做飯、剝菜的過程中,其實都會用到。我們這裡不僅僅是一個“指甲”,更重要的是手前端的設計,能夠用軟物質包裹,自適應,而且曲率非常接近人手的曲率,所以才能夠實現這些功能。我本來想使個壞,使勁搖晃了下可樂罐,本來想讓靈巧手給我開個“噴氣式”可樂的,但是...怎麼這麼平靜?這次使壞失敗,大家如果知道怎麼能讓可樂罐搖晃打開能噴出來的給我留個言,我下次再去找靈巧手試試。Chapter 4.4 拿iPhone——桌面操作的“終極考驗”這個看似最簡單的動作,實際上是技術含量最高的。iPhone緊貼桌面,手指必須伸入只有幾毫米的縫隙中,還不能與桌面發生硬碰撞。Xu DongTetherIA聯合創始人兼CTO我們發現iPhone其實是一個非常窄小的空間,需要在這個狹小空間裡使用比較大的力,並且拿穩。這個過程中有若干難點,其中一個難點是:很多靈巧手的末端設計,如果曲率是向外的,在抓的過程中,力的方向會斜向外,不容易抓穩。另外一個難點是:抓的時候,手指會不可避免地跟桌面接觸,從而增加靈巧手損傷的機率。我們的手能解決這些問題:一是有自適應過程,在抓的時候能夠調整力的方向,讓它抓穩並拿起來;二是因為我們是“繩驅”方案,讓手在接觸桌面的時候自適應,而不是直接碰撞和對抗,從而減少損傷。05AI大模型時代的靈巧手目前,我們正處在一個特殊的歷史時刻:AI大模型的突破為機器人技術帶來了前所未有的可能性。比如前面說的Vision-Language-Action(VLA)模型,就給機器人的“大腦升級”。傳統的機器人需要為每個任務編寫專門的程序,而VLA模型讓機器人能夠理解自然語言指令,並將其轉化為具體的動作。這就像是給機器人裝上了“翻譯機”——它能夠將“幫我倒杯水”這樣的自然語言翻譯成具體的動作序列。Xu DongTetherIA聯合創始人兼CTO我們發現我在做的過程當中靈巧手的操縱很大的一個難點,就是如何進行遙操。因為它的自由度比較多會比夾爪複雜很多,特別是對於我們繩驅的方案,所以我們基於這個痛點做了一款AI小腦,這個AI小腦在使用者操縱的過程當中能夠實現自適應,對於不同的任務,使用者並不需要精準地告訴操縱我們靈巧手的力輸出甚至力輸出的方向,手會給予任務來進行自適應的調整,極大的提高了這個遙操的絲滑程度。此外,Sim2Real(模擬到現實)技術正在解決機器人訓練的成本問題。在虛擬環境中,機器人可以進行數百萬次的試錯,而不用擔心損壞硬體。但是,模擬和現實之間總是存在差距。Evan TaoTetherIA聯合創始人兼CEO這個的確是機器人在做的過程中的一些難點,主要是在於,因為物理世界是非常複雜的,我們模擬的過程中肯定是簡化了很多的一些參數。比如像物體比較多的摩擦力、剛性、柔軟的程度,模擬的模型並不能夠很好的去體現。並且我們在物理世界設計機械手、生產機械手的過程也會有一些的誤差,所以這也是我們一直在克服的東西。這就像是在遊戲中練習開車和在現實中開車的區別——基本技能可以學會,但真正的路感還是需要實際體驗。不僅如此,甚至在硬體上,AI也在發力。機器人昂貴的一個原因,是它的供應鏈比較缺乏。很多這種驅動器都是專門為了機器人定製的,目前來說產量也比較低,所以整個行業的成本還沒有辦法做得非常便宜。並且,傳統機器人的設計是通過不斷提高產品的精度,來實現很多高級、炫酷的功能。但是現在有了AI的加持,對機器人硬體的精度要求就不會再繼續那麼高,所以整體的價格我們相信會越來越低。而TetherIA推出的這款繩驅方案的開源靈巧手,就是想讓硬體以便宜的價格被更多機器人和科技愛好者改採用,在此之上去更好的用AI開發軟體來加速靈巧手和機器人的技術進步。Xu DongTetherIA聯合創始人兼CTO我們這款低自由度的產品,是結合了我們在設計高自由度的過程當中,對於整個整體結構設計的一些經驗,然後並且採用了市面上主流的off-the-shelf(現成的)的這種電機,所以能夠做到極致的低成本。Evan TaoTetherIA聯合創始人兼CEO我們的計畫和特斯拉是不一樣的,因為我們不像特斯拉有那麼多的資金去完全投入在研發中,我們是要和我們的社群一起去成長的過程。為什麼我們對我們低自由度的手非常有信心,而且覺得會是一個爆款的產品,是在於我們通過300美金的硬體成本能夠做到超越別人幾千美金、甚至幾萬美金的產品的功能性。這樣的好處是,不僅僅是很多很頂尖的公司和很頂尖的科研院所可以使用這樣的產品,更多的愛好者也可以一起參與到這個靈巧手演算法的應用的開發過程中來。圖片來源:TechCrunch這就像是Google的Android策略——雖然蘋果的iOS可能在單個產品上更優秀,但Android通過開放生態獲得了更大的市場份額。而且通過開源硬體,全世界的研究者都成為資料貢獻者。06機器人走進家庭的前夜:從擁有一雙真正靈巧的手開始回顧機器人靈巧手的發展史,其實就是人類技術進步的一個縮影。我們從模仿自然開始,逐步理解其中的原理,然後用工程的方式去實現,最終可能會超越自然的原型。我們在採訪中發現,TetherIA的故事特別有意思,因為它代表了一種新的發展模式:通過開源降低門檻,通過眾包加速創新,通過生態建設推動產業發展。這就像是Linux對作業系統行業的影響,或者Android對移動行業的影響一樣。當然,從300多美元的開源版本到真正實用的家庭機器人,這中間還有很長的路要走。技術上的挑戰、成本上的壓力、應用場景的探索,每一個環節都充滿了不確定性。但是,正如受訪者在採訪最後說的那樣:我們相信五年之後,我們會看到機器人在很多地方部署,它不會是一個停留在視訊裡或者概念裡的東西,就像我們現在每天接觸ChatGPT一樣,它會真正在我們生活當中產生巨大的價值。也許再過數年,我們回頭看2025年,會發現這是機器人真正走向普及的起點。到那時,每個家庭都可能有一個機器人助手,能夠幫我們做飯、打掃、照顧老人、陪伴孩子。而這一切的起點,就是讓機器人擁有一雙真正靈巧的手。以上就是我們機器人系列的第一期的內容,之後我們還會走訪矽谷明星初創公司和一線研發機器人的團隊,從大腦、AI演算法、資料、腦機介面等多個維度來深度聊聊機器人如今的研發現狀。 (矽谷101)