矽基美女建模臉火了,對視 3 秒,我再也沒法把它當機器人

「人形機器人如果有最終形態,那一定會是有頭有臉,你覺得呢?」

3 月 22 日,一段 1 分 18 秒的視訊在社交媒體上引發了不小的震動。視訊裡,一個有著黑色長髮、面容精緻到讓人不安的仿生人形機器人,緩緩轉動頭部。

發佈這段視訊的是首形科技的創始人胡宇航,他在 X 平台上寫道:Bionic Humanoid Robot: Origin F1 — New Skins, New Souls。

RoboHorizon 雜誌評價 Origin F1 的面部表情「比某些政客還有說服力」。

這不是首形科技第一次出圈。去年 5 月,一段胡宇航與機器人對視的視訊就曾引發廣泛討論。但 Origin F1 好像又向前邁出了一步。

人臉是最古老的 UI

1984 年,蘋果發佈 Macintosh,用圖形介面取代了命令列。此後四十年,計算裝置的每一次革命本質上都是介面革命:滑鼠、觸屏、語音、手勢。硬體性能的提升固然重要,但真正改變人與機器關係的,從來都是互動方式的變化。

心理學中有個「55/38/7 定律」:55% 的情緒資訊來自面部表情,38% 來自聲音,只有 7% 來自文字。換言之,超過一半的情緒資訊是通過面部傳遞的。想讓人和機器人產生情感連接,一張能表達情緒的臉幾乎是必需品。

但人臉這個賽道,幾乎所有人形機器人都選擇了留白。

這也是胡宇航把人臉視為一個「平台」的原因。就像 iOS 不是 iPhone 的某個 App,而是所有 App 運行的基礎層——人臉是人類社交協議的基礎層。眼神接觸建立信任,微笑傳遞善意,皺眉表達疑慮。

從這個意義上說,人臉是人類最古老的作業系統。首形科技要做的,是把這套作業系統移植到機器人上。

首形科技F1 仿生人機器人頭部演示.來源:@野生Como

接下來從幾篇論文看看胡宇航是怎麼做的。

胡宇航是哥倫比亞大學機械工程系博士,師從 Hod Lipson 教授。Lipson 實驗室是全球機器人自我建模領域的先驅,從 2006 年就開始探索讓機器人通過觀察自身來學習運動。

2024 年 3 月,胡宇航作為第一作者在 Science Robotics 發表了關於面部「共表達」的論文。

這篇論文的核心想法很有野心:機器人不應該只是模仿人類的表情,而應該能預測人類即將做出的表情,並同步執行。

團隊設計了名為 Emo 的機器人頭部,配備 26 個驅動器,覆以柔性矽膠皮膚,瞳孔中嵌入高解析度攝影機實現眼神接觸。

訓練過程分兩步:先讓機器人對著鏡子做大量隨機表情,通過自監督學習建立面部自我模型;然後讓它觀看人類面部視訊,學習預測對話者的表情變化。

兩步過後,機器人能在人類微笑的瞬間同步微笑,而不是延遲模仿。

延遲模仿看起來虛偽,同步表達則讓人感覺彼此在同一個頻道上。

這篇論文驗證了超過 45 位人類參與者的資料。

胡宇航在多個訪談裡反覆提到「自我建模」這個概念。他不滿意當時主流的強化學習路徑,因為泛化能力太弱,還舉了一個例子:

教機器人打乒乓球,再教它打羽毛球,學完第二個就忘了第一個。兩個一起學,能力就被平均化了。

他想要的不是讓機器人收斂到單一任務,而是讓它學會一種「學習的能力」。

今年 1 月,更進一步的成果登上了 Science Robotics 的封面。

這次聚焦嘴唇運動。在人類面對面交流中,將近一半的視覺注意力集中在嘴唇上。但即便是最先進的人形機器人,嘴部動作仍然停留在簡單開合的層面。

胡宇航團隊設計了一個 10 自由度的唇部驅動機構,配合柔性矽膠唇部,能覆蓋 24 個輔音和 16 個元音對應的唇形。

演算法層面,他們採用了基於變分自編碼器(VAE)的自監督學習管線,結合一個面部動作 Transformer,讓機器人直接從語音音訊推斷唇部運動軌跡,無需任何手工編寫的音素-唇形對應規則。

最終實現了跨 11 種語言的唇音同步,包括說話和唱歌。

Lipson 教授當時說:未來不存在一個人形機器人沒有臉的世界。一旦它們有了臉,就必須讓眼睛和嘴唇正確運動,否則永遠停留在恐怖谷裡。

人形機器人更適合提供情緒價值

看一眼當前人形機器人賽道:靈巧手擰螺絲、跳舞、騎車。幾乎所有頭部公司都盼望著在不久的將來用人形機器人替代藍領工人,切入製造業和物流場景。

但工業自動化的機器人天生就是為特定任務最佳化的,三個電機完成一個動作,效率極高,穩定性極強。人形機器人做同樣的事情需要二三十個電機協同,價格更貴,更不穩定,續航更短,還會摔倒。

摔倒是危險的。

一台花了幾十萬、長得像人的機器,在工廠裡幹著原本三萬塊機械臂就能幹的活不能稱之為技術革命,更像是行為藝術。

整個行業在「人形」這個詞上投入了大量資源,卻在「人」這個字上集體失語。

沒有臉的人形機器人能完成任務,但無法建立關係。而關係,才是 C 端市場的入場券。

首形科技選擇了一條完全不同的路徑。與其讓機器人在生產力上跟工業機械臂硬碰硬,不如讓它做工業機械臂永遠做不到的事——建立情感連接

胡宇航的核心判斷是:在未來五年內,人形機器人最大的商業化機會不在生產力,而在情緒價值

人天然會對像人的東西投射情感。你看到一個機器人摔倒了,你會心疼;看到機器人踢足球擠在一起,你覺得有趣。這種投射是本能的,不需要機器人真的有意識或感受。而人臉把這種投射放大到了極致。

2024 年 6 月,他在上海創立首形科技,團隊不到十人。四個月後獲得天使輪,投資方包括奇績創壇、智元機器人和德迅投資。

此後融資節奏快得驚人。2025 年完成四輪融資,從招商局創投和深創投領投的Pre-A輪,到順為資本領投的A輪,再到螞蟻集團兩度領投……

從產品線來看,首形目前有幾個系列。

Elf 系列是全身仿生人形,有 30 個面部自由度,用無刷微型電機驅動矽膠皮膚。

Origin 系列偏研究和展示用途,Origin M1 是半身版,配備唇音同步和頭眼協調能力。最新亮相的 Origin F1 則是他們技術的集大成者,搭載了所謂的 Omni Model,實現即時面部微表情與語音的深度融合。

此外還有一個更平價的 Lan 系列,定位為需要更多移動性的場景。

去年 12 月,首形科技和手游逆水寒在杭州 CP32pre 漫展聯合推出遊戲角色仿生機器人「方承意」。據報導,得益於雙目視覺系統,他能夠與面前的觀眾進行眼神交流,並通過搭載的 AI 仿生運動演算法,做出自然的表情與頭部動作。

更早,首形科技曾和逆水寒合作推出過精靈·璇機器人。精靈·璇後以新皮膚亮相抖音新春聯歡會,獻上了原創情歌《未定義的關係》。

落地方面,胡宇航曾提到過幾個方向。短期來看,生活中有大量情緒消耗型的工作:銷售、前台、服務人員。這些崗位本質上是對人類情緒的持續損耗。每天保持微笑,不厭其煩地解決重複問題。他覺得 2 到 3 年內,類人形態的機器人可以替代其中一部分。

更遠的終局是 To C。讓每個人身邊都有一個能產生情感陪伴的仿生機器人。胡宇航沒有迴避這個目標的爭議性。當一個 AI 永遠在取悅你,沒有衝突,沒有自私的動機,它會不會把人困在虛假的關係裡?

他說他們在訓練機器人時會加入保持真實度的參數,讓它有一定的衝突和自我表現,不純粹是一個情緒按摩器。同時可以在程序中注入引導功能,比如節日到了提醒你回家看看父母,周末建議你和朋友去爬山。機器人不應該有佔有慾。

這些想法當然還很早期。但覺得至少有一點是對的:情感需求的市場比大多數人想像的要大。手辦、盲盒、毛絨玩具、寵物,這些都是情緒寄託的載體。

泡泡瑪特一年賣出上百億的 IP 衍生品,證明了人們願意為不具備任何實用功能的東西付費,只要它承載了某種情感價值。

如果一個機器人能用人類的方式回應你的情緒,它的上限顯然不止於此。

托福考了 9 次的人

胡宇航高考考砸了,入學後開始拼了命地證明自己,每學期專業第一,主修課全滿分。但決定出國時,第一次托福只考了 40 多分,而基準線是 100 分。他在申請截止前的窗口期考了 9 次托福、3 次 GRE。最後一次終於過線。

他回憶這段經歷時說:我覺得可能是未來的我,幫了一下過去的自己。

過去的求學經歷也解釋了他身上一種很特別的氣質。他說自己最看重的品質是韌性。招人的時候,他偏向看一個人的經歷是否充滿挫折。

他特別喜歡打比賽的人,喜歡 RoboMaster 機甲大師出來的那群孩子。因為他知道打比賽太苦了,你得犧牲所有休息時間,還要在比賽前一晚九點裝置突然壞了的時候硬著頭皮排查到凌晨六點。

他自己就有過這樣的經歷:無人避障小車比賽前夜,紅外感測器干擾導致整塊板子癱瘓,老師都說算了,他不肯。排查到凌晨,最後趕在發車前修好了。

他在管理上也有些不太常規的做法。比如他從來沒跟員工聚過餐。他說他擔心聚餐會把酒桌文化和不必要的社交壓力帶進公司。他希望大家是因為熱愛工作聚在一起,而不是被輩分感繫結。

他接受現階段能真正相信人臉機器人有用的人是極少數。很多人加入是為了名利或者覺得成功率高。但有一個底線:你可以懷疑方向,但不能在內部一邊拿薪水一邊到處說方向不行。

我在他的視訊和社交媒體表達中感受到一種罕見的坦率。B 站粉絲叫他 U 航,管自己叫電子股東。

有人問為什麼視訊大多展示外觀而很少展示互動,他說:有沒有可能不是因為短板,而是因為我們不想過度展示優勢?競爭太激烈了,有些大招還是要藏著。說完又補了一句:不過說實話,我們也沒有刻意規劃。

說到底,首形科技今天做到的事情,在兩年前是不可想像的。2024 年創業初期,投資人看到他的原型機器人,第一反應是:這玩意能幹啥?還有人問:美國有對標公司嗎?因為美國沒有做,所以覺得沒意義。而現在,大家 180 度轉彎,變成了:你這個產品什麼都能幹。

人形機器人如果有最終形態,胡宇航說,那一定會是有頭有臉。

我不確定他是對的。但我確定的是,一旦你和 Origin F1 對視超過三秒,你就很難再把它當成一台機器了。 (APPSO)