科技頂尖,還是行銷鬼才?
影片生成模式Sora 橫空出世半個月後,仍在強勢刷屏。
這款AI 可以產生長達60 秒的高品質影片。最令人恐懼的是,其學習的對像不限於畫面、像素,Sora 也「學會」了一些影片中呈現的物理規律(例如人在雨後走過,水面有倒影)。因此,研發它的OpenAI 稱之為「世界模擬器」。
但很多人的疑問是:幾乎所有的科技巨頭都在All in 大模型,為什麼這次出圈的模型,又是來自OpenAI?
真正的偉大,無法被計劃
2015 年OpenAI 成立之初,對如何達成目標毫無頭緒。
公司的創辦人兼CEO 山姆‧奧爾特曼(Sam Altman)回憶道,最初這個團隊連辦公室都沒有,大家聚集在公寓裡,他腦子一直在想:我們該怎麼辦?
OpenAI 成立第一天的場景,奧爾特曼於2023 年1 月4 日分享在社群媒體X 上。
這種狀態持續了很久。OpenAI 成立一年多時,所有的事情都還進展緩慢。大家只是胡亂嘗試一通,鑽研了解決電玩的系統,在機器人技術上花費了大量精力,然後發幾篇論文。
奧特曼想起當時公司的景象時說:“我們知道我們想做什麼,我們知道為什麼要這麼做,但我們不知道該怎麼做。”
不過,這個團隊一直被一種樂觀力量所驅使,大家對於AGI 的瘋狂願景,讓事情在最終迎來了轉機。所謂AGI,即通用人工智慧,也就是像人類一樣完成複雜任務的AI。
這個願景人類期待了很久,奧特曼和他的團隊也是。
奧爾特曼8 歲時,父母送他一台電腦。一次玩到深夜,他的腦海中突然閃現出一個想法:「有一天,這台電腦將會學會思考。」 等奧爾特曼2003 年進入史丹佛大學就讀時,他仍想完成年少時的夢想,為此修了部分人工智慧的課程,但他覺得這些「根本沒什麼用」。
退學後,奧特曼進入科技孵化器Y Combinator 工作,28 歲時接任CEO。那時,電腦已經能透過深度學習和神經網路完成一些任務,例如為照片貼標籤、翻譯文字等。這些進步第一次讓他相信,AGI 是觸手可及的。
然而,把AGI 交到大公司手中讓他感到擔憂。奧特曼認為大公司會過於專注於自己的產品,而無法抓住機會盡快開發出通用人工智慧,即使他們真的開發出來,也可能很魯莽地將其公之於眾。
當時,奧特曼一直在考慮競選加州州長,但很快他意識到,他可以做一件更大的事:「領導一家可能改變人類的公司」。奧爾特曼開始尋找一些同行者,幫他共同創辦一家新型人工智慧公司。
彼時,馬斯克(Elon Musk)正因與Google聯合創始人拉里·佩奇的一場AI 討論,而倍感不快。馬斯克事後在CNBC 的一次節目中談到此事,佩奇認為機器人和人類應該擁有平等的權利,並指責自己是物種歧視者(speciesist)。這種對於AI 安全的「漠然」態度,讓馬斯克感到擔憂。
奧爾特曼和馬斯克一拍即合。幾個月內,奧爾特曼就從馬斯克和里德·霍夫曼等人那裡籌集了資金。奧特曼開始招兵買馬,他將招募範圍定得極窄:必須是AGI 的信徒。憑藉他本人和馬斯克的號召力,以及探索AGI 這套誘人的話術,奧爾特曼挖來了Stripe CTO Greg Brockman 和谷歌大腦核心科學家Ilya Sutskever 等人。
轉捩點出現在公司成立一年多後,OpenAI 先後等了一個人和一項技術。
一個人是傳奇AI 研究員Alec Radford。當他2016 年加入OpenAI 時,最大的興趣是讓神經網路與人類進行清晰的對話。
他先是透過20 億則Reddit 評論來訓練語言模型。和OpenAI 的許多早期實驗一樣,這個實驗失敗了,但這個23 歲的年輕人獲得了繼續前進、再次失敗的許可。Alec Radford 繼續使用1 億個亞馬遜評論訓練模型,去預測、產生評論中的下一個字元。這個模型能夠判斷評論是正面還是負面的,如果讓模型創造一個正面或負面的評論,它也能做到。“這完全是意外之喜”,辨別評論的情感是一個複雜函數,但不知為何,Alec Radford 的模型找到了一點感覺。
而OpenAI 等來的技術則誕生自它的競爭對手Google。2017 年初,一篇由8 位谷歌研究人員合著的研究論文預印本出現了,但並未引起人們的注意。這篇論文的正式標題是“Attention Is All You Need”,它後來被稱為“Transformer 論文”。Transformer 讓神經網路更有效率地理解和產生語言,透過平行分析語料,找出哪些元素值得關注。這極大地優化了產生連貫文字以回應提示的過程。後來人們意識到,同樣的技術也可以產生影像甚至影片。
雖然該論文後來被稱為當前AI 狂潮的催化劑,但在當時,Ilya Sutskever 只是少數幾個了解這一突破有多強大的人之一。Brockman 回憶道,Ilya 看到Transformer 出現時,驚訝地大喊:「這就是我們一直在等待的」。
之後,Alec Radford 開始試驗Transformer 架構。他表示,當時在兩週內取得的進展超過了過去兩年的進展。
Radford 和他的合作者為他們創建的模型起的名字是「generatively pretrained transformer」——這就是今天我們耳熟能詳的GPT 一詞縮寫的全名。最終,這個模型被通稱為「生成式AI」。該模型包含1.17 億個參數或變量,在理解語言和生成答案方面的表現優於之前的所有模型。
僅從事後的敘述來看,OpenAI 的成功彷彿是一步一腳印的,它把握住了所有關鍵時點,無一遺漏。但奧爾特曼仍然強調:“我們沒有總體規劃”,OpenAI 所做的一切就像“穿過迷宮到達終點”,而終點即是安全的AGI。
即便是對於GPT 的誕生,奧特曼也感到吊詭。他十歲時,對於AI 的想像遵循這樣的路徑:有機器人後,先體力再腦力;在初級腦力工作後,再會做複雜腦力工作,比如證明一個數學定理,最後才是擁有創造、寫作等深層次能力的AI。但「事實正朝著完全相反的方向發展」。
OpenAI 的科學家肯尼斯·斯坦利(Kenneth Stanley)和喬爾·雷曼(Joel Lehman)在近期出版的書籍《為什麼偉大不能被計劃》對此進行了高度總結:真正的偉大無法在計劃中誕生。
來自OpenAI 的科學家肯尼斯·斯坦利和喬爾·雷曼撰寫的書籍《為什麼偉大不能被計劃》
作者喬爾·雷曼在一次專訪中表示OpenAI 做了很多了不起的事,但ChatGPT 絕對不是OpenAI 成立之初的目標。OpenAI 的許多早期探索也與電子遊戲、多代理模擬(multi-agent simulations)和機器人有關,許多通往ChatGPT 的踏腳石都沒有把ChatGPT 當成最終目標。
某種意義上,ChatGPT 的緊急推出,也是一種行銷策略。
行銷踩點,OpenAI 搶走了谷歌風頭
OpenAI 成立之初,頗有一層與Google對抗的意味。奧爾特曼和馬斯克都認為:與其讓大公司控制少量的AI 系統,不如讓大量獨立的AI 系統同時存在予以製衡,人們可以根據開放的源代碼建立各自AI 系統。
彼時的Google確實是AI 領域的老大哥,ChatGPT 最初依賴的Transformer 架構即源自Google。但現在的OpenAI 至少在AI 領域,已有足夠的底氣和Google掰手腕。
最近一次商戰在2 月16 日。
當時,Google推出了據稱性能上超越GPT-4 Turbo 的Gemini 1.5 PRO ,而僅僅在兩小時後,OpenAI 就推出了Sora。Sora 推出後,奧爾特曼在社交媒體X 上在線接單,按照用戶給出的提示詞一連發布了8 條影片。此外,OpenAI 官方號還進駐TikTok 發布Sora 視頻,僅一周時間就收穫了超14 萬粉絲。這些方式進一步「炒火」了Sora。
很難說,這只是一種巧合。我們發現在Google推出某項新產品、新模型或新計畫後,奧特曼常常會從「武器庫」翻出一把利器。人們的目光便立刻從Google身上移開,並且不再回來。360 創始人周鴻禕對此表態:“OpenAI CEO 是個營銷大師,知道怎樣掌握節奏,他們手裡的武器並沒有全拿出來。”
這樣的例子並不鮮見。
谷歌在2023 年3 月22 日推出聊天機器人Bard,當被問及與ChatGPT 的區別時,Bard 就回复:“我不僅基於文本和代碼,並且有互聯網上的真實世界的信息作為支撐,因此我能夠做到ChatGPT 做不到的事」。僅僅兩天后,OpenAI 就宣布向部分用戶開放插件和連網功能。
到了2023 年5 月,Google和OpenAI 的擂台仍不休止。前腳是Google在開發者大會上宣布一系列AI 成果——推出據稱部分能力超越GPT4 的PaLM 2 模型、演示Bard 聯網,後腳OpenAI 就宣布向會員開放插件和聯網功能。
當然OpenAI 的行銷瞄準對象並不僅是谷歌一家。
OpenAI 在2022 年4 月小範圍內推出了文生圖模型DALL·E2,不過很快風頭就被開源的Stable Diffusion 和另一競爭對手Midjourney 蓋過。數以百萬計的用戶都在使用文生圖產品,一時間呈現出病毒式傳播的現象。
OpenAI 從中獲得的啟示是,向大眾公開生成式AI 產品,不僅能吸引大量用戶,收穫有價值的用戶數據,還可能引來更多資金。
谷歌搜尋趨勢顯示,OpenAI 推出的文生圖模型DALL·E,風頭很快就被對手Stable Diffusion 和Midjourney 蓋過。
那什麼樣的行銷事件能讓話題關注度迅速回來?
OpenAI 的答案是聊天機器人。
彼時,OpenAI 在GPT 4 上已經花了一整年,模型也基本上準備就緒。但是來自市場層面的壓力迫使OpenAI 調轉車頭,迅速發布一個聊天機器人。從計畫推出GPT 4 轉到做一款聊天機器人,僅僅十三天后,ChatGPT 就誕生了。
這種策略後來被稱為“迭代部署”,構建所謂的“最小可行產品”:先拼湊出一個很酷的演示,吸引一小群喜歡它的用戶,並根據用戶反饋進行改進,再把產品推向全世界。最終,如果夠幸運並且做得正確的話,這將吸引大量用戶,點燃媒體炒作週期的導火線,巨額資金將隨之而來。
這次出圈爆火的Sora 可以產生長達60 秒的高品質影片。令人恐懼的是,其學習的對像不再限於畫面和像素,它也「學會」了影片中所展示的物理規律。
Sora 使用一種新的Diffusion Transformer 模型,它融合了擴散模型與自迴歸模型的雙重特性。不過,在Sora 的技術文件裡,OpenAI 並沒有展開模型的技術細節,只有透露了諸如「patch(視覺補丁)技術」、「重新字幕技術」等拼圖碎片。
但是,一個核心理念-Scale 又被提及。文件寫道:Sora 基於的Diffusion Transformer 模型也是符合規模效應的(scale effectively),隨著訓練計算量增加,視訊品質顯著提升。
OpenAI 給出的小狗影片案例,可以看出Sora 在Scaling Law 下的效果提升。
這理念以Scaling Law(規模法則)的名稱為業界熟知。根據Scaling Law,模型效能會在大算力、大參數、大數據的基礎上像摩爾定律一樣持續提升,這不僅適用於語言模型,也適用於多模態模型。
OpenAI 是Scaling Law 的忠實信徒,將Scale 列為企業核心價值之一:「我們相信規模——在我們的模型、系統、自身、過程以及抱負中——具有魔力。如有疑問,擴大規模。 」
來自OpenAI 的科學家喬爾·雷曼在一次專訪中對此強調:有一條主線貫穿OpenAI 研究的始終,即規模——大型神經網絡、大數據、大量算力的重要性,很多人遲遲沒有意識到這一點。這項表述揭示了OpenAI 持續領先的另一個原因。
無論是一年多前風靡全球的ChatGPT,還是目前火出圈的Sora,再到OpenAI 早期爆發業內地震的GPT-3(有1750 億參數,一位圖靈獎得主稱“全宇宙無非是4.32 萬億個參數而已”),可以說都是Scaling Law 的產物——當模型足夠“大”,就會產生智能湧現的能力。
上圖展示了AI 模型正在朝暴力美學方向進行範式遷移,隨著時間推移,模型運算量指數級上升。
那麼,模型一定是越大越好嗎?如果數據量夠大、算力夠充沛,是否永遠觸不到上限?目前的觀點仍是莫衷一是的。
支持者認為,超大規模及足夠多元化的資料、超大規模的模型、充分的訓練過程,是讓AI 智慧「湧現」的必經之路。路途之中,可能會出現出人意料的驚喜,也可能是驚嚇。
反對者認為,大模型雖好,但其性能有上限,雖然這個上限尚不清楚。
最容易被人理解的原因是“數據是有限的”,一篇2022 年MIT 的論文給出了這樣的估算結論:高質量的語言數據將會在2026 年左右用光,低質量語言數據會在2030 到2050 年用光,低品質影像資料會在2030 到2060 年用光。
也有觀點認為大模型存在方向上的路線錯誤。此派觀點主要認為:大模型本質上只具有透過觀察進行因果歸納的能力,不具備因果演繹的能力。但是,AGI 應該是一個“能夠理解世界的模型”,而不僅僅是描述世界。
但問題在於,大模型訓練的「暴力美學」法則的可行性已人盡皆知,那為什麼這次文生影片最出圈的模型,又是出自OpenAI ?
一個現實因素是,Scaling Law 需要高昂的算力支出來支撐,而這正是OpenAI 比較擅長的。視訊模型的競爭最終也從拼團隊的調參能力,衍變到最後是拼算力。這便是OpenAI 走在前面的第三個原因:能拼算力,不缺錢。
OpenAI 前期的資金支持基本上都來自馬斯克。但在2018 年,特斯拉開始研究將AI 技術用於自動駕駛,而剛好OpenAI 已經有了顯著的技術突破。
馬斯克在當時提議,不如把整個公司交給他來打理──直接把OpenAI 併入特斯拉。但這個提議遭到奧特曼和其他高層的拒絕,於是雙方分道揚鑣,馬斯克撤走了他的全部投資,在一次全體會議上宣布自己會離開。會上,他預言OpenAI 將以失敗告終,他還稱至少有一名研究人員是「蠢貨」。
由於公司沒有收入,馬斯克撤資無疑是一場生存危機。雖然OpenAI 正在做的研究是矽谷最時髦的AI,但它是一家非營利機構,這無疑限制了它融資的吸引力。
2019 年3 月,OpenAI 想到了一個辦法。在保持非營利的同時,再創建一個營利實體。但這個營利部門的營收有一個上限——這個數字並沒有公開,從公司章程推測,可能高達數兆美元。在達到這個上限之後,營利實體所得的一切都要歸還給非營利的研究實驗室。
對OpenAI 來說,AI 研發是一個誇張的無底洞。創造大型語言模型的Big Transformer 方法需要大型硬件,GPT 系列的每一次迭代都需要指數級增長的算力,只有少數幾家公司有負擔的能力。
OpenAI 很快就鎖定了微軟。
奧特曼後來對記者表示,這是因為微軟CEO Satya Nadella 和CTO Kevin Scott 足夠有魄力:在花費了20 多年時間和數十億美元建立了一個所謂的尖端AI 研究部門之後,承認自己的工作一團糟,然後押註一家成立僅幾年的小公司。
微軟最初出資10 億美元,並提供當時全球排名前五名的超級電腦作為回報。但隨著雙方信心的增強,交易規模不斷擴大。現在,微軟已經向OpenAI 投入了130 億美元。
微軟也為自己爭取到了一大筆好處。根據財經媒體Semafor 報道,直到微軟收回投資前,都將獲得OpenAI 75%的利潤。在達到這項門檻後,微軟將擁有49% 的股份,OpenAI 的非營利母公司則持有2% 的股份。此外,微軟也獲得了OpenAI 技術獨家商業化授權,並且成功讓旗下雲端運算平台Azure 成為OpenAI 的獨家雲端服務商。
當然,根據交易條款,OpenAI 最初的一些理想——為所有人提供平等訪問權限——被丟進了垃圾桶。
在交易的過程裡,OpenAI 逐漸有了營利性機構的性質,這讓一些員工感到反感,幾位高階主管隨之離職,他們認為,OpenAI 已經變得過於商業化,偏離了最初的使命。
「凡有的,還要加給他,叫他有餘。凡沒有的,連他所有的,也要奪去。」馬太效應再次在OpenAI 身上得到應驗。
2023 年後,OpenAI 的強勢領先從模型本身開始落到了帳面上。根據金融媒體FT 在2024 年2 月的最新報道,OpenAI 最新年化收入突破20 億美元,這一水準與另一家科技巨頭Meta 相當。而在2022 年,OpenAI 的年化收入為0.28 億美元。不斷刷新的年化收入,沒人能看到OpenAI 的營收天花板。
此外,OpenAI 還拿到了目前生成式AI 領域的最多融資。
截至2023 年9 月30 日,微軟就向OpenAI 投資了100 億美元,佔了當時生成式AI 領域融資額的57.8%。
營收和融資如此強勁的OpenAI,還在廣泛進行策略性佈局。OpenAI 已經至少投資了19 家公司,範圍涉及機器人、程式碼編輯、新聞報導、交友育兒等多種垂直領域。此外,OpenAI 還收購了一家創意設計公司,全球照明(Global Illumination),以拓展生成式AI 的應用可能性。
而OpenAI 的每次大動作也使得一部分投身生成式AI 領域的創業小公司感到無窮危機。此次Sora 的推出,就被認為「吊打」先前爆紅的Pika 和Runway。
科技孵化器Y Combinator 一場討論,直接發出了靈魂提問:“OpenAI 會殺死所有創業公司嗎(Will OpenAI Kill All Startups)?”
時間回到2022 年底,答案似乎是顯而易見的。金沙江創業投資基金主管合夥人朱嘯虎對此表示,“ChatGPT 太強大了,對創業公司很不友善。”
當時,直接受到衝擊的企業大多生產基於GPT 二次開發的“套殼產品”,而明星獨角獸公司Jasper 就是其中之一。其業務是在GPT-3 的基礎上進行高精度的前端提示和互動介面設計,再利用行銷經驗對模型微調,產生文章。但ChatGPT 推出後,這模式完全翻船了。使用者可以使用自然語言與ChatGPT 對話。「中間商」不需要了。
不僅如此,OpenAI 的發展似乎開始偏離了他們的初心。
馬斯克就曾直接開砲,他為OpenAI 取了這個名字,意圖抗衡谷歌,“然而現在它卻變成一個不開源、追求最大化利潤的公司,並且還由微軟控制。”
而OpenAI 成立營利子公司,不再開源GPT 模式的做法,也使得更多人贊同了馬斯克的評價。難怪有人認為,OpenAI 已經不再「Open」。
先前的OpenAI「宮鬥」之爭,實質上也是關於AI 發展的「理念之爭」——到底是加速AI 的商業化進程,還是確保AI 的安全性再推向全世界。
因此,OpenAI 對人類走向通用人工智慧時代到底意味著什麼,仍是未知。(澎湃美數課)