#AI大戰
關於矽谷AI大戰的現狀,這篇文章講清楚了
SemiAnalysis創辦人Dylan Patel認為,Meta正全力追逐「超級智慧」;蘋果或因文化與資源劣勢在AI人才爭奪中掉隊;OpenAI與微軟的IP控制權之爭暗藏隱憂;輝達雖強勁,但策略失誤讓A​​MD有機可乘。此外,他不太看好裝置端AI,認為未來核心AI能力仍在雲端。白領工作將受AI衝擊。而OpenAI和Meta將領跑「超級智慧」競賽。近日,Dylan Patel參加了Matthew Berman的播客訪談節目,對目前「矽谷AI大戰」進行了深度而富有洞察的剖析。Dylan Patel 是一位在半導體和人工智慧領域有著深厚見解的專家。他創辦了SemiAnalysis,一家提供深入技術分析和市場洞察的機構。 Patel 以其對晶片產業、AI模型發展趨勢、以及大型科技公司策略佈局的獨到見解而聞名。Dylan Patel認為,近期Meta收購Scale AI並非重視其日漸「過氣」的資料標註業務,而是為了Alexandr Wang及其核心團隊。Wang的加入標誌著祖克柏在AI策略上的重大轉變,從先前的“AI很好,但AGI不會很快實現”轉變為全力追逐“超級智慧”,因為他意識到Meta在該領域已經落後,需要“迎頭趕上”。而蘋果在吸引頂級AI研究人員方面存在劣勢,因為他們無法提供像Anthropic或Meta那樣具有吸引力的企業文化、高薪資和充足的運算資源。對OpenAI而言,Patel認為更大的隱憂在於微軟對IP的控制權。微軟理論上可以在AGI實現的前一刻擁有所有的IP,這為OpenAI的研發人員帶來了巨大的不確定性。輝達憑藉其卓越的硬體互聯和成熟的軟體生態系統構築了強大的護城河。然而,輝達也面臨挑戰。其近期收購Lepton並推出DGX Cloud,直接與雲端服務商競爭,引發了部分雲端服務商的不滿,導致他們開始轉向AMD。Dylan Patel將此視為輝達的「重大錯誤」。在裝置端AI方面,Dylan Patel表達了悲觀的看法。他認為,儘管裝置端AI在安全和低延遲方面有優勢,但消費者對價格的敏感度更高,更傾向於使用免費的雲端AI服務。他預測,裝置端AI的應用將主要限於低價值、輕量級的任務,例如在可穿戴裝置上進行圖像識別或手部追蹤,而複雜且有價值的AI功能仍將依賴於雲端。蘋果本身也在建置大型資料中心,顯示其也認知到雲端是AI發展的關鍵方向。Patel認為,儘管許多公司聲稱自己在做不同的事情,但底層技術和方法大致相同,即都是在預先訓練大型Transformer模型並進行強化學習。他提到了「重寫人類知識語料庫」的重要性,因為現有資料中存在大量低品質資訊。他認為Grok 在處理即時事件和時事資訊方面具有優勢。Dylan Patel認為,AI的最終目標是減少人類工作時間,雖然可能導致少數人過度工作,而多數人工作更少。AI最先衝擊的是白領創意工作(如平面設計師),而非體力勞動,這與人們的普遍認知相反。他預測,未來AI將承擔更多長期、複雜任務,最終可能完全脫離人類稽核。關於時間線,他認為十年內將20%工作自動化不太可能,更可能發生在十年末或下個十年初。誰將贏得超級智慧競賽? Patel認為,OpenAI 領先,Meta 將緊隨其後。他相信Meta有能力吸引到足夠的頂尖人才,從而在超級智慧競賽中脫穎而出。「如果超級智慧就是一切,那麼1億美元,甚至10億美元,與Meta目前的市值以及人工智慧的整體潛在市場相比,都只是滄海一粟。”「去Meta的人,很多顯然是為了錢,但也有很多人離開(原有崗位),是因為他們現在能掌控一家市值兆美元公司的AI發展路徑。他們可以直接與祖克柏對話,並能說服一個對整個公司擁有完全投票權的人。”“OpenAI的估值會持續飆升,因為他們正在建構的東西短期內並無盈利計畫。…所以在這個整個過程中,他們會一直虧損,需要不斷籌集資金,還得能夠說服全球的每一位投資者。而且這些條款既不光彩、不簡潔,也不易理解。”「GPT 4.5 Orion是出了什麼問題嗎?這就是他們內部所說的、他們希望能成為GPT 5的東西……總體來說,它沒那麼實用,速度太慢,而且和其他模型相比成本太高。”「這也是我有時會用到Grok的另一個領域:時事。你可以向Grok提問,它能比Google搜尋、甚至Gemini或OpenAI的查詢更準確地告訴你發生了什麼,因為它可以獲得所有這些資訊(X的資料)。”“就蘋果而言,他們在吸引AI研究人員方面一直存在問題,這些研究人員喜歡誇誇其談,喜歡發佈和發表自己的研究成果。蘋果一直是一家神秘的公司。”「即便你有優秀的人才,由於組織問題,要真正做出好的成果也很有挑戰性,因為合適的人沒有處在合適的位置,決策者可能選錯了人,讓他們搞政治,把他們的想法和研究路徑納入模型,而這些想法不一定是好主意。”「總體而言,我對裝置端AI持悲觀態度,並不看好它。安全固然很棒,但我瞭解人類心理:免費比付費好,有廣告的免費模式比單純的安全更有吸引力。其實沒多少人真正關心安全問題。”「裝置端AI的一個重大挑戰在於硬體限制。模型的推理速度取決於晶片的記憶體頻寬。如果我想增加晶片的記憶體頻寬,硬體成本可能要增加50美元,這最終會轉嫁給客戶,導致iPhone貴上100美元。”「裝置端AI真正發揮作用的場景,會是在可穿戴裝置上,比如耳機或智能眼鏡。你在本地做的都是些零碎的小事,比如圖像識別、手部追蹤,但實際的推理和思考是在雲端進行的。”「AMD確實很努力,但他們的硬體在某些方面比較落後,尤其是與Blackwell相比。他們面臨的真正挑戰是軟體,開發者體驗並不出色。輝達能夠透過晶片上搭載的NVLink網路硬體將GPU連接組網。輝達建置伺服器的方式能讓72個GPU非常緊密地協同工作,而AMD目前只能訓練8個。「輝達最近犯了一個重大錯誤:收購了Lepton公司。現在輝達收購了這家開發軟體層的公司,並正在研發名為DGX Cloud的產品。這意味著,如果任何雲端服務商有閒置的GPU,可以將其作為裸機交給輝達,輝達會在上面部署Lepton的軟體並將其出租給用戶。這讓輝達“我不認為在這十年內,會有20%的工作被自動化。我感覺可能要到這個十年末或下個十年初,才能實現20%工作的自動化。”「人工智慧理應讓我們的工作時間變得更少。未來可能會出現一種情況:像我(可能還有你)這樣的人工作過度,而普通人的工作時間則少得多。”“誰將贏得超級智能競賽?OpenAI。他們總是第一個取得每一項重大突破,甚至在推理方面也是如此。”“我認為Meta會吸引到足夠多的優秀人才,從而真正具備競爭力。”以下為訪談全文,內容由AI翻譯:01. Meta Llama 4和被推遲的「巨獸」項目Matthew Berman:迪倫,非常感謝你今天能來和我一起。我真的很興奮能和你交談。我看過你做過不少演講和訪問。我們要談很多事情。我想先談的是Meta。讓我們從Llama 4開始。自從那款產品發布以來,在AI領域已經過了一段時間,但當時人們充滿了期待。還不錯,但不算很棒。當時它並沒有改變世界。然後他們推遲了巨獸項目。你覺得那裡正在發生什麼事?Dylan Patel:這很有趣。大概有3種不同的型號,而且它們都有很大差異。巨獸項目被推遲了。我實際上認為他們可能永遠不會發布它。它存在著許多問題,他們訓練它的方式,以及他們所做的一些決策都沒有達到預期效果。還有馬弗裡克和斯考特。實際上,其中一個模型還不錯。相當不錯。它發佈時並非最佳,但與發佈時的最佳中國型號相當。但後來,阿里巴巴推出了新車型,深海也推出了新車型。於是情況更糟了。另一個客觀來說就是很糟糕。我確切知道,他們訓練它是為了應對深度搜尋試圖更多地使用深度搜尋架構的元素,但他們做得併不恰當。這真的只是個倉促的活兒,而且搞砸了,因為他們在Moe的稀疏性上用力過猛。但有趣的是,如果你真的查看模型,它往往甚至不會將標記路由到某些專家那裡。基本上就像是一種訓練的浪費,在每一層之間,路由器可以路由到它想要的任何專家,它會學習路由到那個專家,而每個專家也會學習。這就像擁有獨立的事物。這真的不是人們能觀察到的東西。但你能看到的是代幣。他們會將那些專家路由到那裡,或者當他們通過模型時,就好像其中一些根本沒有被路由到。就好像你有一堆無所事事的空專家。顯然,培訓方面有問題。Matthew Berman:這在內部算是一種專業技能方面的事嗎?我的意思是,他們肯定擁有世界上一些最優秀的人才,我們接下來會談到他們最近的招募舉措。但是為什麼他們一直沒能真正做到呢?Dylan Patel:我覺得這是各種事物的結合與匯聚。他們有大量的人才,也有大量的運算資源。但人員的組織安排始終是最具挑戰性的事。那些想法實際上是最好的?誰是那個挑選最佳創意的技術負責人?這就好比如果你有一群優秀的研究人員,那真是太棒了。但如果在他們之上安排產品經理,卻沒有技術負責人來評估該如何選擇,那就會有很多問題。OpenAI,山姆是個很棒的領導者,他能獲得所有資源。但是技術負責人是格雷格·布羅克曼。而且格雷格·布羅克曼正在做很多決策,還有很多其他的人,就像馬克·陳和其他類似的技術領袖一樣,他們實際上在決定,從技術角度來說我們該走那條路,因為研究人員會進行他們的研究,他們會認為自己的研究是最好的。是誰在評估每個人的研究,然後決定那個想法很棒,那個想法很糟糕。咱們別用那個了。這真的非常困難。當研究人員沒有一位技術過硬、能夠做出選擇,而且真的能做出正確選擇的領導者時,最終就會陷入困境。我們確實有所有正確的想法。但AI研究的一部分在於,你也會有各種錯誤的想法,你從這些錯誤想法中學習,然後產生正確的想法,並做出正確的選擇。現在,如果你的選擇非常糟糕,實際上你選擇了一些錯誤的想法,然後你走上了某種研究的分支,會怎麼樣呢?就像你選擇了這個餿主意一樣,這是我們要做的事。咱們再往下去。然後現在你會想,從這個餿主意衍生出來的,還有更多的研究。因為我們不會回頭撤銷我們所做的決定。每個人都在說,我們做了那個決定。好吧,讓我們看看從這裡能研究出什麼。於是你最終會面臨這樣的情況,即優秀的研究人員可能在浪費他們的時間。我走的路不對。研究者常提及一種東西,那就是品味。這很有趣。你覺得這些就像那些渴望成為國際數學奧運選手的人一樣,那就是他們成名的途徑。但當他們像青少年時,19歲就去OpenAI或其他公司,或是Meta或其他地方工作了。但實際上這裡面涉及到很多品味問題。在某種程度上,判斷什麼值得研究、什麼不值得研究是一種藝術形式。這是一種選擇最佳方案的藝術形式,因為你在這個尺度上把所有這些想法都羅列出來,然後突然你就會想,現在我們就來,那些實驗都是用100個GPU完成的。太棒了。現在讓我們用100,000個GPU運行一次。有了這個想法,就好像,事情並非總是能完美地轉換。這裡面有很多個人品味和直覺的成分。並不是他們沒有優秀的研究人員。就好像很難說誰選的口味是對的。就像你不在乎影評人的評價,你在乎的是爛番茄,也許是觀眾評分。而且就好像,你到底在聽那位批評家的意見?即便你有優秀的人才,由於組織問題,要真正做出好的成果也很有挑戰性,因為合適的人沒有處在合適的位置,決策者可能選錯了人,讓他們搞政治,把他們的想法和研究路徑納入模型,而這些想法不一定是好主意。02. ScaleAI 收購案與Meta的「超級智慧」野心Matthew Berman:讓我們來探討一下誰在做決策。上周有很多新聞報導,祖克柏給了1億美元的報價,山姆·奧特曼也證實了這一點。 Meta收購Scale AI,似乎是衝著亞歷山大·王(Alexandr Wang)及其團隊去的,他正處於創始人模式。那麼,Scale AI的收購究竟為Meta帶來了什麼?Dylan Patel:我覺得從某種程度上來說,AI數據標註業務現在有點「過氣」了。Matthew Berman:作為一項服務,因為各家公司都在取消訂單。Dylan Patel:是的,Google要退出了。我聽說Scale AI今年和他們有約2.5億美元的合作,但他們卻要退出。顯然,Google已經投入了大量資金,計畫也已騎虎難下,但這些投入會大幅縮減。據說OpenAI也切斷了與外部的Slack連接,所以現在Scale AI和OpenAI之間不再有任何聯繫了。Matthew Berman:公司之間的徹底決裂。Dylan Patel:是的,所以(像OpenAI這樣的公司)不希望Meta知道他們如何處理數據,因為模型的獨特之處就在於你想用自訂數據做什麼。 Meta收購Scale AI並不是為了Scale AI這家公司本身,而是為了得到亞歷山大和他幾位最核心的同事。 Scale AI還有其他一些非常出色的人才,Meta將他們一併招入麾下。Dylan Patel:目前的問題是,Scale AI帶來的數據是否優質?瞭解所有這些其他公司正在進行的各種數據標註路徑固然有益,但更重要的是,Meta想找個人來牽頭這項超級智慧(Superintelligence)的工作。亞歷山大·王和我年紀相仿,大概28或29歲。他在各方面都取得了驚人的成功。人們可以不喜歡他,但他顯然非常成功,尤其是當他說服馬克·祖克柏——一個非常理智和聰明的人——買下他的公司時。這家公司的營收差不多有10億美元,而他卻說「我們去追求超級智慧吧」。這(對祖克柏而言)是一個巨大的轉變。如果你看祖克柏幾個月前的採訪,他當時並沒有在追逐超級智能,他只是在宣揚AI很好、很棒,但認為通用人工智慧(AGI)不會很快實現。所以這在策略上是一個重大轉變,因為他現在基本上是在說:“超級智能才是最重要的,我相信我們正在朝著這個方向前進。現在我該怎麼做才能迎頭趕上?因為我落後了。”Matthew Berman:似乎所有這些大公司的敘事現在都轉向了“超級智慧”,即便在一個月前還是“通用人工智慧”(AGI)。為什麼會有這種轉變?Dylan Patel:AGI這個字沒有明確的定義。Matthew Berman:是的,含義多變。Dylan Patel:你可以直接問一位人類研究人員“AGI是什麼意思?”,他們可能真的認為這僅僅意味著一個自動化的軟體開發人員,但這並不是通用人工智慧。生態系中的許多研究人員都這麼認為。伊利亞·蘇茨克維(Ilya Sutskever)是第一個洞察這一切的人,然後他創辦了自己的公司Safe Superintelligence(SSI)。我認為這開啟了(產業)品牌重塑的趨勢。幾個月過去了,差不多九個月到一年後,大家都在說「哦,超級智能是現實了」。所以這是另一個由伊利亞首先提出的研究方向,就像預訓練擴展、推理網絡等,他即便不是首創者,也為此付出了很多努力。這種品牌重塑,或許說明他也懂行銷。Matthew Berman:有傳言說,祖克柏曾試圖收購SSI,但被伊利亞拒絕了。我還想問你關於丹尼爾·格羅斯(Daniel Gross)和納特·佛里曼(Nat Friedman)的事。這些謠言現在可能已得到證實,祖克柏似乎也試圖聘請他們。這兩個人能帶來什麼?Dylan Patel:祖克柏試圖收購SSI,他也試圖收購Thinking Machines和Perplexity。這些都見諸於一些媒體報導。具體來說,流傳的謠言是馬克試圖收購SSI,但伊利亞顯然拒絕了,因為他致力於實現超級智能的核心使命,並不為產品發愁,而且他​​可能並不太看重金錢,他主要專注於構建它,在各方面都是一個真正的信徒。他很可能擁有足夠強大的投票權和控制權來說「不」。如果關於丹尼爾·格羅斯的傳聞屬實,那麼很可能是他想促成這次收購。他會說,這是一個超棒的創辦人。另一位創辦人納特並非來自AI研究背景,但他和丹尼爾一起有自己的創投基金,並共同創立了SSI。他可能希望進行收購,但最終沒有實現。我猜測,如果他(丹尼爾)真要離開,很可能就是因為(在收購SSI這件事上)產生了分歧和裂痕,所以他要繼續前進。總的來說,當你觀察許多非常成功的人時,會發現成功的關鍵並非金錢,而更多的是權力。去Meta的人,很多顯然是為了錢,但也有很多人離開(原有崗位),是因為他們現在能掌控一家市值兆美元公司的AI發展路徑。他們可以直接與祖克柏對話,並能說服一個對整個公司有完全投票權的人。這其中蘊含著巨大的能量。他們可以在數十億用戶中實施他們想實現的任何AI技術,無論是基礎設施、研究還是產品。對於像亞歷山大·王、納特·佛里曼或丹尼爾·格羅斯這樣更專注於產品的人來說,這樣做非常有意義。納特打造了GitHub Copilot,他是個產品人,而不是AI研究員,儘管他對AI研究瞭解很多。同樣,亞歷山大顯然對研究非常精通,但他的超級技能在於與人打交道、說服他人和組織協調,而在研究本身方面可能沒那麼突出。在Meta,他們擁有所有的資源和權力去做很多事情。山姆·奧特曼也提到,Meta一直在向其頂尖研究人員提供數億美元的offer,但頂尖研究人員中沒有一人離開。我想問,光靠砸錢來解決問題、聘請最優秀的人才,這是一個成功的策略嗎?感覺文化元素可能會缺失。在OpenAI,有許多真正的信徒,他們為使命而工作。光是投入資金並吸引最優秀的研究人員,就足以營造出那種文化氛圍嗎?這要看你怎麼想。如果你認為超級智慧是唯一重要的東西,那你就必須去追求它,否則就是失敗者。馬克·祖克柏當然不想成為失敗者,而且他認為自己能建成超級智慧。於是問題變成,你該怎麼做?答案就是去嘗試招募最優秀的團隊,例如Thinking Machines,那裡有所有來自前OpenAI、Character.AI、Google DeepMind、Meta等公司的傑出研究人員和基礎設施人員。 SSI也是一樣,是伊利亞和他招募的人。 Meta試圖從這些公司招募人員,也試圖收購這些公司。當那條路走不通時,你就會和像亞歷山大這樣人脈極廣、能幫你組建團隊的人合作,然後立刻開始組建團隊。14:28 這和收購像SSI這樣員工人數遠少於100人的公司有什麼不同?我覺得SSI的員工甚至不到50人。花300億美元收購,就像在說:「我們為每個研究人員花了數億美元,給伊利亞本人就花了100多億美元。」這和你現在(單獨挖人)做的是同樣的事情。至於山姆所說「沒有頂尖研究人員離開」這一點,我認為這並不準確。最初肯定有頂尖研究人員離開了。而且你說的是1億美元,實際上,我聽說OpenAI有一個人的身價超過了十億美元。不管怎樣,這些錢數額龐大,但這和直接收購其中一家公司是一回事。像SSI或Thinking Machines都沒有產品,你收購它們就是為了人才。如果超級智慧就是一切,那麼1億美元,甚至10億美元,與Meta目前的市值以及人工智慧的整體潛在市場相比,都只是滄海一粟。03. 微軟與OpenAI:從蜜月到“療法”Matthew Berman:我想稍微談談微軟和OpenAI的關係。我們似乎早已度過了蜜月期,現在他們的關係確實處於一種動盪不安的狀態。Dylan Patel:現在它成了一種療法。Matthew Berman:是的,絕對是。Dylan Patel:告訴我你們的感受,山姆和薩提亞。Matthew Berman:這就是心理治療。這是兩個人,他們有關係,這種關係似乎有點破裂。 OpenAI的野心似乎沒有邊界。微軟現在是否在考慮調整交易? OpenAI呢?微軟似乎沒有理由這麼做,但你覺得接下來這段關係的動態會如何發展?Dylan Patel:OpenAI如果沒有微軟,就不會擁有今天的成就。微軟簽署了一項協議,藉此獲得了巨大的權力。這是一個很奇怪的交易,因為一開始他們想做非營利組織,並且關心AGI(通用人工智慧),但同時,為了拿到錢又不得不放棄很多。微軟不想捲入反壟斷相關事務,所以他們把這筆交易的結構設計得很奇怪。有收益分成、有利潤保障,還有各種不同的東西,但沒有任何地方寫明:你擁有公司X%的股份。他們的分成比例,我一下子想不起來了,但大概是20%的收入分成,49%或51%的利潤分成,直到我達到某個上限。然後,微軟擁有直到AGI實現之前所有OpenAI的IP(智慧財產權)權利。所有這些東西都非常模糊不清。利潤上限可能是10倍左右。再說一遍,我現在是信口開河,有段時間沒關注了。但就好比微軟投入了約100億美元,而OpenAI有個10倍的利潤上限,這意味著如果微軟能從OpenAI獲得1000億美元的利潤,那他們現在還有什麼動力去重新談判呢?在那之前,OpenAI得把所有利潤或一半利潤都給他們。他們獲得20%的收入分成,並且在AGI實現之前可以使用所有的OpenAI IP。但是,AGI的定義是什麼呢?理論上來說,OpenAI的董事會可以決定何時達到AGI。但如果真發生這種情況,微軟會把他們告得傾家蕩產,而微軟的律師比上帝的還多。所以這是一種瘋狂的交易。對OpenAI來說,裡面有一些確實令人擔憂的事情。他們已經去掉的主要內容之一是,微軟曾經非常擔心反壟斷問題,也就是OpenAI必須獨家使用微軟的運算資源。他們去年放棄了這項條款,然後今年宣佈了「星際之門」(Stargate)的合作。也就是說,OpenAI將流向甲骨文(Oracle)、軟銀、CoreWeave和中東,用於建立他們的「星際之門」叢集,也就是他們的下一代資料中心。當然,他們仍然從微軟那裡獲得大量資源,但也從「星際之門」獲得了大量資源,主要來自甲骨文,但其他公司也有。而在以前,OpenAI不直接找微軟就無法做到這一點。最初他們想找CoreWeave,但後來微軟就介入了這段關係,說:「不行,你只能用我們的。」所以很多GPU從CoreWeave租給微軟,再租給OpenAI。但這種獨家合作結束了,現在CoreWeave與OpenAI簽署了大合同,甲骨文也與OpenAI簽署了大合約。Matthew Berman:在微軟放棄獨家授權的交易中,他們得到了什麼回報?有報導他們為此得到了什麼嗎?通常情況並非簡單地說「好吧,我們放棄了」。Dylan Patel:據報導,他們放棄了獨家權,作為回報,得到的只是優先拒絕權。即任何時候當OpenAI去爭取運算資源合約時,微軟都有權以相同的價格和時間框架提供相同的運算資源。Matthew Berman:是為了降低反壟斷風險。Dylan Patel:是的,反壟斷是最大的考量因素之一。從OpenAI的角度來看,他們只是很惱火微軟的速度比他們所需的速度慢得多。他們無法獲得所需的全部運算資源和資料中心容量等。 CoreWeave和Oracle的進展要快得多,但即便如此,它們也不夠快。於是,OpenAI也轉向了其他人。但如今,真正具有挑戰性的是,微軟擁有OpenAI的IP,他們對這一切都擁有權利。他們現在可以隨心所欲地處置它。不管是微軟表現得友善不利用它做什麼,還是有些無能無法充分利用它而只是瀏覽一下,不管原因是什麼,微軟儘管有能力,卻沒做多少事。但可能性是無窮無盡的。另一件事是,你擁有直到超級智慧實現之前的所有IP。這意味著,在實現超級智慧的前一天,你擁有所有的IP,然後它被切斷,但直到那一刻之前你都擁有所有的IP。所以這也許是一天的工作量,也許需要10天,而不是1天。或者,你實現了超級智能,但要經過一段時間才能進行審議並達成共識,確認你已經實現了。但就像你在這個日期宣稱超級智慧模型就在這裡並將其公開一樣,微軟可以訪問它。所以,對OpenAI的開發人員來說,這才是真正的重大風險。利潤分成之類的事情非常複雜且困難,而且大多數人在投資OpenAI時並不太在意這些。要讓世界上的每一位投資者都認可你那瘋狂的結構——即非營利性的營利模式以及所有這類東西——是極具挑戰性的。微軟長期擁有你所有的利潤和全部IP的權利。所以理論上,如果他們決定挖走你最好的研究人員然後自己實施一切,你可能就一文不值了。這類事情會嚇到投資者,而山姆和OpenAI則認為這將成為人類史上資本密集度最高的新創公司。估值會持續飆升,因為他們正在建立的東西短期內並無盈利計劃。他們已經存在很長時間,年收入約100億美元,但未來五年仍不會獲利。有預測顯示,在實現盈利之前,他們預計自己的收入將遠超數百億美元,甚至可能達到數千億美元。所以在整個過程中,他們會一直虧損,需要不斷籌措資金,還得能夠說服全球的每位投資人。而這些條款既不光彩、不簡潔,也不易理解。04. GPT-4.5Orion計畫為何被棄用?Matthew Berman:好的,你稍微談到了運算能力,特別是提到了Azure能夠接入Core Weave和其他地方。我想專門談談4.5,GPT 4.5。我認為它是上周被棄用的。這是一個很像你的大型模型。Dylan Patel:真的是這樣嗎?Matthew Berman:不是嗎?Dylan Patel:我不知道。我以為在聊天中還是可以使用。我只是好奇而已。Matthew Berman:也許他們只是宣佈了棄用,但這是遲早的事。Dylan Patel:不,它還在那裡。不過,沒錯,他們確實跳過了。它的使用量非常少,這樣就說得通了。Matthew Berman:是模型太大了,還是運作成本太高了? GPT 4.5 Orion是出了什麼問題嗎?Dylan Patel:這就是他們內部所說的、他們希望能成為GPT 5的東西,他們在24年初就下了這個賭注。他們在24年初開始對其進行訓練。這是一場全面的賭注,全規模預訓練。我們只是要收集所有數據,建立一個大得離譜的模型,然後對其進行訓練,使其比4.0和4.1版本聰明得多。說清楚點,我之前說過它是第一個能把我逗笑的模型,因為它真的很有趣,但總體來說,它沒那麼實用,速度太慢,而且和其他模型相比成本太高。就像O3隻是在預訓練擴展方面表現較好,但資料卻無法擴展。所以他們沒能取得大量數據。如果資料沒有這麼快速地擴展,他們就有這樣一個在所有這些運算資源上訓練的非常龐大的模型。但你面臨一個被稱為過度參數化的問題。一般來說,在機器學習中,如果你建立一個神經網路並給它輸入一些數據,它往往會先記憶,然後再進行泛化。它會知道如果我說"敏捷的棕色狐狸跳過",它就會知道下一個詞總是"懶惰的",直到你用比它所學多得多的數據對其進行訓練。敏捷的棕色狐狸究竟是什麼意思,那懶惰的狗又是什麼意思呢?它不會理解,實際上也不會建構世界模型。它缺乏通用性。在某種程度上,GPT 4.5 Orion規模如此之大,參數如此之多,以至於它確實記住了很多內容。實際上,當它最初開始訓練時,我知道包括我在內的人們都興奮不已,就像在說,天那,它已經在碾壓各項基準測試了,而我們才剛剛起步。Matthew Berman:訓練。因為有些檢查點真的很棒,最初。Dylan Patel:是的,但那是因為它只是記憶了很多內容,然後就停止進步了。就好像它只是被長時間記憶下來,卻沒有泛化能力。它最終確實實現了泛化,因為這是一次非常複雜的運行。實際上,他們的系統裡有個bug已經存在好幾個月了,在訓練期間。訓練通常是幾個月或更短時間,通常還會更少。他們的訓練程式碼中有一個bug存在了幾個月,這是一個非常小的bug,卻影響了訓練。這很有趣,就像當他們最終發現問題時,原來是Pytorch裡的一個bug,OpenAI發現並修復了這個bug,然後提交了補丁。在Github上,有大約20個人對bug修復反應做出了回應,用表情符號表達了看法。另一件事是,他們不得不經常從檢查點重新開始訓練。它如此龐大、如此複雜,很多事情都可能出錯。因此,從基礎設施的角度來看,僅僅是整合如此多的資源、將它們匯聚在一起並讓其穩定訓練就非常困難。但從另一個角度來看,即使基礎設施、程式碼以及諸如此類的一切都完美無缺,你仍然會面臨數據方面的問題,大家都在提及2022年的《Chinchilla》論文,我想是2022年,GoogleDeepMind發布了一篇名為《Chinchilla》的論文。它基本上表達的意思是,對於一個模型而言,參數與標記的最優比例是多少?而且這僅適用於具有Chinchilla模型確切架構的密集模型。但感覺就像是,如果我有X次浮點運算,我應該有這麼多參數和這麼多詞元。這是一個縮放定律。顯然,當你增加模型規模並應用更多浮點運算時,模型的效能會提升。但是應該要增加多少數據呢?現在應該再增加多少參數,顯然,隨著時間的推移,人們的架構會發生變化,Chinchilla的精確觀測結果並不準確。大致來說,你想要的訓練資料的每個參數對應約20個標記,這是相對於模型中的參數而言的。大致來說,實際上有一條曲線,諸如此類。在這方面它更複雜,但就像那種觀察並非完全相同。但是,當你增加運算能力時,你想以一定比例或沿著某條曲線增加更多資料和參數,在理想世界中基本上有一個公式,而他們並沒有遵循這個公式。他們不得不使用比標記多得多的參數。但這都是24年早期的事了,他們開始訓練的時候,所有這些實驗規定,他們最終做到了,我不記得他們是什麼時候發布4.5的。是去年。但他們最終發布模型時,是在完成開始訓練、完成訓練、預訓練之後好幾個月,然後他們再嘗試進行強化學習(RL)等一系列操作。但同時,OpenAI的不同團隊發現了一些神奇的東西,即推理能力,也就是那顆"草莓"。Matthew Berman:就好像,在他們已經投入了所有這些資源,並且正在訓練這個大規模模型的過程中,他們意識到,由於推理能力,以低得多的成本,我們就能從一個模型中獲得更高的效率和更高的質量。Dylan Patel:如果你真的很想將推理簡化為第一原理,這樣你就給了模型更多的數據。你從那裡取得這些數據的?當你在創建這些可驗證的領域時,是如何產生數據的,在這些領域中模型產生數據,並且你會丟棄所有未得出正確答案的數據。在那裡,它不會驗證那個數學問題、那段程式碼或那個單元測試是否正確。所以在某種意義上,回顧過去,顯然當時我沒有那種直覺,但回顧起來,那種直覺很有道理,就是說,4.5版本失敗是因為它沒有足夠的數據。此外,從擴展角度和基礎設施層面來看,這非常複雜且困難。那裡存在著大量的問題和挑戰。但他們也不應該有足夠的數據。現在,就像另一個團隊取得的這項突破正在產生更多數據,而這些數據是有益的。就像許多合成數據一樣,它就像劣質數據,但就像草莓的魔力一樣,推理的魔力在於數據是優質的。你正在產生的數據是什麼。所以從第一原理的角度來看,這確實很有道理。數據就是那堵牆,光是增加更多參數無濟於事。05. 蘋果公司在人工智慧領域的滯後表現Matthew Berman:想聊聊會兒蘋果,我相信你對此有自己的看法。蘋果顯然落後了。我們在公開模型、洩密情況以及瞭解他們正在做什麼等方面沒有獲得太多資訊。你認為蘋果公司正在發生什麼事?你覺得他們只是失誤了嗎?它們在某種程度上與遊戲相關。他們為什麼不是招募公司呢?如果非要猜測的話,內部正在發生什麼事?Dylan Patel:我認為蘋果就像一家非常保守的公司。他們過去收購過一些公司,但從未進行過真正大規模的收購。Matthew Berman:Beats是最大的一個。一家耳機公司。Dylan Patel:對。但整體而言,他們的收購規模都非常小。而且他們確實收購了很多公司。他們只是早早收購真正的小公司。他們發現,也許是一家失敗的新創公司,或者,不管他們買的是什麼,他們收購的這些新創公司尚未實現產品與市場的契合,也不是那種超級熱門的公司。就蘋果而言,他們在吸引AI研究人員方面一直存在問題,這些研究人員喜歡誇誇其談,喜歡發布和發表自己的研究成果。蘋果一直是一家神秘的公司。他們實際上修改了政策,允許其AI研究人員發表成果。但說到底,這仍是一家神祕的公司。它仍然像一家陳舊的公司。就像Meta只能不斷提升一批研究人員和人才,因為他們已經有了一批ML人才,對吧?他們一直是AI領域的領導者。他們也有這個Pytorch團隊。然後他們承諾將AI開源。Matthew Berman:已經有一段時間了。他們一直是對的。開源。Dylan Patel:除此之外,就像誰有能力招攬AI人才,從DeepMind跳槽到OpenAI,OpenAI就像是DeepMind的競爭對手,諸如此類的事情,還有很多優秀的研究人員聚集在一起組建了它,然後是Anthropic分裂組織,接著是OpenAI的Thinking Machine分裂組織,而SSI是OpenAI的分裂組織,對吧?這就好比,有那些公司實際上能夠招募到原本沒有AI人才的人才呢?就好像GoogleDeepmind在這個領域就是最大的品牌,而且他們一直吸引最多的AI研究人員和博士流入。然後還有像OpenAI、Anthropic這樣的機構,它們在某種程度上與思考機器和SSI有關,對吧?這都是OpenAI的。我覺得,吸引人才主動找上門很難。06. 複雜且有價值的AI功能仍將依賴雲端Dylan Patel:如今,Anthropic擁有如此強大的文化,以至於他們能夠讓人們大開眼界。我在思考,像Meta這樣的領導者可以,但蘋果要如何吸引這些頂尖研究人員呢?他們招到的不會是最優秀的研究人員。所以對他們來說,保持競爭力很有挑戰性。此外,他們對輝達有偏見,非常討厭輝達。這可能出於合理的原因:輝達曾一度威脅要就某些專利起訴他們,並且賣給他們的GPU最終也出現了故障,那次事件被稱為「凸點門」(Bumpgate)。這是一個非常有趣的故事。事情與輝達的一代GPU有關,具體原因我可能記不太清楚了,畢竟已經過去很多年了。Matthew Berman:這是什麼時候的事?Dylan Patel:大概是2015年,或者更早。當時有一個面向筆記型電腦的輝達GPU系列。晶片底部有焊球,負責將其輸入輸出(I/O)引腳連接到主機板、CPU、電源等。在供應鏈的某個環節——所有公司,包括戴爾、惠普、蘋果、聯想,都指責輝達,輝達也反過來指責他們,稱這不是自己的錯。我不想歸咎於誰,但問題出在焊球的品質。當溫度上下波動時,由於晶片、焊球和PCB(印刷電路板)的熱膨脹係數不同,它們的膨脹和收縮速率也不同。最終,這種不同的膨脹率導致連接晶片和電路板的焊球開裂。這就是所謂的「凸點門」。這樣一來,晶片與電路板之間的連接就斷開了。我認為蘋果希望從輝達獲得賠償,但輝達當時拒絕了,表示情況很複雜。蘋果非常討厭輝達,一方面是由於這個事件,另一方面是因為輝達在嘗試進入行動晶片市場(雖然最終失敗了)時的威脅性舉動。當時他們試圖就行動裝置中的GPU專利起訴所有相關公司。綜合這兩件事,蘋果非常不喜歡輝達,因此在圖形硬體方面的採購量也不大。Matthew Berman:他們現在其實也不再需要大量採購了。Dylan Patel:在筆記型電腦裡他們不需要,但在資料中心裡也是如此。如果我是研究人員,我會考慮文化契合度、薪資待遇等因素。即使是像Meta這樣擁有大量運算資源和優秀研究人員的公司,仍需要提供巨額資金才能吸引人才。而蘋果不會提供那麼高的薪酬,而且他們甚至沒有足夠的算力。為了提供使用者推理服務,他們同時在Mac晶片和資料中心上運行模型,這種方式太奇怪了,我(作為研究員)可不想處理這些事情,我只想建立最好的模型。這對蘋果來說是個挑戰。Matthew Berman:好的,關於蘋果,我最後一個問題。他們非常重視設備端AI,我個人很喜歡這種做法,例如它在安全和延遲方面的優勢。你對設備端AI(即邊緣端AI)與雲端AI的看法是什麼?未來的趨勢會介於兩者之間嗎?Dylan Patel:整體而言,我對設備端AI持悲觀態度,並不看好它。安全固然很棒,但我瞭解人類心理:免費比付費好,有廣告的免費模式比單純的安全更有吸引力。其實沒多少人真正關心安全問題,他們口頭上說關心,但真正基於安全因素做決策的人非常少。當然,我也希望有隱私和安全保障。Matthew Berman:等等,但你只是說喜歡免費,設備端AI不也是一種免費的體現嗎?Dylan Patel:不,例如Meta會在雲端免費提供服務,OpenAI的ChatGPT有免費版,Google也有。Matthew Berman:是的,而且雲端的免費版會比在你裝置上運行的任何版本都更好。Dylan Patel:對。設備端AI的一個重大挑戰在於硬體限制。模型的推理速度取決於晶片的記憶體頻寬。如果我想增加晶片的記憶體頻寬,硬體成本可能會增加50美元,這最終會轉嫁給客戶,導致iPhone貴上100美元。而用這100美元,我可以在雲端獲得大約一億個token的使用量,但我個人根本用不了這麼多。我寧願省下這100美元,因為Meta會在WhatsApp和Instagram上免費提供模型,OpenAI會在ChatGPT上免費提供,Google也會免費提供。從這個角度來看,設備端AI很有挑戰性。最後,我不同意關於延遲的觀點。我認為,對於某些特定用例,例如鍵盤上的下一個單字預測或拼字檢查這類超小模型,低延遲是有意義的。但對我們個人而言,目前最有價值的AI應用場景,例如搜尋餐廳,或是存取我的Gmail、行事曆,這些數據反正都在雲端。在商業領域有大量用例,但就個人而言,反正我的資料都在雲端。對個人來說,最有價值的應用程式是搜尋、透過Google地圖找餐廳、打電話、查看行程和郵件等。這些資料和狀態本來就都在雲端。再例如一個更主動的工作流程:“我想吃義大利菜,找一家位於我們兩人之間、有無麩質選項、並且今晚7點可以預訂的餐廳。”這是一個深入的研究型查詢,得到回應需要時間。再例如我們設想未來AI為我們預訂航班,它不是簡單地執行“預訂航班”這個命令然後立刻完成。它需要進行研究、尋找訊息,然後返回結果,這個過程必須經過網路和雲端。它有什麼必要存在於設備上呢?而且由於硬體限制,即使是串流token,你的手機運行Llama 7B的速度,也比不上我從伺服器查詢並把token傳回手機的速度。更何況,沒人想運行Llama 7B,他們想運行的是GPT-4.5、Claude 3 Opus或其他更好的模型。使用者想要的是好模型,而這些模型不可能在設備上運作。所以對於像整合我所有資料這樣的用例,設備端AI很難實現,況且這些資料無論如何都在雲端。Meta、Google、微軟掌握了多少我的數據?允許我接入所有這些就行了。就像Anthropic正在做的,你可以把你的Google雲端硬碟連接到Anthropic。即使我的資料不在Anthropic那裡,只要我授權,他們仍然能夠存取。所以從用例的角度來看,設備端AI的真正好處究竟在那裡呢?從安全形度看確實有,但實際用例呢?Matthew Berman:是的,我認為可能有理由兼顧兩者。從總工作負載來看,可能會偏向雲端運算,但我認為也有理由將一部分工作負載放在設備端處理。任何與設備直接互動的操作,例如文字預先輸入,都很有意義。Dylan Patel:我確實認為AI會在設備上得到應用,但這只會是價值極低的AI,因為其成本結構必須很低。我認為消費者不會為手機上的AI硬體買單,因為那會讓手機更貴。如果你打算保持手機價格不變,同時增加AI功能,那很好;但如果要提價,消費者不會接受。設備端AI真正發揮作用的場景,會是在穿戴式裝置上,例如耳機或智慧眼鏡。你在本地做的都是些零碎的小事,比如圖像識別、手部追蹤,但實際的推理和思考是在雲端進行的。這在某種程度上也是許多這類穿戴裝置所推崇的模式。我認為設備上會有一些AI,各大公司也會去嘗試。但真正能推動用戶採用、增加營收並改善客戶生活的功能,將會傾向雲端,這也是蘋果採取當前策略的原因。蘋果正在建造幾個大型資料中心,購買數十萬塊Mac晶片並將其部署進去,還聘請了GoogleTPU機架架構負責人來製造加速器。他們自己也認為雲端是AI發展的方向,只不過他們也必須在設備端上做文章。但蘋果公司本身,雖然不會明說,但也希望將許多業務放在雲端運作。07. NVIDIA vs. AMD:誰會勝出?Matthew Berman:他們確實有很棒的晶片。我們來談談晶片,談談輝達與AMD的比較。最近我讀了幾篇SemiAnalysis的文章,文章認為AMD的新晶片其實非常強大。你怎麼看?這真的足以挑戰CUDA的護城河嗎?他們會開始從輝達手中奪取市場份額嗎?Dylan Patel:我認為這是多種因素共同作用的結果。 AMD確實很努力,但他們的硬體在某些方面比較落後,尤其是與Blackwell相比。他們面臨的真正挑戰是軟體,開發者體驗並不出色。情況正在好轉,我們已經向他們提出了一長串建議來改變現狀,例如具體修復和更改CI資源等。我們在12月和最近都提供了建議,他們已經實施了其中相當一部分,但在軟體方面感覺仍然遠遠落後。至於市場份額,我認為他們會獲得一些。他們去年有一定份額,今年也會有。挑戰在於,與輝達的Blackwell架構相比,AMD的晶片客觀上要更差。Matthew Berman:哦,你是指單純的晶片,而非生態系。Dylan Patel:是的,因為系統。輝達能夠透過晶片上搭載的NVLink網路硬體將GPU連接到網路。輝達建置伺服器的方式能讓72個GPU非常緊密地協同工作,而AMD目前只能做到8個。Dylan Patel:這對推理和訓練至關重要。其次是輝達的軟體棧,這不只是CUDA。雖然人們常說“就是CUDA”,但實際上大多數研究人員並不會直接接觸CUDA。Dylan Patel:他們呼叫PyTorch,PyTorch再呼叫CUDA,從而在硬體上自動運行。無論是透過編譯器還是即時模式,它與輝達硬體的適配性通常都非常好。在AMD上也是類似的呼叫流程。而現在,很多人甚至不再直接接觸PyTorch。Dylan Patel:他們會使用vLLM或SGLang等推理函式庫,從Hugging Face或其他地方下載模型權重。Dylan Patel:他們將模型權重連接到推理引擎(例如GitHub上的開源專案SGLang或vLLM),然後只需運行即可。這些引擎在底層會呼叫Torch編譯、CUDA以及Triton等各種函式庫,形成一個完整的呼叫堆疊。Dylan Patel:實際上,最終用戶只想使用一個模型來產生token。輝達建立的Dynamo等函式庫讓這個過程變得非常輕鬆。Dylan Patel:顯然,開發者所處的層次不同,有的在應用層,有的則深入底層。但許多用戶只想呼叫開源庫,告訴程式:「這是我的模型權重,這是硬體,運行它。」在這方面,AMD確實很努力,但用戶體驗仍然較差。並非程式無法運行,而是例如在使用某個函式庫時,輝達可能需要設定10個參數。Dylan Patel:而用AMD可能需要設定50個參數。並且每個參數都有不同的設置,要達到最佳性能非常困難。不過,我認為AMD正在迎頭趕上。Dylan Patel:他們進展迅速,會佔據一定的市場份額。另一方面,輝達的一些做法也對自己不利。在雲端服務生態系統中,有Google、亞馬遜、微軟這樣的大公司。Dylan Patel: 43:22 這些大公司一直在研發自己的AI晶片,與輝達形成了競爭。作為回應,輝達將CoreWeave、甲骨文等其他雲端公司列為優先合作對象。實際上,這類公司超過50家,包括Nebius、Together和Lambda等。輝達把原本可能分配給亞馬遜、Google的資源拿出來,優先供給這些新興雲端公司。Matthew Berman:這算是一種示好吧?Dylan Patel:是的。你去看看亞馬遜在GPU上的利潤率,如果直接租用一個GPU,他們每小時收費約6美元。Dylan Patel:而將輝達GPU部署在資料中心的成本大約是每小時1.40美元。雲端服務的合理利潤可能是每小時1.75美元或2美元。這才是輝達希望看到的,他們不希望所有利潤都被雲端服務商賺來。Dylan Patel:而在亞馬遜上售價是6美元。當然,你可以和亞馬遜談判以獲得更低的價格,但這並不容易。Dylan Patel:所以,輝達透過支援這些不同的雲端公司來壓低價格。但在我看來,他們最近犯了一個重大錯誤:收購了Lepton公司。 Lepton本身不擁有資料中心,但他們開發雲端軟體層,負責可靠性、便捷運行以及Slurm、Kubernetes等所有調度相關的工作。這本是大型雲端公司和那些被稱為「新興雲端企業」(Neo-clouds)所做的事情。Dylan Patel:現在輝達收購了這家開發軟體層的公司,並正在研發名為DGX Cloud的產品。這意味著,如果任何雲端服務商有閒置的GPU,可以將其作為裸機交給輝達,輝達會在上面部署Lepton的軟體並將其出租給用戶。這讓雲端服務商非常惱火,因為輝達正在與他們直接競爭。實際上,輝達可能也會將自己的部分GPU資源連接到DGX Cloud平台。Dylan Patel:這就好比你扶持我們,現在卻又打造一個平台跟我們競爭。所以很多雲端服務商都很生氣,但他們不敢公開對輝達表達不滿,因為輝達的地位太重要了,就像你不會去招惹上帝一樣。所謂“黃仁勳(Jensen)賜予,黃仁勳也能收回。”Dylan Patel:但是,他們會私下向我們(分析師)抱怨。因此,一些雲端服務公司開始轉向AMD,部分原因是AMD可能為它們提供了激勵,部分原因也是它們對輝達不滿。現在確實有一些雲端公司在購買AMD的GPU。此外,AMD還在做第三件事:他們正在做輝達被指責的那種事。我不知道你是否瞭解外界針對輝達和CoreWeave那種交易模式的指控。Matthew Berman:是的,指控他們來回輸送收入,構成詐欺。Dylan Patel:是的,輝達投資他們,然後又從他們那裡租用叢集。Matthew Berman:是的,看起來是常規操作。Dylan Patel:CoreWeave用投資款購買GPU,而且他們還必須開發自己的軟體。Matthew Berman:這其中似乎有些值得推敲的地方,但沒錯。Dylan Patel:不管怎樣,AMD實際上正在做類似的事情,甚至在加速推進。他們在向甲骨文、亞馬遜、Crusoe、Digital Ocean、TensorWave等公司出售GPU,然後再從這些公司租回算力。這種「售出再租回」的模式,與CoreWeave購買輝達GPU後,將一小部分算力租給輝達,但將絕大多數算力賣給微軟的情況,是有區別的。Matthew Berman:為了打開局面。不過這不算會計詐欺吧?Dylan Patel:不算。從會計角度看是完全合法的。向別人出售產品,再從他們那裡租回服務,這本身沒有問題。就像輝達…Matthew Berman:輝達也做過。他們幾乎是在資助對方進行這項投資。Dylan Patel:沒錯。對於甲骨文和亞馬遜這類公司,AMD的說辭是:「購買我們的GPU,我們會租回一部分算力。你們可以保留另一部分,試著租給自己的客戶。這樣能激發市場興趣,如果效果好,你們就可以買更多。但另一方面,這看起來也像是很多銷售其實只是AMD自己回購了算力。但這確實培養了非常好的合作關係。Dylan Patel:現在,TensorWave和Crusoe這些雲端公司都表示很喜歡AMD。因為AMD先把GPU賣給他們,再租回算力,讓他們從中獲利。他們可以把這筆錢再投資在更多的AMD GPU,或是將富餘的GPU租給其他人。同時,他們覺得輝達反正就是想跟自己競爭,自己又能怎麼做呢?這形成了一個有趣的局面。我認為AMD會表現不錯,雖然市佔率不會激增,但他們會賣出價值數十億美元的晶片。Matthew Berman:但如果你要為一家公司提供投資建議,在可預見的未來,你會建議他們投資那種晶片?還是輝達嗎?Dylan Patel:這取決於你能從AMD拿到什麼樣的價格。我認為存在一個價格點,在這個價格點上使用AMD是合理的,而且AMD有時確實會提供這樣的價格。 Meta就使用了相當多的AMD產品,當然也大量使用輝達。在某些特定工作負載中,如果你有足夠的軟體人才,且AMD給出的價格非常低,那麼選擇AMD就是明智的。這就是Meta這麼做的原因。08. Gork與xAIMatthew Berman:我想談談關於可解釋人工智慧(XAI)和Grok 3.5的話題。顯然,目前關於它的公開資訊並不多。伊隆馬斯克曾表示,這是目前地球上最聰明的AI,並將基於第一原理運作。Matthew Berman:這一切都是吹噓嗎?他們真的發現了新的、獨特的東西嗎?特別是他提到的那種關於「有爭議但真實」的事實。他的行為要不是顯示他有了新發現,就是純粹的自吹自擂。你對目前的情況有什麼看法?Dylan Patel:埃隆是一位出色的工程經理,同時也是一位出色的行銷專家。我不知道新模型會是什麼樣子,但聽說它很不錯,大家都這麼說。我們看看結果如何。當Grok 3發佈時,我感到非常驚喜,因為它實際上比我預期的要好。Matthew Berman:Grok 3。Dylan Patel:我日常不會用它,但我確實會用它來處理某些查詢。Matthew Berman:如果不介意的話,是那一類查詢呢?Dylan Patel:它的深度研究功能比OpenAI快得多,所以我有時會使用它。而且,有時候其他模型在提供我想要的數據時會顯得很「羞怯」(shrinking violet)。我個人對人文地理很感興趣,例如人類歷史、地理、政治以及資源間的相互作用,所以也想瞭解人口統計數據之類的資訊,這很有趣。舉個例子,我長大的小鎮位於《聖經》地帶,人口約一萬,黑人和白人各佔一半。我向別人解釋這種人口組成時會提到,那區域是海洋退去後的洪氾區,土地極為肥沃。在喬治亞州,當早期定居者來到這裡時,他們佔據了這些肥沃的地區,獲得了更好的收成,從而有能力購買奴隸。這就是為什麼當地的黑人比例遠高於州內大部分地區的原因。雖然這種說法可能有些“出格”,但我喜歡思考這類人文地理問題,而Grok並不會迴避這些話題。它能讓我進行深入思考。雖然從「品味」(tastefulness)的角度來看,探討某些話題可能不妥,但它有助於理解歷史。例如,歐洲歷史上的一些入侵行為,其根本原因並非侵略本性,而是由於其發源地日益乾旱,迫使他們離開家園。瞭解這類事情,或像標準石油公司在成為壟斷企業前如何戰勝競爭對手的商業史,都非常有趣。其他模型在處理標準石油的話題時,可能會直接貼上「破壞工會」之類的標籤,而我只想知道事實究竟是怎樣的。所以,Grok有時能解決我的問題,但它並非最佳模型。在我日常工作中,使用最多的是Claude 3 Opus或Claude模型。Matthew Berman:你每天都在使用Claude 3 Opus,儘管它的反應速度很慢?Dylan Patel:這取決於主題。很多時候我可以接受等待,但也有很多時候不行,這時我就會用Claude。我在工作中使用Gemini,我們用它來處理大量的許可證和監管備案檔案。我們進行了很多長上下文(long context)的操作。它在處理長上下文、檔案分析和檢索方面非常出色,所以我們在工作中用Gemini處理大量事務。但如果是日常場景,例如拿出手機在對話中途想查點什麼,情況就不同了。Matthew Berman:好的,我們說回Grok。Dylan Patel:是的,關於Grok,他們擁有大量的運算資源,而且非常集中。他們有很多優秀的研究人員,已經有大約20萬台GPU投入使用,還在孟菲斯購置了一座新工廠,並正在建造一座新的資料中心。他們在獲取算力方面的一些做法堪稱瘋狂,例如使用移動發電機。現在他們剛從海外購買了一座發電廠運往美國,因為無法及時買到新的。他們正在做各種瘋狂的事情來獲取運算資源。他們有優秀的研究人員,模型本身也很不錯,而埃隆正在大力宣傳。它會很棒,還是只是不錯?它會與競爭對手旗鼓相當,還是會稍遜一籌?我不知道。Matthew Berman:他們所做的事情有本質上的不同嗎?他特別提到要重寫人類知識語料庫,因為目前的基礎模型中存在太多無用資訊。他顯然掌握了X的數據。Dylan Patel:它的品質也很低,所以很難處理。同時,這也是我有時會用到Grok的另一個領域:時事。Matthew Berman:是的,用於總結。Dylan Patel:例如發生在以色列和伊朗的局勢以及所有戰爭相關的事情。你可以向Grok提問,它能比Google搜尋、甚至Gemini或OpenAI的查詢更準確地告訴你發生了什麼,因為它可以獲得所有這些資訊。Matthew Berman:他們做的事情有什麼不同嗎?我指的是那種階躍函數式的差異。Dylan Patel:我從不同角度看待階躍函數。每個人都喜歡覺得自己在做不同的事情,但整體而言,大家做的都是同樣的事情。他們正在預先訓練大型Transformer模型,並在此基礎上進行強化學習,這主要是在可驗證的領域,不過他們也在研究如何在不可驗證的領域中進行相關工作。他們在為模型創建可供其運行的環境,但這些環境大多是程式碼和數學。現在他們則開始接觸電腦使用以及其他方面。感覺每個人都在做大致相同的事情,但這也是一個極具挑戰性的問題,有很多方向可以著手。但我認為整體上大家都在採取相同的方法。即使是SSI也不是。 SSI正在做一些不同的事情,但我認為他們所做的事情和我剛才描述的並沒有太大不同。09. 人工智慧與就業:白領崗位的挑戰與勞動市場的未來Matthew Berman:我有兩個主題想討論。第一個是關於經濟和勞動學的,我想談談白領工作可能消失的50%。我知道你可能也讀過相關內容。這顯然是近期發生的事情,也更讓你掛心。你傾向於聊那個?Dylan Patel:我們先聊第一個吧,雖然第二個可能對你的受眾來說更有趣。第一個話題確實很有趣。每個人,或者說至少AI領域的一些人,都擔心大規模失業。但另一方面,我們的人口老化速度極快,而且整體上人們的工作時間比以往任何時候都少。我們過去常常取笑歐洲人工作時間少,但實際上,50年前的平均工作時長要高得多,100年前則更長,人們幾乎沒有休閒時間。而現在,每個人的住房面積更大,糧食安全狀況也更好。可以說,我們在每項指標上都比50或100年前好得多。人工智慧理應讓我們的工作時間變得更少。未來可能會出現一種情況:像我(可能還有你)這樣的人工作過度,而普通人的工作時間則少得多。顯然,資源分配是一個挑戰,我認為這才是問題的關鍵。這也是我對機器人技術感到非常興奮的原因。很多容易自動化的工作,正是那些我們最難用機器人技術取代的。人們總以為自己想做的是坐在電腦前發揮創造力,但實際上,受衝擊最嚴重的市場之一是自由平面設計師,而像採摘果實這樣的體力勞動市場卻尚未受到影響。而這(體力勞動)正是人們不想做的工作。Matthew Berman:有道理。儘管機器人技術以驚人的速度發展,但這部分自動化似乎仍然很遙遠。那麼,你是否預見到,隨著人類生產力的極大提升,大量任務將被自動化?你認為未來人類的角色是管理AI,審查AI的輸出,還是兩者的結合?Dylan Patel:我們正從使用基於聊天的模型,過渡到更長期的任務處理。例如,在深度研究中,過去需要十幾分鐘甚至幾十分鐘才能完成的任務,現在透過AI可以更快完成。Dylan Patel:未來會有一個AI助手,我們可以一直與之交談,或者它會主動提示我們關注某些事情。同時,也會有長期任務,AI會持續工作數小時甚至數天,然後將結果交給我們審核。最終,這個過程中將不再需要人類的參與。Matthew Berman:我相信這一點。你設想​​的時間線是怎樣的?Dylan Patel:我通常對時間軸問題持比較悲觀的態度。我不認為在這十年內,會有20%的工作被自動化。我感覺可能要到這個十年末或下個十年初,才能達到20%工作的自動化。雖然有人說通用人工智慧(AGI)將在2027年出現,但這取決於他們如何定義。Matthew Berman:即使他們的預測是準確的,也不代表科技能在那一刻就落地實施,對吧?我們還需要數年時間才能在實際中真正部署它。Dylan Patel:我認為部署會非常快。你已經可以看到,初級軟體工程師的市場受到了重創,畢業生很難找到工作,而AI在軟體開發中的使用量正在急劇上升。我們現在還只是處於程式碼輔助階段,甚至還沒到自動化軟體開發的階段。Matthew Berman:那麼,在AI的幫助下,公司會選擇做更多的事情、解決更多的問題嗎?如果是這樣,那些初級工程師最初該如何進入這個行業?我昨天和亞倫·利維(Aaron Levie)聊到這個,他的反應是:「是的,如果一個團隊告訴我他們的工作效率變得非常高,我當然會把更多的錢投給那個團隊,壯大那個團隊。」那麼,初級工程師的發展空間在那裡呢?Dylan Patel:是的,我同意這個觀點。以我自己的公司為例,我們藉助AI可以做更多的事情,這使我們生產力更高,能夠超越那些在諮詢和數據領域不使用AI的老牌公司。我公司的規模在去年從兩個人增加到了三個人,但我們招募了多少初級軟體開發人員呢?答案是沒有。我手下的一位初級開發人員,我們上周還在為她慶祝,因為她一個人就提交了大約50次程式碼。Dylan Patel:在過去,完成同樣的工作需要更多的人。雖然顯然還有很多軟體等著我們去開發,但問題在於我們實際上能招募多少人?我不更希望讓一位資深工程師來指揮一群AI,而不是僱用一個初級工程師嗎?這確實是一個挑戰。當然,僱用年輕人也有好處,因為他們能很快適應新的AI工具。這需要一種平衡。Dylan Patel:我不知道初級軟體開發人員的出路在那裡。總是有人在推特和領英上給我發招聘資訊,但我實際上並不太需要。我很少看到大型科技公司招募初級軟體開發者,這是一個事實,也是市場如此糟糕的原因。Matthew Berman:所以他們只能自己提升,掌握更好的技能。Dylan Patel:是的,他們需要能獨立完成工作,向外界證明自己並非初級人員,而是能夠真正運用這些工具的專家。Matthew Berman:但這並不適合所有人。Dylan Patel:確實不適合。很多人需要的只是一份工作,他們不一定有很強的自驅力。Matthew Berman:他們肯定不想當創辦人,也不想成為單打獨鬥的開發者。即使不是創辦人,他們也需要方向指引。Dylan Patel:我開始招募時一直面臨一個問題:有些人需要大量的指導,而我卻無法提供。我需要的是能夠自我驅動的人。現在公司裡有些人能做到這一點,但為員工提供指導確實很難,因為有些人至少需要明確的方向和手把手的教導。Matthew Berman:為什麼最初開源模式會領先於閉源模式?Dylan Patel:除非Meta大幅改進(他們也正在這樣做),否則美國將失去一個強大的開源專案。山姆·奧特曼認為Meta沒有招募頂尖研究人員,我認為這個觀點是錯誤的。我相信有一些頂尖研究人員會去那裡,也許不是第一梯隊的人選,但仍然是頂尖人才。中國之所以搞開源,只是因為他們暫時落後。一旦他們取得領先,就會停止開源。說到底,閉源模式終將勝出。很遺憾,但閉源會贏。我唯一的希望是,未來不會由兩三個閉源的AI模型或公司主導全球GDP。市場的格局可能比這更分散,但也不一定。10. 誰會贏得超級智慧競賽?Matthew Berman:Meta、Google、OpenAI、微軟、特斯拉,以及其他公司。你必須挑選一家公司,押注它會率先實現超級智慧。你會選誰,為什麼?Dylan Patel:OpenAI。他們總是第一個取得每一項重大突破,甚至在推理方面也是如此。我認為僅靠推理無法讓我們邁向新一代,所以肯定還會有其他與人類相關的因素。至於第二、第三名,這是一個難題。Matthew Berman:不過,他們確實非常保守,尤其是在發佈內容、發表成果以及專注於重點方面。他們的安全性極高,對此我心存感激。Dylan Patel:但這種保守的風格已經減弱很多了。我認為他們不像過去那麼保守了。據我所知,推出GPT-4的過程比推出GPT-3的過程要容易得多。這可能是因為他們正在大量招募合規人員,也可能是因為他們意識到,既然其他人無論如何都會發佈相關內容,他們也應該發佈自己的版本。不過,我認為他們只是擁有非常優秀的人才。至於第三的位置,目前在Google、XAI、X和Meta之間難分高下。但我認為Meta會吸引到足夠的優秀人才,才能真正具備競爭力。Matthew Berman:非常感謝你和我聊天。這次的交流非常棒,也很有趣。 (硬AI)
中國城市AI大戰,北京才出一棟樓就贏了
有義務也有實力做些不一樣的事。DeepSeek之後,中國AI加速。國內一、二線城市們的焦慮也進一步加深。但北京,有些不一樣。北京似乎不擔心“會不會錯過DeepSeek”,因為DeepSeek更擔心自己錯過北京。尤其是錯過這裡的人。先後爆火的DeepSeek和Manus,明面上是分別起家於杭州和武漢,但其核心團隊卻均身處北京,甚至其各自的北京分公司比本地分公司成立還要早。曾有創業者調侃“只要人不走(出北京),事兒就不走(出北京)了”。21世紀最貴的人才,北京就是有人才。做AI,更離不開人才,北京是中國AI人才第一城。2018年,距離ChatGPT席捲全球還有4年,一場有關AI的頂級會議已在北京召開,會議的重點只有一個:“如何提升當下的科研水平”。彼時,Google剛剛提出突破性的Transformer架構——此後的多年,不論是ChatGPT還是DeepSeek均是在此基礎上誕生。而事實上,Transformer架構的相關理念,早在Google之前就已被中國AI奠基人、中科院院士張鈸提出。為什麼北京沒有把張院士的理念變成現實,把Transformer架構做出來?往後如何不再有這樣的遺憾?會議上各種方案爭論很久,期間前微軟亞洲研究院創始人CEO張宏江站了起來:“美國有個OpenAI,是一個非盈利民間機構,這種形式很新穎”。而張宏江接下來提出的想法更加新穎,甚至過於理想化,以至於對國內的科研體系都是一種挑戰。他提議成立一個機構,把人工智慧相關的優秀科研工作者都聯合起來。從清華、北大、中科院等知名高校到百度、字節、小米、美團等知名企業,都是他聯合的對象。他認為,有必要突破性地跳脫出傳統的權利體系,做一個獨立於政府、商業、高校之外,徹底定位為一所民間、非營利、新型科研機構。就連張宏江自己也知道其中難度,畢竟企業投錢,想追求金錢回報,政府投錢,同樣需要對其有一定的要求。結果,北京市政府竟然展現出驚人的魄力,當即拍板,親自出面牽頭,聯合科技部成立了北京智源人工智慧研究院(BAAI),並將其作為北京最重要的三所研發機構之一建設。甚至,一不做二不休,北京市還幾乎拿出了所有的資源,將政府、企業和社會資料集合到這一平台上,建設新的開源AI工具,同時整合大學和大企業的計算能力,向各類AI研發機構開放,歡迎全球的人工智慧研究人員參與使用。僅僅三個月後,清華東南門外,快門閃過,智源正式成立了。這是中國AI發展史中濃墨重彩的一筆。幾乎所有人都懷揣著理想主義,沒有論資排輩,不看“帽子”,只看其是否有取得標竿性成就的潛力。至今,面壁智能聯合創始人劉知遠仍對智源唸唸不忘。彼時,劉知遠還未評上清華大學副教授,在AI領域也算不上什麼有話語權的人。只是抱著“試一試”的態度,他向智源申請了大模型訓練的立項,沒想到立即獲得上千萬人民幣的資源投入。“如果沒有智源,以我當時的學術職稱很難調度這麼大的資源。”就在這樣的理想主義中,智源研究院拿出了僅次於OpenAI、Google的大型AI研究項目——“悟道”,成為了AI屆的“黃埔軍校”。智譜創立發起人唐傑、面壁智能聯合創始人劉知遠、月之暗面創始人楊植麟……這些響噹噹的大模型明星創業企業發起人、創始人,都曾在智源深度參與大模型研究。如今,北京匯聚了全國最頂尖的大學和科研機構,90多所知名高校、1000多家科研院所、120個國家重點實驗室,全國60%的人工智慧人才集中在北京,龐大的人才寶庫,為北京的AI發展打下基礎,也吸引來其他城市的目光。DeepSeek、Manus接連刺激著中國各大城市的神經。上海遭吐槽“被‘小弟’偷家”、深圳被懟“只懂拿來主義”、南京更是連續被省委機關報“敲打”……反思的文章一篇接一篇,政策也緊鑼密鼓,接連被推出。事實上,2023年初,ChatGPT風靡全球,AI被突然加速,各大城市的AI爭奪戰就已打響。北京提供算力補貼和場景測試支援,降低企業研發成本。上海、廣東除了政策上的綠燈,還直接給予最高500萬元、2000萬元的資助。城市在爭奪相關企業,企業在爭奪人才。遠在美國的張宏江也接到了一位智源骨幹焦急的電話。“怎麼辦,他們一定會挖我們的人。”“慌什麼。”張宏江已經有所預料,只是沒想到,這種挖角持續了很久。一次,張宏江在同行的交流會中,當著某知名創業者的面狠狠誇獎了一位很受智源重視的年輕人。而過了沒多久,這位年輕人就被那位知名創業者挖走。這件事,讓張宏江憂鬱很久。同樣的故事,在北京各處上演。2024年3月,上海在知名地標西岸藝術中心召開了2024年全球開發者先鋒大會。這個位置可不是隨意選擇的,距離此地1公里的模速空間,有著“AI超級工廠”之稱,也被定位為“全球最大的人工智慧孵化器”,其聚集的大模型企業之多,“上下樓就是上下游”。而其中,竟有一半企業來自北京。原來,在2023年8月模速空間啟動建設時,上海相關負責人就專門跑去北京,挨家挨戶敲門訪問AI企業。企業外遷,北京不會睜隻眼閉隻眼。就在模速空間啟動一個月後,北京專門設立了北京市人工智慧產業投資基金,基金總規模達100億元,其中一個最大的投資訴求就是:只投資北京本土AI企業,並且被投後必須長期紮根北京,不然就會觸發回購操作。眼見“爭奪戰”愈演愈烈,國家也開始出手。2024年8月,《公平競爭審查條例》正式實施,綜合整治地區“掃樓式”搶挖企業和不正常的“內卷式”競爭,規範地方政府和企業行為。一盆水潑下,大家的腦子都冷靜不少。北京上下,也從混亂中找回初心。張宏江更加淡然:“如果智源的一些人到了某些公司成為了核心骨幹,把公司做成了,我會非常開心。我們的程式碼、我們的系統被別人用來做他們的產品,做得很好我也會非常開心,這本來就應該是一家非營利研究機構的價值所在。”海淀區也逐漸大度:“企業根據自身的發展需求,走向全國市場,對全國的產業發展是有帶動作用的”“如果只是盯著資料,那是很傳統的“看攤”思維”。目前,北京已經擁有AI相關企業數量約為2200家,佔全國的40%左右;規模在10億參數以上的大模型廠商約有一半在北京,數量達到122家。顯然,對於北京,視野已經不能僅僅停留於國內,理應站上更高的高度。“建成世界主要科學中心和創新高地”“致力於發展未來產業,建設具有全球影響力的創新策源地和產業高地”。相關言論不斷出現在北京的各種政策目標中。目標,是全世界!“小心陷入‘無源之水’的困境!”整個2023年,中國工程院院士戴瓊海四處奔波,不斷警醒著人們。彼時,以美國方案為主的大模型技術已經對中國形成了嚴峻的智慧財產權壁壘。而截至2023年5月,大模型和Transformer相關的智慧財產權總數有2899項,美國佔據71%,可中國僅佔據25%。時至今日,國內外發佈的不少大模型,仍有不少基於Google的Transformer方案。面對日益複雜的國際關係,依附性創新模式風險不小,甚至有專家警告:“人工智慧產業將淪為技術殖民地的裝配車間。”作為中國AI的發源地、中國AI人才的大本營,北京有義務也有實力去做一些不一樣的事。就在DeepSeek爆火之後的這波反思潮中,不少媒體也指向這一個關鍵節點:Transformer架構出世後,北京在迅速跟進有自主智慧財產權的變體模型,而不是基於Transformer訓練出更多相對同質化的大模型。智譜創立發起人、清華教授唐傑高呼“打破西方的路徑壟斷”,堅決選擇不夠成熟的GLM路徑,打造中國自己的預訓練模型框架,並公開表態:“如果成功了,那至少證明中國的大模型公司,技術能力也能達到世界級水平。”彩雲科技創始人袁行遠,同樣投身於挑戰Transformer架構的事業。彼時,很多投資人無法理解智譜和彩雲科技做的事,“大部分人不相信作為一個中國初創公司能做出什麼技術創新,所以你就去抄美國就完了。”就連袁行遠自己都遭受不小的刺激,看到周邊一家家公司拿到巨額融資,開始“懷疑自己到底在幹什麼”。但最後,大家還是堅定,要走自己的路。北京的AI學者,從業者,創業者在前方背水一戰。北京則在發展規劃中不斷明確自身的道路。2023年一年,北京連續發佈《北京市加快建設具有全球影響力的人工智慧創新策源地實施方案(2023-2025年)》和《北京市促進通用人工智慧創新發展的若干措施》《人工智慧算力券實施方案(2023-2025年)》。尤其在北京市人工智慧產業投資基金成立後,北京僅一個月間就接連舉辦多場關於AI技術的閉門活動,不斷強調將重點投向底層技術領域、新技術創新等關鍵領域,要“攻堅突破”“佈局前沿技術”“彎道超車”“換道超車”……如今,位於北京的彩雲科技和智譜已經各自拿出足以挑戰Transformer架構的底層架構。其中彩雲科技提出的DCFormer架構,不但可以讓原本基於Transformer的大模型無縫巢狀和應用DCFormer,甚至還能比Transformer的性能提升1.7-2倍。而業內對各個城市的AI產業分析也逐漸統一:北京用領先的技術輻射全國,帶動中國AI產業發展,其餘城市則各自“因地制宜”,將領先的技術賦能到相關應用產業。北京已經找到自身的優勢。在2025年的新春第一會上,北京海淀發佈《中關村科學城加快建設具有全球影響力人工智慧產業高地的若干措施》,每年10億元,拿出空間、資金和場景,致力於發展未來產業,建設具有全球影響力的創新策源地和產業高地。未來,北京的優勢只會越來越強大。三次問鼎電腦視覺領域國際最高獎項馬爾獎的朱松純教授、“電腦圖形學超級新星”胡淵鳴、曾提出LAMB最佳化器的潞晨科技創始人尤洋等頂級學者……國際頂級學者接連來到北京,或坐鎮院校,或創辦企業。然而來到北京的又何止國際頂級學者。一直到DeepSeek爆火,人們驚訝地發現:就在DeepSeek的北京辦公地融科資訊中心,竟匯聚著Google、輝達、AMD、蘋果、intel、華為、ARM、百度風投、襄禾資本(月之暗面投資方)等國際知名巨頭。而以融科資訊中心畫圓,則是清華大學、北京大學、北京航空航天大學等41所高校,206家中國科學院為代表的國家(市)科研院所,67個國家重點實驗室,27個國家工程研究中心,28個國家工程技術研究中心,是中國人才和智力資源最密集的區域。因此有人感嘆,中國城市AI大戰,北京只出一棟樓就已經贏了。 (華商韜略)