近日,黃仁勳和ARM CEO Rene Haas有一個對話,關鍵資訊如下:
1、輝達公司雖然規模很大,卻像是世界上最小的“大公司”。黃仁勳一直強調,要資訊透明地解釋公司願景、戰略以及公司成功原因。他傾向於在資訊透明方面犯錯,而不是限制資訊,要讓每個人都清楚公司正在做什麼。
2、輝達是一家全端計算公司,所以要打破組織的“孤島”,讓所有的孤島變得具有滲透性。公司真正的老闆是“任務”,它跨越整個公司。
3、作為輝達創始人,必須習慣於“痛苦和煎熬”。成功的旅程並不是一個接一個的成就,而是一個又一個挫折的故事,這是輝達公司之所以強大原因。
4、架構相容性非常重要,在架構上要有紀律性。例如,CUDA理念不是因為有數百萬人在為它程式設計,而是有幾億塊與之相容的GPU。將來編寫的所有軟體都要在現有的安裝基礎上運行,必須維護它。輝達會改變某些技術的部分來推動系統設計的進步,而不需要放棄昨天所做的一切。
5、“能效至關重要,這就是一切”。輝達正在儘可能“壓縮”單櫃的功率密度,基於GB200單櫃功率是120千瓦,後面會到200千瓦,有專家預測未來路標是一櫃1M千瓦。輝達會儘可能使用銅導電(單個機櫃的密度壓縮),除非不得不轉向光訊號(跨框聯接)。所以,未來超節點和叢集的供電、散熱會越來越挑戰,是核心競爭力之一。
6、面對摩爾定律逐漸失效的現實,黃仁勳強調輝達通過“協同設計”來實現指數級性能提升。每年輝達都會設計六七種新晶片,並改進系統架構,如引入NVLink交換機、3D封裝等技術,從而在相同的能耗和成本下實現兩到三倍的性能提升,這種策略在很大程度上加速了AI計算的普及。
7、黃仁勳還提到,在塑造市場和引導行業發展時,“教學”比“廣告”更重要。輝達通過教育市場、展示技術應用來獲得更多使用者和合作夥伴的支援。這種教學式的市場引導方式有助於讓生態系統的各個參與者理解技術的價值,並逐步接受新的計算理念。
以下為這場對話的全部內容:
ReneHaas:見到你很開心。這次回到輝達真是太棒了。我在這裡工作的時候,這棟大樓還不存在呢。
JensenHuang:那是多久前的事了?二十年?
ReneHaas:我2006年開始在這裡工作,2013年離開。是的,差不多二十年前。這些大樓當時都還不存在。不過現在回來感覺依舊很親切。感謝你抽出時間,邀請我來。
如今輝達已經成長得如此之大,有件事我一直很感興趣,就是公司的招聘文化確實非常獨特。輝達以一種獨特的方式做事,你是如何識別那些在輝達會取得成功的人才的?
JensenHuang:我們並不總是能做到這一點。看看你就知道了,這其實總是有點碰運氣的成分。我認為面試並不是評估一個人是否合適的最佳方式。
每個人都能在面試時表現得很出色,甚至可以通過觀看YouTube學習如何面試。當然,技術性的問題,我們會儘可能嚴格和困難,但這並不容易。我個人的做法通常是回到參考檢查,詢問我本來打算問候選人的問題。
因為你總可以在某個時刻表現得很出色,但你無法逃避你的過去,所以這種方法還不錯。我喜歡問一個深入的問題,然後觀察他們的思維過程。
但最終,輝達對很多人來說都是成功的。正如你所知道的,我們的流失率非常低,公司內部非常多元化,有很多有趣的人和背景。我們有來自幾乎所有頂級公司的員工,並且我們在這裡讓他們都能成功。
因此,從某種意義上說,建立偉大的公司一方面是找到優秀的人才,另一方面則是創造條件,讓這些人超越他們自己的預期。
這很大程度上取決於我們對輝達的願景和戰略進行的透明解釋。我花了很多時間在這方面。公司一直以透明著稱,會解釋我們面臨的挑戰、機會以及執行的戰略。資訊在公司內部流通得非常順暢,大家都清楚公司的戰略是什麼。
我總覺得,當公司有太多的分隔或需要知道的基礎時,情況會有點奇怪。當然,人們確實不需要瞭解他們不需要知道的事情。但他們知道得越多,就越有能力為公司做出正確的決策。
所以我傾向於更透明,傾向於賦予員工更多的權力。因此,公司成了世界上最小的大公司。這種高生產力來源於我們擁有的3萬多名員工,他們每天都在做出數百個決定。
如果所有3萬名員工都在同一個方向上,即使是在模糊的情況下做出決策,但他們的選擇都是為了公司的長期最佳利益,那麼這種積累是非常有意義的。
ReneHaas:其中一個讓我總是驚訝的事情就是,你提到的那一點——我不知道這是因為招聘到合適的人還是自我選擇的結果,但擁有那些在面對不確定性時非常自信的高級領導,並且你會深入公司各個層級,把正確的人召集到一起,解決問題。這是如何形成的?
公司成長過程中,你和願景一致的高級領導一起成長,這一文化自然而然地形成了嗎?因為這真的很令人驚嘆,當我在輝達工作時,許多高層領導都非常適應這種情況,你能夠直接找到合適的人,一起解決問題。
JensenHuang:首先,我沒有特別詢問他,你記得我也記得。而這是因為有些事情是顯而易見的,不需要去徵求許可。
所以我們設定這樣的方式,是因為輝達從一開始就是設計成一個全端計算公司,我們的目標是建構GPU、CPU、網路晶片和交換機,我們會設計晶片架構,開發系統軟體,創造演算法,甚至求解器。
如何組織這樣的事情呢?一方面所有東西必須協同工作,另一方面又需要分階段建構。因此,我們解決這個問題的方法是,避免組織上的孤立,將組織視為一個地方,領導者可以培養人才,為他們創造成功的條件,幫助他們排除障礙等等。
而真正的老闆是任務本身,它橫跨整個公司,涉及系統、晶片、網路交換機、軟體和演算法等領域。通過這樣的組織方式,我們還實現了透明化,打破了各個孤立的部門。
組織結構越開放,往往會越好,因為有更多人可以幫你批評和改進。我非常喜歡我們公司的開放性,一切都是透明的,每個人都在幫助我改進。
ReneHaas:差點就被你們收購了,那應該會很有趣。但你們收購了Mellanox。
JensenHuang:你還為此難過嗎?
ReneHaas:是啊,每天我都會小小地傷心一下,但我還是在這裡,謝謝。
JensenHuang:但你們表現得非常好。
ReneHaas:你們收購了Mellanox,這不僅在戰略上是一次極好的收購,而且從外部來看,你們的執行看起來非常無縫。這樣的整合是怎麼做到的?併購過程通常非常艱難。
JensenHuang:確實非常艱難。首先,Mellanox管理團隊中有十到十二人現在是輝達以色列管理團隊的成員,參與了公司高層會議。
我們涵蓋了架構、研究、軟體系統、晶片、網路介面控製器和交換機。我們現在有NVLink交換機,最初只有Infiniband產品線,現在還有完整的乙太網路產品線。
在這短短的時間內,Mellanox的產品組合已經增長了四倍,並整合到了我們所做的每一個方面。
如果你回顧這次轉型和收購,我們的願景是計算單元不再僅僅是一個GPU(以前是輔助裝置)。
實際上,收購幫助我們從演算法公司,也就是GPU公司,過渡為一家真正的計算公司。這是我們進入的第一步。
最初,建構SoC(片上系統)對我們來說並不容易,現在我們已經做得很好。接下來的演進是建構系統,DGX1是我們的第一個產品。我對Shield(我們的Android電視)也非常有感情,因為它是我們最初建立的完整系統。
ReneHaas:開發Shield的過程肯定很令人難忘。當時我們還在摸索如何做到這一點。
JensenHuang:是的,它至今仍是最受歡迎的Android電視盒。回想起來,當時它就像是PlayStation或Xbox控製器帶顯示器,我們都在思考如何實現這一切。這是輝達最讓我喜歡的產品之一。
ReneHaas:幾乎都快忘了這段經歷,但這確實是個系統性學習的過程。
JensenHuang:我學到了很多,至今我們還在維護相關的軟體。
ReneHaas:最初很難看出市場對此有需求,團隊突然需要為整個產品線採購零部件,真是讓人措手不及。
JensenHuang:這是我讓輝達轉型為系統公司的藉口,DGX1是改變一切的電腦。
ReneHaas:很大的Shield。
JensenHuang:沒錯。所以對我來說,雖然Shield是用塑料做的,而DGX1重達600磅,這種轉變並不算什麼大事。真正重要的是,我們現在能夠建構系統。
而當我們收購Mellanox時,真正的理念是電腦不再僅僅是一個節點,而是整個資料中心成為計算的單位。
如果你不設計好GPU、CPU、網路介面、交換機、所有的收發器,並把它們全部連接在一起,能夠從無到有啟動這個系統,將所有元件有序地運行並分佈工作負載,那麼你就無法真正理解建構這些AI超級叢集的意義。
這個轉型和願景非常清晰,以至於能夠團結兩支團隊。為了凝聚團隊,你需要有一個非常清晰的願景,對吧?
我們的願景非常明確,而且這個願景也是非常具體的,因為你可以看到它在你面前運行,有超級叢集,有來自兩家公司的所有裝置,所以這個願景是清晰且鼓舞人心的。
對於CEO來說,需要將抽象的事物變得具體化,然後我們就去建構它了。不僅如此,我也認為他們的文化也很棒。
ReneHaas:這種清晰性確實幫助很大。不過回到願景本身,還有一個故事我想說說,比如早期CUDA的應用追逐油氣行業,這完全不明顯。
JensenHuang:大家當時並沒有意識到,那其實是我們的第一個項目。
ReneHaas:確實,那是第一個,完全看不出真正的殺手級應用或最終狀態是什麼。然而,你們對早期的創意和實驗展現了驚人的韌性,那怕市場似乎沒有準備好,甚至對這個定義還不明確。這是直覺的體現嗎?還是說這種能力從何而來?
JensenHuang:我們確實有很好的直覺,你知道,公司成立以來有大約十次這樣的時刻。輝達的優勢在於我們周圍都是非凡的人才,世界上最優秀的電腦科學家、戰略家和商業人士,他們沒有自負之心,想要做偉大的事情。
我認為我們起點很好。其次,我們的直覺也很好,特別是在判斷那些問題需要解決,以及如何從現在走向我們想成為的公司。我們對於要實現的各種階段性目標有很好的直覺。
比如當有人問我,為什麼要打造Shield,這不是浪費時間嗎?我說,總有一天我們會成為一家系統公司,而所有這些系統都會連接到雲服務上。為什麼要在最龐大的系統上消耗精力,不如先做這個小的。
如果我們連這個都做不好,那麼更大的就更不用說了。我們需要為公司創造條件,讓它可以學習新技能、嘗試失敗,而不會對自身造成損害。
ReneHaas:這種情況只有在公司領導者是創始人的時候才能發生嗎?畢竟,很少有公司能做到你剛才描述的這些,無論是在願景的清晰性方面,還是在持續理解前進方向的韌性上。最近關於“創始人模式”和“管理者模式”的討論很多。
顯然,你作為創始人,在公司成立30年後仍然領導著公司,並取得了巨大的成功。那麼,你所描述的這種成就是否只能由創始人領導公司時才能實現?
JensenHuang:我不這麼認為。我認為你在Arm做得很出色。看到你在工作時的表現,我非常自豪。
ReneHaas:這是真的,我從你身上學到了很多。
JensenHuang:看到你工作讓我感到快樂和驕傲。我不認為只有創始人能做到這些。我認為確實需要極大的韌性和堅持。我通常把它描述為痛苦和折磨,這是成長的過程。痛苦和折磨是不可避免的,我深有體會,而且你必須習慣這種感覺。
通向成功的道路並不是一個接一個的成就,而是有巨大的挫折,有時甚至是令人尷尬的時刻。作為CEO,你還沒經歷這些,但它會發生。我希望它發生,因為這對你有好處。
你知道,那些時刻,我不確定學到了什麼,但它確實讓我變得更強大。我知道我可以挺過去。當時我可能不喜歡這些經歷,但回頭看,那些就是讓你為自己和公司感到驕傲的時刻。
所以我認為我們的公司之所以強大,是因為我們有很多這樣的故事。這家公司裡充滿了一次又一次挫折的非凡故事。
ReneHaas:而且經歷過這些的領導者很多。
JensenHuang:是的,大多數人都會覺得:“這不算什麼,這比起以前的某個挫折輕多了。”每次遇到挑戰時,我們都會想起那些更艱難的時刻,反而讓公司更有能力應對當前的挑戰。
ReneHaas:你我在這個行業的時間差不多長。現在AI的某些進展讓我感到,這是我以前從未想過的,我原以為只有下一代人才能見證這種變革。現在的感覺,就像進入了“終極前沿”,我無法想像AI之後還會有什麼。
你怎麼看?我們是不是加速進入了一個前所未有的變革時期?還有什麼能在這之後到來嗎?現在所看到的一切真是令人難以置信。
JensenHuang:我一直認為電腦會表現出智能行為,我們可以編寫出非常好的軟體,我以為我們會手動編寫這些演算法,讓它們最終解決問題,使得電腦看起來很智能。但我從未想過這會引發一場工業革命。
我的意思是,你聽我說過的,現在電腦行業首次超越了傳統的電腦行業。我們不再僅僅是一個工具或儀器,而是一個製造行業。就像現在,我們的手機在口袋裡沒有被使用時,它對我們沒有任何作用。
大多數電腦也是這樣的,比如我的筆記型電腦放在辦公室時沒在運行。你需要工具時,才去使用它。
然而,現在的AI工廠則不一樣,這是我們正在建構的一個新行業,它們始終在運行,無論你是否在使用。它們在處理資料、生成“智能代幣”,以非常大規模製造智能。這種電腦從工具轉變為製造裝置,並大規模生產極有價值的東西,這是一次全新的工業革命。
ReneHaas:你參與了從AlexNet到DGX1的整個過程,見證了這一切。AI的進展速度比我想像的要快得多,比兩年半前甚至一年前的預測要快得多。作為其中的核心人物,這是否比你想像的還要迅速?
JensenHuang:我們正努力加快進展,現在已經進入了一年一個周期。原因是技術有機會快速發展,特別是因為我們現在不僅僅是在製造晶片。
晶片的進展速度是有限的,就算使用新工藝節點,能夠獲得幾個百分點的提升已經很了不起了。那麼,我們如何在每一代中實現指數級的性能提升呢?
我們的方法是為每個系統設計六七種新晶片,然後通過協同設計重新發明整個系統,發明新的東西,比如NVLink交換機、新的系統機架,使我們能夠通過系統的整個背板驅動銅纜連接所有GPU,以及使用大型封裝、3D封裝等各種技術。
通過這些技術手段,我們每年可以在相同的能量和成本下實現兩到三倍的性能提升。這也相當於每年將AI的成本降低兩到三倍,這個速度遠遠超過摩爾定律。
因此,如果你將這種進步持續五六年甚至十年,我們就能夠極大地降低智能計算的成本。
我們之所以這樣做,是因為現在大家都認識到了這一技術的價值。如果我們能夠大幅降低成本,我們可以在推理時做一些事情,比如推理過程。
像現在使用ChatGPT時,它載入提示並生成輸出。但未來,它將會迭代推理出答案,或許會進行樹搜尋,也可能會自我反思答案,最終得出結果。
它可能會進行數百次甚至上千次推理,但答案的質量會顯著提升。我們希望降低成本,以便能夠以與過去相同的成本和響應速度提供這種新的推理推理。
ReneHaas:我看到過OpenAI模型的演示,它進行推理時令人震驚。它使用了邏輯樹,做出了權衡決策,就像人類一樣,但速度完全超越了人類的思考方式。
ReneHaas:現在情況更有趣了。你們正在以一個前所未有的速度引入系統和整個資料中心基礎設施。以前CPU每兩三年更新一次,最終被折舊。現在你們每年都在建構系統,人們都迫切希望盡快部署這些系統。
JensenHuang:是的,現在說起來很簡單,但你知道,我們每年都在交付像這個房間大小的新電腦,包括所有的電纜、網路、交換機、軟體,這真的很瘋狂。
ReneHaas:我想問一個更具前瞻性的問題,這不僅僅是技術吸收的問題,這樣的速度還能繼續保持嗎?
JensenHuang:我認為可以,但必須以系統化的方式進行。也就是說,我們在架構上的一切操作都要系統化。這意味著為昨天的叢集(比如Hopper)開發的軟體也可以在Blackwell上運行,並且Ruben上的軟體也可以運行在Hopper上。
這種架構相容性非常關鍵,因為行業在軟體上的投資是硬體的1000倍,而且軟體永遠不會過時。如果你開發了軟體,並行布了它,那麼你就必須一直維護它。所以,CUDA的想法不僅僅是有數百萬人在為其程式設計,而是數億個相容的GPU,軟體不會消亡。
ReneHaas:軟體永遠不會消亡。
JensenHuang:所以,你在一個GPU上的投資可以延續到所有其他GPU上。今天編寫的所有軟體將來會變得更好,未來的所有軟體也能在現有的安裝基礎上運行。
因此,首先我們必須在架構上保持嚴謹。其次,即使在系統層面,我們也能在不拋棄之前成果的情況下改進技術。
例如,當我們首次進入資料中心業務時,超大規模資料中心的電力分配大約是每機架12千瓦。而Blackwell的電力分配是每機架120千瓦,是密度的10倍。
當然,密度的提升使得伺服器數量減少了數百萬台,全部壓縮到一個機架中,因此節省的能量、空間簡直是不可思議的。
ReneHaas:這與我們的故事很相似。Arm架構已經存在了30年,為它編寫的軟體也有幾十年了。這是人們有時沒有意識到的。
JensenHuang:沒錯,我們關心每一個Arm晶片上的開發成果。最近有人做了基準測試,Grace每瓦性能是世界上最好的CPU的四倍。是的,能效至關重要。
ReneHaas:是的,這一切都很重要。你認為當資料中心從500兆瓦增長到5吉瓦時,從架構角度上是否會出現什麼問題,比如網路延遲之類的?不涉及機密內容的話,從物理的角度來看,是否會開始出現一些瓶頸?
JensenHuang:當然會,一切都會遇到問題。物理規律必須遵循,這就是挑戰所在。首先,我們正在快速推進功率密度曲線,從12千瓦到40千瓦,再到120千瓦,這還會繼續增加。因此,我們儘可能地壓縮和提高計算密度。
在這個過程中,液冷的效率更高,並且我們可以更長時間地使用銅纜。儘可能長時間地使用電傳輸是有利的,因為一旦轉換為光傳輸,成本和複雜性都會增加。
所以,我們會儘量保持電傳輸的狀態。這種策略更加經濟高效、節能且可靠,因此我們會繼續提高密度。
另一個提高密度的好處是,位於同一機架或相鄰機架的所有GPU可以像一個統一的裝置一樣運行,真是相當驚人。
ReneHaas:我一直很好奇,Jensen,你在Computex的主題演講。我記得你有一次是在星期天晚上進行的,演講內容的體量和深度令人難以置信。
作為一個也會做主題演講的人,我的內容遠沒有那麼長和深入,我真的很佩服你是怎麼做到的。
你是進行了大量的排練嗎?我記得當我們以前一起工作的時候,有時會在演講前一天晚上還在修改內容,你依然能出色地完成。現在你的演講尤其涉及資料中心架構,並且涵蓋了更多內容,你是如何準備這些的?
JensenHuang:我們每天都在為此準備。我們的工作和演員不同,實際上我們是在生活中做這些事情,對吧?所以首先,我們每天都在準備。
坦率地說,我們所做的很多事情本質上是教學,為了引導行業、塑造市場並引入新思想,我們的工作很多是教學。
我們不是做廣告,因為我們是一個平台公司,這意味著我們不能獨自完成我們的工作,需要其他人的參與和合作。
所以,我們的工作是教學、啟發、展示、演示,並希望一步步地吸引更多人加入,從CUDA的早期,到今天的輝達加速計算,以及AI的發展旅程。
現在,我們正在研究的下一個大事是“物理AI”,即如何讓AI既遵循物理規律,又理解物理規律。
我認為這個旅程相當漫長,而GTC和Computex給了我們這樣的機會,讓我們慶祝我們的生態系統和他們的成果,啟發他們展望未來。
ReneHaas:很相似。我做季度業務回顧和演講時,團隊會說,幻燈片很簡單,感覺是你整天都在講的東西。我會想,怎麼可能不一樣呢?但事實上還是很難的。
JensenHuang:說實話,確實不容易。因為我們實際上沒有時間排練。並不是因為我們選擇不排練,而是當所有內容都準備好時,已經沒有時間去排練了。所以,我們只能“即興發揮”。 (財經ThinkTank)