Karpathy與Hugging Face創辦人最新研判:所有軟體都要重寫,AI原生語言將至

Hugging Face聯合創始人Thomas Wolf最新思考:在AI統治的軟體世界裡,底層架構正在發生位移,Andrej Karpathy大神也認可這種觀點,很有可能,我們最終會將有史以來編寫的大部分軟體重寫很多次,至少這是一個有趣的時刻

軟體供應鏈縮減,單體架構迴歸

當重寫程式碼和理解大型陌生程式碼庫變得廉價時,依賴深度依賴樹的動力就會崩潰。與其花費無數個夜晚鑽研陌生的程式碼庫,不如直接要求程式碼智能體從頭編寫,或從其他庫中提取相關部分,這要容易得多。

減少依賴的理由非常充分:能夠縮小針對供應鏈威脅的攻擊面,減少打包軟體的體積,提升效能,並加快啟動時間。利用大語言模型不知疲倦的耐力,從裸機層面一直向上編碼整個應用程式的夢想正在變得現實。

林迪效應終結

林迪效應認為,存在已久的事物之所以存在是有充分理由的,並且可能會繼續存在。這與切斯特頓柵欄理論有關:在移除某物之前,應先理解其存在的原因,這意味著移除總是伴隨著成本。

但在一個軟體可以從第一原理開發並被不知疲倦的智能體所理解的世界裡,這種邏輯變弱了。舊的程式碼庫可以被隨意探索;長期存在的軟體被替換的摩擦力大大降低。一個程式碼庫完全可以用一種新語言重寫。在人類早已放棄的情況下,遺留軟體仍可仔細研究更新。

其中的隱患在於,未知的未知依然存在。 AI影響的真實程度將取決於測試、邊緣情況覆蓋和形式化驗證是否能實現全覆蓋。在AI主導的世界裡,形式化驗證不再是可選項,而是必選項。

強類型語言的理由

歷史上,程式語言的採用很大程度上是受人類心理和社會動態的驅動。一種語言的成功取決於混合因素:易學性、編寫正確性的簡單程度、社區的活躍與包容度(這決定了生態系統的增長速度),以及可證明的正確性、形式化驗證以及在動態與靜態檢查之間的平衡。

隨著人為因素的減弱,這些動態將會轉變。對人類心理依賴的減少將有利於強類型、可形式化驗證或高效能的語言。這些語言通常對人類來說較難學習,但非常適合大語言模型,因為LLM在形式化驗證和強化學習環境中表現出色。預計這將重塑那些語言佔據主導地位。

開源經濟的重構

幾十年來,開源社群建立在人類透過共同編寫、學習和使用程式碼而產生的連結之上。在一個大部分程式碼由機器編寫,或許更重要的是機器閱讀的世界裡,這些激勵機制將開始瓦解。

由AI共同建構庫和程式庫的社群可能會作為替代品出現,但這樣的社群將缺乏迄今為止推動開源發展的根本性人類動機。如果開源開發的未來變得基本沒有人參與,那麼AI模型的對齊將不僅僅是重要,而是決定性的。

新語言的未來

AI智能體在開發或採用新程式語言時,是否會面臨與人類相同的權衡?如表達式與簡單性、安全性與控制權、效能與抽象、編譯時間與運行時間、顯式與簡潔。目前尚不清楚。

從長遠來看,創建新程式語言的理由可能會與過去由人類驅動的動機大相逕庭。很可能存在一種對大語言模型最優的程式語言,而且沒有理由假設它會像人類所趨同的語言。

Andrej Karpathy的觀點補充

Andrej Karpathy認為,對於程式語言和形式化方法來說,這一定是一個非常有趣的時刻,因為大語言模型完全改變了軟體的約束格局。

這種跡像已經顯現,例如將C語言移植到Rust的勢頭正在上升,或者對升級COBOL等遺留程式碼庫的興趣日益濃厚。特別是,與從頭生成相比,大語言模型在翻譯方面表現得尤為出色,原因有二:一是原始程式碼庫充當了一種高度詳細的提示詞,二是它可以作為編寫具體測試的參考依據。

即便如此,即使是Rust作為目標語言,對於大語言模型來說也遠非最優。

什麼樣的語言才是最優的?是否仍保留了對人類的讓步?這些都是極其有趣的新問題和機會。 Karpathy預測,人類最終可能會將有史以來編寫的大部分軟體重寫很多次。 (AI寒武紀)