#0程式碼
華爾街日報:韓國力推的本土人工智慧模型含中國程式碼
The Row Over South Korea’s Push for a Native AI Model: Chinese Code韓國的努力表明,開發自主人工智慧模型並擺脫對美國或中國科技巨頭的依賴是多麼困難。首爾資訊技術展上的SK Telecom展館。Jeon Heon-Kyun/Shutterstock首爾——去年六月,韓國政府發起了一項競賽,旨在開發一款基於韓國本土技術的全新獨立人工智慧模型。在人工智慧領域已被美國和中國主導的當今世界,開發這樣一款本土工具對於確保韓國的技術自主性至關重要。事實證明,說起來容易做起來難。在為期三年的比賽中,五家入圍決賽的公司中,有三家被發現使用了至少一些來自國外人工智慧模型的開放原始碼,其中包括中國的人工智慧模型。這些公司和人工智慧專家認為,摒棄現有的人工智慧模型而試圖從零開始建構一切毫無意義。但也有人指出,使用外國工具會造成潛在的安全風險,並削弱開發出真正屬於本國的人工智慧模型的希望。哈佛大學電氣工程教授魏顧延表示,在進行人工智慧模型開發時,要求每一行程式碼都必須完全由公司內部編寫是不現實的。魏顧延熟悉韓國的比賽,但並未直接參與任何參賽者。魏說:“放棄開放原始碼軟體,就等於放棄了巨大的好處。”世界各國都在日益尋求減少對外國的依賴,並提升自身在可能對其經濟競爭力和國家安全產生深遠影響的技術方面的能力。韓國擁有眾多晶片巨頭、軟體公司和政治支援,是所謂“主權人工智慧”最積極的倡導者之一。這項競賽旨在到2027年選出兩家本土優勝企業,使其人工智慧模型的性能達到OpenAI或Google等領先公司的95%或更高水平。優勝企業將獲得政府提供的資料和人才招聘資金,以及用於人工智慧計算的政府採購晶片的使用權。近日,入圍決賽的Upstage項目引發爭議。據其競爭對手Sionic AI的首席執行長稱,Upstage人工智慧模型的部分元件與中國智普AI的開源模型存在相似之處。此外,他還聲稱Upstage的部分程式碼中保留了智普AI的版權標記。Sionic首席執行長高錫鉉在領英上寫道:“令人深感遺憾的是,一款疑似對中國模型進行精細改造的模型竟然被提交到由納稅人資助的項目中。” Sionic也參加了韓國的這項競賽,但未能進入決賽名單。對此,Upstage 舉行了一場直播驗證會,分享了其開發日誌,以證明其模型是使用自主研發的方法從零開始開發和訓練的。但用於運行模型的推理程式碼使用了源自智普AI的開源元素,而智普AI在全球範圍內被廣泛使用。Sionic 的首席執行長為此道歉。這一審查促使人們對其他入圍決賽的方案進行了更深入的考察。Naver的AI模型被指與中國阿里巴巴和OpenAI的產品在視覺和音訊編碼器方面存在相似之處,這些編碼器可以將圖像和聲音轉換成機器可以理解的格式。SK Telecom曾因運行其人工智慧模型的推理程式碼與中國 DeepSeek 的程式碼相似而受到批評。Naver承認使用了外部編碼器,但表示採用標準化技術是出於戰略考量。該公司強調,模型的核心引擎——決定其學習和訓練方式——完全由公司自主研發。SK Telecom也提出了類似的觀點,強調其模型核心的獨立性。比賽規則並未明確規定是否可以使用外國公司的開放原始碼。負責監管此次比賽的韓國科學技術部自爭議發生以來,尚未發佈任何新的指導方針。韓國科學技術部長官裴京勳對這場激烈的辯論表示歡迎。“當我觀察目前席捲我們人工智慧行業的技術辯論時,我看到了韓國人工智慧的光明未來,”裴在本月初的一篇社交媒體帖子中寫道。該部門在接受《華爾街日報》採訪時拒絕置評。該部門計畫按原計畫在本周淘汰五名決賽選手中的一名。首爾國立大學人工智慧研究所所長李在宇表示,人工智慧模型是通過設定和微調內部數值來獲得輸出的,而這些核心任務在面臨質疑的決賽入圍模型中似乎並沒有依賴於外部工具。他說:“他們是從零開始訓練的。” (invest wallstreet)
OpenAI將要被反殺?Google這一局,埋了整整十年……
2023 年初的那個冬天,當 ChatGPT 橫空出世,驚豔全球時,Google 看起來像是一個垂垂老矣的巨人。圖片 | 來自網路華爾街拋售股票,內部發佈“紅色程式碼”(Code Red),關於“搜尋已死”的訃告充斥著科技媒體的頭版,內部員工一邊調侃自己在“養老廠”,一邊焦慮。當時的金融和科技領域均不看好效率低下的搜尋業務然而,僅僅不到三年後的今天,戰局的風向正在發生微妙而劇烈的逆轉。當 OpenAI 為昂貴的算力帳單發愁,當整個行業因為 Nvidia GPU 的產能瓶頸而焦慮時,Google 卻憑藉 Gemini 模型展示了百萬級的長文字能力,並悄然建構了全球成本最低的 AI 推理基礎設施。對,是全球。資料顯示,自 Gemini 3 發佈以來的過去 6 周內,ChatGPT 的流量下降了 22%,7天平均訪問使用者數從約2.03億下降到約1.58億。這可能與假期流量回落有關,但Gemini的流量保持基本持平,而且目前已經達到ChatGPT的約40%。ChatGPT 與 Gemini流量對比而這場勝利的草蛇灰線,早在 2013 年就已經埋下——今天我們就要盤一下,Google最具遠見、也最瘋狂的兩筆賭註:一是自研晶片 TPU,二是收購 DeepMind。而連接這兩者的關鍵,則是 2023 年那場壯士斷腕般的組織變革。01 自研晶片TPU故事的起點,始於 2013 年Google內部的一次“數學恐慌”。彼時的Google坐擁全球最大的 CPU 資料中心。然而,工程傳奇 Jeff Dean 做了一個粗略的紙上演算:如果全球數億Android使用者每天只使用 3 分鐘的語音搜尋,Google現有的資料中心規模就需要翻倍。但在摩爾定律已現疲態的背景下,這在帳上根本行不通,因為僅電費和伺服器採購成本就能將Google的利潤吞噬殆盡。唯一的出路就是——改變計算架構。Google首席科學家 Jeff Dean於是,硬體負責人 Norm Jouppi 帶隊,在高度保密的狀態下,僅用 15 個月就完成了從設計到部署的急行軍。TPU(Tensor Processing Unit)誕生了。TPU v1 是一個極端的“偏才”,它砍掉了所有不需要的功能,專註解決一個問題,那就是——如何在有限的電力和預算下,跑模型(Inference)。深度學習(Deep Learning)聽起來高大上,但它在晶片內部干的最多的活其實是“矩陣乘法”。這就像你做一頓土豆主題的滿漢全席,雖然菜譜很複雜,但90%的時間其實都在切土豆絲(做簡單的乘法和加法)。CPU和GPU好比是博學的教授,雖然聰明但幹活“死板”,每切一刀都要跑一趟倉庫拿放土豆,時間全浪費在“跑路”(記憶體存取)上了;而TPU不用太聰明,它引入的“脈動陣列Systolic Arrays”就像是由 256 個切土豆工人排成的方陣——第一個人切一下,直接遞給身邊的第二個人,第二個人切完遞給第三個人……不需要頻繁跑倉庫就能被連續加工256次。正因為省去了大量無效的搬運時間,即使是2015年部署的 TPU v1,以 28nm 的老舊工藝和僅 40W 的功耗(就像一個燈泡),在推理性能上比當時輝達的旗艦 K80 GPU 快了 15-30 倍,能效更是高出 30-80 倍。這是Google的第一次隱秘勝利。TPU 在多層感知器MLP、時間循環神經網路LSTM、摺積神經網路CNN的計算效率上,顯著高於傳統的CPU和GPU也就是說,在外界還在搶購昂貴的 GPU 時,Google已經在用接近物料成本(BOM Cost)的價格,大規模部署自己的 AI 加速器。更關鍵的是,輝達的硬體毛利率高達 70% 以上,而Google自研 TPU 意味著它不需要繳納這筆昂貴的“過路費”。這為十年後,AI從“炫技”轉向“大規模工業化生產”時,Google擁有的極低邊際成本埋下了伏筆。02 最成功的投資 ——Deep Mind如果說造 TPU 是為瞭解決“算得快”的問題,那麼收購 DeepMind 就是為瞭解決“算什麼”的問題。差不多在同一時期(2014 年),Google擊敗 Facebook(Meta),以超過 6 億美元的天價收購了一家位於倫敦、沒有任何產品、只有十幾名員工的創業公司。站在今天看,如果沒有這筆收購,Google在 ChatGPT 的攻勢面前很可能會直接“猝死”。說回2014,當時,深度學習剛剛萌芽。Google內部雖然有 Jeff Dean 領導的Google Brain,但Google Brain的基因是“工程師文化”——他們想的是如何用 AI 最佳化搜尋排名、識別貓的視訊、提升廣告點選率。但DeepMind 的創始人Demis Hassabis不一樣,他從小就是一位天才,是前國際象棋神童,是一個神經科學家和遊戲設計師。他的願景與Google截然不同,甚至有些“瘋魔”:“解決智能,然後用它解決一切。”(Solve Intelligence, and then use it to solve everything else.)同為天才的拉里·佩奇(Larry Page)看懂了這一點——DeepMind 研究的不是某種“工程”,而是 通用人工智慧(AGI)。所以,從這個角度看,這筆收購的本質,是Google買斷了當時地球上最聰明的一群 AI 大腦。而且為了達成交易,Google甚至簽下了一份極其罕見的協議:成立“倫理委員會”,承諾DeepMind的技術永遠不用於軍事。這奠定了後來雙方長期“一國兩制”的基調。所以,我們看到收購後的前七年(2014-2021),DeepMind 實際上是Google供養在倫敦的“梵蒂岡”——神聖、高冷、且極其燒錢,要知道,DeepMind 長期處於虧損狀態(甚至一度單年虧損 6 億美元),而他們對Google的核心業務(廣告、雲、Android)幾乎沒有任何直接貢獻。好在這麼多錢砸下去還是能聽到個響的——2016 年,AlphaGo 擊敗李世石,宣告了深度強化學習(Deep Reinforcement Learning, RL)的勝利。可以這樣說,Google Brain 擅長“監督學習”(給資料打標籤,教AI 認圖,也是Meta花天價收購的Scale AI搞的那一套);而 DeepMind 擅長“強化學習”(讓AI在虛擬環境中自我博弈、自我進化)。請記住這一點:強化學習。因為這一技術路線的儲備,直接決定了後來 Gemini 能夠擁有強大的邏輯推理能力。03 組織合併 打通任督二脈現在,問題來了——為什麼Google擁有 DeepMind 和 Brain 兩大天團,還有自己的TPU,為什麼在 2022 年會被 OpenAI 打得措手不及?答案在於組織內耗。甚至可以說,Google在很長一段時間裡,是在“左右手互搏”——Google Brain(加州派):務實、工程導向,由 Jeff Dean 領導,他們發明了 Transformer,打造了 TensorFlow,致力於將 AI 塞進搜尋、翻譯和廣告裡賺大錢錢。DeepMind(倫敦派):學術、清高,由Demis Hassabis領導,他們追求 Nature 封面,致力於攻克圍棋(AlphaGo)和蛋白質折疊(AlphaFold),對商業化嗤之以鼻,每天想的是怎麼才能發《Nature》封面頭條。他,剛剛拿了諾貝爾獎,但去年公司虧損6000萬,英鎊……兩方不僅形而上的文化不一樣,形而下的“程式碼語言”都不一樣——Brain 團隊死守自己開發的 TensorFlow,儘管隨著版本迭代它日益臃腫;DeepMind 則嫌棄 TensorFlow,轉而擁抱更靈活、更適合科研的 JAX。目前AI領域主流的三種開發工具,各有其特點想像一下,一家公司的兩支頂級特種部隊,一支說英語,一支說法語,槍支彈藥(模型架構)也不通用,而且時不時兩邊互懟一下,這導致了嚴重的資源浪費。所以,當OpenAI的Ilya Sutskever(前Google員工)帶領團隊在 GPT 的道路上狂飆突進時,Google的兩支團隊還在為爭奪 TPU 的配額而明爭暗鬥。在和平時期,這種“賽馬機制”是創新的溫床,但在戰時,就是致命的拖累。Ilya Sutskever 於2015年從Google離職後加入OpenAI,成為其聯合創始人兼首席科學家,直至他2024年離開OpenAI2023 年 4 月,那是Google最痛苦的時刻,也是決定生死的轉折點。在 ChatGPT 發佈的第 140 天,Google終於按下了一個遲到多年的核按鈕:強制合併Google Brain與DeepMind,組建Google DeepMind (GDM),Jeff Dean 轉任首席科學家,不再負責行政管理;權杖交到了 Demis Hassabis 手中。這代表了Google高層極其冷酷的決斷:為了生存,必須把命脈交給更有野心的“倫敦派”。Google Brain 與 Deepmind合併,標誌著Google與OpenAI展開終極對決這場組織合併,終於打通了任督二脈,因為它不僅僅是程式碼的統一(Google放棄了 TensorFlow,全面轉向 JAX + XLA)更是工程主義”與“科學主義”的握手言和:Brain 提供了“身體”(極致的架構力):作為 Transformer 的發明者,Brain 團隊擁有地表最強的工程化能力。他們造出了最強壯的軀殼——他們知道如何建構兆參數的模型架構,並讓它在數萬張 TPU 上穩定運行數周而不崩潰。DeepMind 提供了“靈魂”(基於 RL 的學習法):這是被嚴重低估的一點。ChatGPT 的核心壁壘不僅僅是預訓練,更是 RLHF(基於人類反饋的強化學習)。還記得 AlphaGo 嗎?DeepMind 在圍棋上鑽研了十年的強化學習(RL)終於找到了最大的用武之地。他們將 AlphaGo 中用於“自我博弈”和“策略最佳化”的演算法,遷移到了大語言模型的後訓練階段(Post-training)。Google Gemini 1.5 發佈時,長上下文是模型的亮點之一於是很快在2024 年,Gemini 1.5 發佈。這是一個震撼業界的時刻:當時GPT-4的命門在於處理不了長文字(只能處理幾萬字),Gemini瞄準的正是這一點,一舉將上下文窗口(Context Window)拉升到了 100 萬 token,讓Gemini可以一口氣吃透《戰爭與和平》、一小時的視訊或整個程式碼庫。Google Gemini 1.5 的100萬Tokens的上下文窗口對同時期的其他大模型產品形成了壓倒性優勢04 戰時獨裁 降維打擊很多人以為這只是演算法的最佳化,其實這是Google積累了10年的、軟硬一體架構的降維打擊。在硬體端,Google在 TPU v4/v5 中祭出了大殺器:OCS(Optical Circuit Switches),這是一套由 MEMS 反射鏡組成的物理光路交換系統,具體技術咱不需要懂,只需要知道這給Google帶來了毀滅性的優勢:極低的延遲和無限的靈活性,這也是支援百萬級長文字的物理基礎。Google 建設的算力中心有了強大的硬體,還需要軟體來駕馭。OpenAI 在 GPU 上最佳化性能,往往需要工程師手搓 CUDA Kernel,難度極大。但Google的JAX配合 XLA(加速線性代數編譯器),讓研究員只需要寫出數學公式(Python 程式碼),XLA 編譯器會自動將其“翻譯”成 TPU 的機器碼,並利用 GSPMD(通用分片器) 自動將模型切分到數千個晶片上。這就是為什麼Google能在長文字上率先突破:因為他們的編譯器能比人類更高效地指揮光路和晶片,將百萬token的計算完美地平鋪在整個資料中心。話說回來,如果沒有做“統一”這一步,Gemini絕無可能誕生,Google也不可能翻盤。但我們不禁要問:為什麼像Google這樣一家擁有 18 萬員工、以官僚主義和行動緩慢著稱的巨頭,能如此迅速地完成這樣劇烈的、甚至可以說有些血腥的組織手術?首先,Google是的確害怕了,恐懼永遠都是改變的第一動力。平時Google的官僚做派,是因為核心業務太穩固了。但在 2022 年底,Google第一次看到了“死神”的影子。如果使用者不再點選藍色連結,而是直接問 AI,Google賴以生存的商業模式將瞬間歸零。這種對生存的絕對恐懼擊穿了所有的部門牆和審批流。更關鍵的是——“創始人模式”回歸。這是外界鮮少提及的關鍵。平時Google由職業經理人 Sundar Pichai 管理,他的風格是求穩與平衡,但要強行合併兩個互相看不順眼的山頭,職業經理人做不到,也不敢做。但創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)回來了。兩位Google創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)據報導,布林甚至親自去總部寫程式碼,其實不管公司發展到什麼階段,只有創始人才擁有“凌駕於 KPI 之上”的道德權威,可以直接下達命令打破利益格局。這種“戰時獨裁”,是Google能迅速掉頭的核心原因。最近謝爾蓋·布林(Sergey Brin)在回母校史丹佛演講中復盤了Google此段在AI比拚中的危機經歷視訊連結:https://www.youtube.com/watch?v=0nlNX94FcUE05 中局?終局?進入 2026 年,AI 的競爭已經變味了。如果說前兩年是比拚“誰的模型更聰明”(智力競賽),那麼未來三年將比拚“誰的推理更便宜”(價格戰),商業的本質回歸到了“電力公用事業”的邏輯。在Google的算力中心佈局規劃中,“太陽能+儲能+資料中心”模式展示了其改變整個行業的能源邏輯而這,正是Google等待已久的獵殺時刻。我們看看 OpenAI 目前的處境:它像是一個住在豪宅裡的高級租客,軟體上,依賴 Microsoft Azure;硬體上,依賴 Nvidia GPU。結果就是每一筆收入,都要被微軟抽成,還要支付給輝達高昂的硬體溢價。OpenAI 的毛利天花板被牢牢鎖死。再看看Google,它是這個星球上極少數擁有“全端主權”的玩家:從最底層的沙子(自研 TPU 晶片),到連接晶片的光纖(Jupiter 網路),再到編譯器(JAX)、模型(Gemini),直至最頂層的使用者入口(Search/Android),Google實現了從原子到位元的完美閉環。Google的TPU產品也在不斷迭代更新,最新的產品擁有更強大計算能力和更高的效率據 SemiAnalysis 估算,TPU 的單位總擁有成本(TCO)比同代 GPU 低 4-10 倍。這意味著,Google完全可以將 AI 推理的價格壓低到 OpenAI 的成本線以下,還依然有大把的利可圖。而且,隨著 AI應用滲透進生產力核心,使用者開始上傳整本幾百頁的財報、丟進去一小時的高畫質視訊會議記錄。而這種“長文字推理”是算力的黑洞,推理成本是隨著上下文長度呈指數級爆炸的,如果使用昂貴的 H100 GPU 來做這件事,那無異於“燒錢取暖”。但Google卻可以憑藉 TPU 大記憶體優勢和 OCS 的光互連,可以將這種“重推理”任務變成一種極其廉價的通用服務。這或許是Google處心積慮設下的一個局:它可以毫無壓力地培養使用者使用“百萬級 Token”的習慣,因為它是唯一的發電廠(TPU)和電網(光互連)擁有者。當 AI 真正變成像自來水一樣的基礎設施時,只有掌握水源和管道的人,才擁有最終的定價權。06 長期主義的勝利回望 2013/2014 年,當 Jeff Dean 在那張紙上寫下 TPU 的構想,當拉里·佩奇拍板買下 DeepMind 時,他們可能沒想到過程會如此曲折。Google確實犯過大錯:它曾傲慢、它曾內耗、它曾像個猶豫不決的官僚。在 2022 年被 ChatGPT 突襲的那個至暗時刻,這些錯誤差點讓這家兆帝國崩塌。但科技行業的競爭,從來不是百米衝刺,而是一場馬拉松。OpenAI 是一支驚才絕豔的特種部隊,憑藉先發優勢和微軟的裝備支援,打贏了登陸戰(ChatGPT)。但當戰爭進入相持階段,演變成拼後勤、拼工業體系、拼成本控制的總體戰時,Google這台龐大的戰爭機器終於顯露出了它的猙獰獠牙。Google的護城河,從來不是某個神奇的演算法——因為演算法總會擴散,模型總會過時。真正的護城河,是那些深埋海底的自有光纖,是那些日夜轟鳴的脈動陣列晶片,是那套統一意志的 JAX 軟體棧,以及十年前那兩次不計成本、看似瘋狂的下注。這給所有科技公司帶來了一個殘酷的啟示:在技術變革的浪潮中,真正的壁壘無法通過“買買買”建立,但唯有在那個無人問津的“前夜”,敢於在底層基礎設施與基礎科學上做最笨重、最昂貴的投入,並擁有在危機時刻自我革命的組織勇氣,才能在十年後的風暴中,笑到最後。 (TOP創新區研究院)
全球開發者狂喜!Claude Code史上最大更新,一次性1096次提交
【新智元導讀】全球程式設計師最喜歡的工具迎來最大更新。Boris老哥不僅靠自造的Claude Code年入10億美金,現在更是玩起了極致「套娃」,用Claud Code開發Claude Code,瘋狂迭代1096次提交!Boris Cherny現在不寫程式碼了。作為Claude Code的創造者,這位Anthropic的工程師用自己造的AI工具來寫程式碼——Claude Code去年斬獲超過10億美金的收入。擴展閱讀:30天沒寫一行程式碼,他卻賺了10億美金!這大概是AI時代最諷刺又最美妙的事情:一個人自己不寫程式碼,卻創造了一個能替所有人寫程式碼的工具。而現在,這個工具剛剛迎來了史上最大的一次更新。Claude Code2.1發佈了,這不是一次小修小補——1096次提交,版本從2.0.76直接跳到2.1.1。Anthropic團隊瘋了嗎?不,他們只是在用Claude Code開發Claude Code。這就是AI加速AI的正反饋循環。Claude Code2.1更新了什麼?1. Shift+Enter終於好用了這是使用者抱怨最多的問題,現在徹底解決了。在iTerm2、Kitty、Ghostty、WezTerm這些終端裡,Shift+Enter多行輸入開箱即用。不需要改配置檔案,不需要找變通方案。想換行就按Shift+Enter,就這麼簡單。如果用的是其他終端,運行/terminal-setup就能自動配置。這個改進看起來很小,但用過CC的人都知道,沒有多行輸入有多痛苦。2. Skills系統全面升級Skills是Claude Code最近推出的重磅功能,可以把它理解成「前人驗證好的工作流」。這次更新,Skills成了一等公民:熱多載:修改`~/.claude/skills`目錄下的技能檔案,改完立刻生效,不用重啟。這對開發者來說太重要了。之前偵錯一個Skill,改一次重啟一次,效率極低。現在改完就能看效果,開發體驗直接起飛。分叉上下文:在Skills配置裡加上`context:fork`,就能讓技能在獨立的「子環境」裡運行。這解決了什麼問題?之前執行複雜的Skills,中間產生的大量資訊會污染主對話。問完一個問題,上下文就被塞滿了亂七八糟的東西。現在有了分叉,主對話保持乾淨,技能在旁邊安靜地幹活。生命周期鉤子:Skills現在支援`PreToolUse`、`PostToolUse`和`Stop`鉤子。翻譯成人話就是:可以在Claude呼叫工具之前、之後插入自訂邏輯。比如每次寫檔案之前自動備份,或者每次執行命令之後記錄日誌。這已經是中介軟體等級的能力了。3. 會話傳送功能這個功能必須單獨拿出來說,因為它太酷了。場景是這樣的:在claude.ai網頁上開始了一個項目,聊到一半,發現需要在本地繼續。以前怎麼辦?把對話複製貼上過來?重新描述一遍需求?現在只需要一個命令:/teleport它會自動:驗證是不是在正確的程式碼倉庫拉取並切換到對應的分支載入完整的對話歷史網頁端的工作,無縫傳送到終端。反過來也行,終端裡的會話可以傳送到claude.ai/code繼續。這意味著什麼?可以在任何裝置上開始工作,在任何裝置上繼續工作。在公司用網頁版起草,回家在終端裡深度開發,第二天在咖啡廳用手機回顧進度。Claude Code變成了一個真正意義上的「雲端大腦」。4. 更智能的權限管理之前一個讓人煩躁的問題是:工具呼叫被拒絕的時候,整個智能體就停了。現在不會了。被拒絕之後,Claude會嘗試其他方法繼續推進。另外,工具權限現在支援萬用字元。比如想允許所有帶-h參數的命令,可以寫Bash(*-h*)。不用一個一個地配置權限了。5. 多語言響應可以配置Claude用母語來回覆。日語、西班牙語、中文,都可以。對於非英語母語的開發者來說,這個功能太貼心了。為什麼全球程式設計師都愛Claude Code?說完更新內容,來聊聊一個更本質的問題:Claude Code為什麼能火成這樣?一年收入10億美金,連著名的OpenAI研究員卡帕西都說自己落伍了。這背後是什麼邏輯?1. 它是真正的通用Agent雖然叫Claude Code,但它的能力遠不止寫程式碼。問答、寫作、寫網頁、開發軟體、資料分析,甚至拆分工資條,它都能幹。它能把音訊和圖片快速合成視訊。可以把它理解成一個能操控電腦的智能代理。它能看到檔案系統,讀取檔案、分析檔案、修改檔案、輸出檔案。而溝通方式,就是自然對話。不需要寫程式碼,不需要學命令,說人話就行。2. 資料夾思維Claude Code最棒的設計理念是「資料夾」。每次啟動的時候,給它指定一個資料夾,這個資料夾就是這次任務的上下文。很多CC重度使用者都有專門的Claude Code資料夾,裡面分成很多子資料夾:筆記、資料分析、深度閱讀、軟體開發……每個任務一個資料夾,互不干擾。這種設計讓工作天然有組織性。不像其他AI工具,聊著聊著就亂了,不知道在做什麼。3. 危險模式帶來的效率飛躍什麼是危險模式?開啟之後,Claude Code可以全自動操控電腦,不需要一次次確認。聽起來很危險,但不開的話,每個操作都要點確認,效率根本起不來。當然,一定要做好備份。4. Skill生態Skills是Claude Code的殺手鐧。不需要從零開始,直接用前人驗證好的工作流就行。比如前端設計Skill,一句話就能重新設計網站首頁。這是真正的「站在巨人肩膀上」。聊聊Boris這個人說到這裡,不得不聊聊Claude Code背後的男人——Boris Cherny。Boris的履歷很簡單:前Meta高級工程師,現在是Anthropic的Staff Engineer,負責Claude Code。但他最有意思的地方在於:Claude Code100%的程式碼,都是用Claude Code寫的。沒錯,他自己不寫程式碼,他用自己造的AI來寫程式碼。這聽起來像個悖論,但這恰恰證明了Claude Code的能力——如果連它的創造者都信任它到這種程度,還有什麼理由懷疑呢?Boris的工作方式也很瘋狂。他日常會同時開10-15個Claude Code會話,有的在終端裡,有的在網頁上,每個會話當作一個獨立的「工人」來用。他堅持用最慢但最聰明的模型,比如Opus4.5,因為他相信:更高品質的輸出最終會加速整個開發過程。這個理念很反直覺。大多數人追求速度,想要更快的響應。但Boris認為,如果AI能一次做對,就不需要反覆修改,總時間反而更短。還有一個細節:Claude Code的誕生其實是個「意外」。它最初只是Anthropic Labs團隊的一個原型實驗,用來探索AI模型的能力邊界。沒想到效果太好,直接變成了正式產品。2025年2月發佈,不到一年,年收入就突破了10億美金。這大概就是矽谷最經典的故事範本:一個工程師的「玩具項目」,最後變成了改變行業的產品。Boris還有一個習慣:他會維護一個CLAUDE.md檔案,把它當作「團隊記憶」。每次Claude犯了錯誤或者做對了什麼,他都會記錄下來。這樣下次遇到類似場景,Claude就能直接使用這些經驗。這個習慣後來變成了Claude Code的核心功能之一。你看,好的產品經理不需要做使用者調研,因為他自己就是最苛刻的使用者。Claude Code使用技巧最後分享幾個實用技巧:1. 善用Claude.mdClaude.md是Claude Code的核心配置檔案,相當於它的「憲法」。每次啟動,Claude都會自動載入這個檔案。可以在裡面寫:這個項目是做什麼的偏好規則需要注意的事項這樣Claude每次都能快速進入狀態,不用反覆解釋。2. 拖曳檔案這是最簡單但很多人不知道的技巧:直接把檔案或資料夾拖到Claude Code窗口裡。它會自動讀取內容。不需要複製貼上,不需要輸入路徑。3. 貼上圖片因為Claude Code運行在終端裡,貼上快速鍵不是Cmd+V,而是Control+V。遇到需要圖片的問題,截圖後用Control+V貼上進去,Claude就能看到了。4. 用/teleport無縫切換在網頁端聊到一半,需要本地繼續?直接/teleport,整個對話歷史都帶過來。5. 安裝實用的Skills推薦去官方的Skills倉庫看看:https://github.com/anthropics/skills安裝方式也很簡單,然後跟Claude說「使用xxx skill,幫我做xxx」就行了。「程式設計」的終局Claude Code2.1 的 1096 次提交,背後是一個團隊對「AI 輔助程式設計」這件事的極致追求。但如果只把它當成一個「更好用的程式設計工具」,就太小看它了。Claude Code真正預示的,是程式設計這件事本身的終局。程式設計師會消失嗎?這是每次AI程式設計工具更新時都會被問到的問題。答案是:不會消失,但會徹底改變。Claude Code讓每個人都能「寫程式碼」,但不是每個人都能「定義問題」。未來的程式設計師,不再是敲鍵盤的人,而是能把模糊的需求翻譯成精確任務的人。這個角色更像產品經理,又像架構師,又像項目經理。程式碼變成了思想的副產品,而不是目的本身。自指性AI的哲學意義Boris用Claude Code來開發Claude Code,這不僅僅是一個有趣的花絮。這是AI發展史上的一個里程碑:工具開始製造自己。想想看,人類發明了錘子,但錘子不能製造錘子。人類發明了車床,車床可以加工零件,但不能完整地複製自己。但Claude Code可以。它可以理解自己的程式碼,修改自己的功能,最佳化自己的性能。這是一個自我迭代的系統。每一次更新,都讓它更有能力進行下一次更新。1096次提交,很多都是Claude自己寫的。這種正反饋循環會加速到什麼程度?沒人知道。從Vibe Coding到Vibe EverythingClaude Code的成功證明了一件事:自然語言是最好的程式語言。不是Python,不是JavaScript,而是人話。這個邏輯可以延伸到所有領域。設計?讓AI渲染。寫作?讓AI起草。分析?讓AI處理。我們正在進入一個「Vibe Everything」的時代。不需要學習專業軟體,不需要掌握複雜工具,只需要能清晰表達自己想要什麼。這是真正意義上的「技術平權」。一個沒學過程式設計的小商販,可以用Claude Code做一個庫存管理系統。一個不會Photoshop的創業者,可以讓AI生成完整的品牌視覺。技能不再是壁壘,想法才是。開源生態的意義更重要的是,現在國產開源模型也跟上來了。GLM 4.7、MiniMax M2.1、Kimi K2,都能在Claude Code裡用起來。不再需要擔心封號,不再需要承受官方訂閱的高昂費用。之前Claude Code一年十億美金的收入,都被Anthropic一家吃掉。現在開源生態繁榮起來,每個雲廠商都可以部署、售賣、盈利。而使用者得到的,是只需要百分之一的價格,就能享受到同樣的智能。這不只是商業模式的變化,而是權力結構的變化。AI 的能力不再被幾家巨頭壟斷,而是變成了像水電一樣的基礎設施。程式碼是新的文字,而這次,每個人都可以執筆。 (新智元)
AI時代,深邃的思考與清晰的表達,才是人類最後的護城河
人工智慧,尤其是大模型的快速普及,正在以前所未有的速度重塑人類社會的分工結構。一個越來越清晰的趨勢正在浮現:執行正在被AI接管,而思考與表達,正在回歸人類本身,並變得愈發稀缺。一、從會做事到想清楚事,能力結構正在發生根本轉變在工業時代與資訊時代的大部分時間裡,人類價值高度依賴執行力。誰更勤奮、誰更熟練、誰更快完成任務,誰就更具競爭力。然而,大模型的出現正在系統性地瓦解這一邏輯。今天,大模型可以寫程式碼、生成文案、整理報告、分析資料,甚至完成大量過去被視為高認知含量的工作。只要目標足夠明確、路徑足夠清晰,執行幾乎可以被無限複製、低成本擴展。這意味著:執行力正在商品化技能本身不再稀缺單純會幹活的價值正在快速下降在這樣的背景下,真正拉開人與人差距的,不再是你能做什麼,而是你能不能想清楚要做什麼。二、你想明白的東西,才能被清晰地表達出來思考與表達從來不是兩件獨立的事情。模糊的表達,本質上源自模糊的思考。一個人如果無法用簡潔、結構化的語言講清楚一個問題,往往不是不會說,而是根本沒有想透。真正的思考,是將複雜問題拆解為清晰的邏輯鏈條,是在不確定性中找到關鍵變數,是在噪音中提煉本質判斷。在AI時代,想明白本身就是一種稀缺能力。因為資訊極度過剩,結論卻極度匱乏;工具觸手可及,判斷卻愈發稀缺。三、你能清晰表達出來的東西,才能交給大模型去幹大模型並不理解意圖,它理解的是指令。而指令的質量,完全取決於表達的清晰度。模糊的目標,只會得到泛泛的結果不完整的約束,只會帶來不可控的輸出缺乏結構的描述,只會放大不確定性因此,一個極其重要卻常被忽視的事實是:大模型並不會削弱表達能力的重要性,反而將其放大到了前所未有的高度。只有當你:能清晰描述問題邊界能明確表達目標與約束能結構化地拆解任務你才真正具備讓AI為你工作的能力。從這個意義上講,表達力正在成為人類與大模型之間最關鍵的介面能力。四、未來的人類角色:負責思考與表達,把執行交給AI當執行成本趨近於零,人類的核心角色將發生遷移:人類負責提出問題人類負責做價值判斷人類負責建構認知框架人類負責表達目標與方向而:推演方案生成內容反覆試錯大規模執行將越來越多地交由大模型完成。這不是人類能力的退化,而是一種能力層級的躍遷。人類從操作者,轉向設計者和判斷者。五、AI時代,真正的競爭發生在思考深度與表達清晰度上在AI高度普及的未來世界裡,真正稀缺的,不是資訊,不是算力,也不是技能本身,而是:能在複雜系統中做出深邃思考的人能將複雜思想清晰表達出來的人能用語言與結構駕馭智能系統的人思考力決定你能看到多遠,表達力決定你能調動多大的能力邊界。當執行可以外包給大模型,人類真正的價值,將回歸到最本質的兩件事上:想清楚,以及說明白。 (壹號講獅)
OpenAI發佈GPT-5.2-Codex:號稱工程實戰能力天花板
OpenAI剛剛正式發佈GPT-5.2-Codex,主要針對專業軟體工程和防禦性網路安全最佳化的智能體(Agentic)程式設計模型。相比前代,它在長程任務處理、大規模程式碼重構、Windows環境適配以及網路安全能力上均有顯著提升,工程能力達到實戰天花板目前,付費ChatGPT使用者已可在Codex相關介面體驗,API訪問也將在未來幾周內開啟。開發者可以通過以下命令安裝:$ npm i -g @openai/codexGPT-5.2-Codex是在GPT-5.2的基礎上,吸收了GPT-5.1-Codex-Max的智能體與終端使用能力進一步最佳化而來其核心技術改進包括:上下文壓縮:增強了長程任務的處理能力,使其在大型倉庫中進行跨長時間周期的協作時,能保持全上下文完整,不丟失進度複雜工程處理:在處理大規模程式碼重構、程式碼遷移和功能建構時更具可靠性,即使計畫變更或嘗試失敗,模型也能持續迭代性能表現:在SWE-Bench Pro(軟體工程任務評測)和Terminal-Bench 2.0(真實終端環境評測)中均達到了SOTA(業內頂尖)水平環境適配:顯著提升了在原生Windows環境下的智能體程式設計效率與穩定性視覺增強:模型能更準確地理解螢幕截圖、技術架構圖和UI介面,支援直接將設計稿生成為可運行的原型OpenAI表示,GPT-5.2-Codex的發佈是AI支援複雜軟體工程和專業安全領域的關鍵一步,未來將根據發佈反饋持續擴展存取權具體表現如何,還是要看結合自己的使用才知道 (AI寒武紀)
震動全行業!Google剛剛打出了一張“王炸”:Gemini 3 Flash,徹底終結AI應用的“燒錢”遊戲!
Google剛悄悄上線了Gemini3Flash——要是光看跑分,它可能不是最扎眼的,但要說顛覆性、對明年預算和產品規模化的影響,這模型絕對排得上頭名。我直接說透:它可不光是“快”和“便宜”這麼簡單,Google這是憑著一己之力,用成本結構對整個AI推理市場搞“降維打擊”呢。01 戰略定位:那是“青春版” , 分明是“部署級核武器”!好多人覺得Flash是Gemini3Pro的“性能縮水版”,這理解真的完全跑偏了!從架構來看,Gemini3Flash是直接搭在Gemini3Pro的推理基礎架構上的,根本不是獨立的弱架構——它共享著同樣的推理骨幹,只是專門針對極低延遲和極低成本做了深度最佳化。Google這兒還拋出個關鍵概念:“思考等級”(ThinkingLevels)。作為業內人,這點你可得吃透:以前不管讓模型干多簡單的活,都得為它的“最大推理深度”付費。但現在有了“思考等級”控制,開發者能根據任務需求,精準調控模型的推理程度。這意味著啥?你再也不用為解決一個簡單的圖像識別問題,花解決複雜數學難題的推理費用——這可是對AI經濟模型的一次根本性顛覆。02 核心吸引力:成本“屠夫”上線 , 把“燒錢”變成“印鈔”價格才是這次發佈的真炸彈。把性能和成本標準化之後,Gemini3Flash的競爭力簡直沒誰了。看組資料就知道,這才是真・成本大跳水:輸入(每百萬Token):才50美分輸出(每百萬Token):僅需3美元這價格有多震撼?比Gemini3Pro、ClaudeSonnet4.5甚至GPT5.2都便宜太多。Google的訊號已經很明確了:Gemini3Pro是給那些追求最大推理深度、不在乎成本的場景準備的;而Gemini3Flash,才是Google要你“部署到任何地方”的模型。它不是智能上的“退步”,而是“每決策支出”(SpendPerDecision)上的一次史詩級下降。03 打破低價迷思:多模態與編碼 , 照樣能打!低價可不代表低能——這正是Flash最讓人興奮的地方。它經過最佳化後,在推理、多模態理解、編碼和長上下文任務裡,都能保持穩定的高水準。A.多模態理解:截圖即程式碼生成 , 成本直接大降多模態工作流以前就是“燒錢”的代名詞,但Flash證明了:不用讓成本爆炸,也能實現前沿能力。在評估截圖和UI元素理解能力的ScreenSpotPro基準測試裡,Flash表現特別能打。想像下這個場景:你給它一張Web分析儀表盤的截圖,它能立馬看懂內容,用HTML、TailwindCSS和Chart.js幫你重建功能相似的網頁程式碼,甚至還能自動加UI推理——比如顯示餅圖的數值和百分比這些細節。這就說明,Flash能以極低的成本做截圖分析、UI推理和視覺理解,壓根不用呼叫最昂貴的模型層級。B.通用推理與持續編碼能力專家級分析:在針對高難度科學和特定領域推理的GPQADiamond測試中 , Flash拿了90.4%的高分 , 跟Gemini3Pro差不了多少——這意味著它完全能勝任技術分析、長篇綜合、專家級問答這些研究密集型任務。編碼代理:在LiveCodeBench上 , Flash的性能和Pro在同一水平。更關鍵的是 , 它能支援連續編碼代理 , 還不會讓你的營運成本“炸掉”——這對所有AI軟體工程公司來說 , 絕對是最大的福音!04 該重新審視你的產品策略了!Gemini3Flash最大的價值,是給所有開發者和企業打開了規模化應用的大門。以前設計AI產品,總免不了在“功能強大”和“使用成本”之間糾結來糾結去。現在Flash憑著前所未有的性價比,直接打破了這個困境。它釋放了一個明確訊號:AI應用的黃金時代,不是由性能天花板決定的,而是由成本地板定義的。 (New基地)
37歲、240 億美元!一個在中餐館長大的華裔學霸,登上了最年輕富豪榜
我們見過無數“別人家孩子”的故事,但這位來自《福布斯》雜誌上最新一期的報導,具有能讓所有人都熱血上頭的成長路徑——他的名字叫 Edwin Chen,37歲,做到公司估值240億美元;出身普通,父母經營中餐館;MIT 數學+語言學+電腦三項頂尖專業;沒融資、低調、不開發佈會,卻被全球 AI 巨頭追著合作。他沒有創立爆紅的大模型,也不是炙手可熱的晶片玩家,卻以一種極其“低調”的方式,成為《福布斯》美國最年輕的億萬富翁之一。圖源:Forbes官網最讓我破防的不是他的身價,而是他身上那種“普通家庭也能培養出傳奇”的真實感。這不是雞娃,這是活生生給所有家長續命。1/ 父母經營中餐館,他卻在後廚自學微積分其實許多成功華裔的故事裡,家庭背景並不光鮮,Edwin Chen也是如此。Edwin Chen在佛羅里達州的水晶河長大,這座墨西哥灣沿岸城市以海牛和退休人士而非科技億萬富翁聞名。他的父母從台灣移民到美國,經營著一家中泰美式餐廳,少年時期的他曾在那裡工作。沒有優越教育資源,也沒有名校輔導班,甚至連像樣的課外活動都沒有。但就是這樣一個普通到不能再普通的環境,卻孕育出了一個天才。當別的孩子在餐廳玩耍時,他埋頭在廚房角落裡研究數學——8 歲自學微積分,17 歲考入麻省理工學院(MIT)。更誇張的是,他沒有滿足於讀一個專業,而是同時攻讀了:數學、語言學、電腦科學,這三個加起來堪稱 MIT 最“硬核”的組合。跨學科思維,就是Edwin在這個階段打下的底色。對於家長而言,這樣孩子的故事幾乎太完美了:不是含著金湯匙,而是擁有努力、天賦和堅持。2/ Google、Twitter、Facebook 的工作經歷,讓他看到 AI 世界的“巨大漏洞”畢業後,他先進入矽谷頂級公司:Google ——做資料探勘;Facebook ——做演算法最佳化;Twitter ——做 AI 模型訓練;按一般人的路徑,他完全可以在大廠躺平吃“金飯碗”。然而在每一個職位上,他都遇到了同樣的問題:難以大規模獲取高品質的人工標註資料。那一刻,他意識到:再強大的 AI,如果沒有高品質的資料輸入,它就永遠學不會像人類一樣思考。他厭倦了那些「完全是垃圾」的資料標註。這是整個行業忽視的問題,也是他後來成功的起點。3/ 2020 年,在舊金山的小公寓裡,開始了一個人的創業沒有融資,沒有團隊,沒有資源。他一個人在租來的小公寓裡寫程式碼、搭網站、做客服。某次攀岩時,他偶遇幾位科技公司高管,隨口介紹了自己正在做的資料標註平台。沒想到對方立刻說:“我們正在頭疼資料問題,你能幫我們做嗎?”就這樣,他拿到了人生第一單客戶。創業之後的一年裡,他幾乎每天只做三件事:寫程式碼做標註和客戶溝通但正是這個階段,Surge AI 打磨出了真正的“殺手級能力”:它不是便宜的標註工廠,而是能理解文化、情緒、隱喻、人類表達方式的“人類知識翻譯器”。這才是真正的稀缺。當其他人還在做簡單的“貓和狗分類”時,Surge AI 已經在做:情緒識別諷刺判定文化語境理解複雜語言推理這些,是 AI 最難訓練的部分。此外,Edwin放棄了傳統的銷售與行銷手段,最初通過自己的資料科學部落格進行溝通,這個部落格是他在十多年前業餘時間建立的。圖源www.edwinchen.aiEdwin曾對採訪的記者說,Surge AI的首批客戶正是通過該部落格獲得,早期客戶包括愛彼迎、Twitch及Twitter。4/ 從未融資,卻做到 12 億美元營收、240 億美元估值Surge AI 做對了什麼?答案是——專注 + 專業 + 高價值服務。當整個行業都在追逐演算法、算力,他卻堅持認為:演算法是引擎,資料才是燃料。於是:社交媒體巨頭找他標註情緒,大模型公司找他訓練推理能力,Meta 在一年內向他購買 1.5 億美元的標註服務,OpenAI、Anthropic、Google、Microsoft、Meta,這些全球最頂尖的大模型團隊……幾乎都在用他的資料。更誇張的是:Surge AI 從未對外融資,但營收超過 12 億美元。在矽谷,敢說自己“不融錢”的公司,幾乎絕跡。而他,卻用這樣“反潮流”的方式,建立了屬於自己的護城河。就連Surge AI的官網也是“反潮流”的低調,低調到首頁只有一堆文字,沒有酷炫的UI和精緻的互動效果。圖源:https://surgehq.ai/5/ 他的故事不是因為財富讓人震撼,而是他的成長擊中了家長最應關心的三件事。1)真正的強者,不是靠刷題堆出來的,而是靠“思維結構”塑造出來的。數學訓練了他拆解問題的能力;語言學讓他理解語境、文化與溝通的本質;電腦把這一切轉化為可執行的技術能力。這樣的能力組合,不是分數決定的,而是認知方式決定的。分數固然重要,但決定上限的,永遠是思維體系。2)未來真正稀缺的,是“深度理解世界的能力”。Surge AI 需要的不是重複勞動,而是深度理解。他們招聘語言學家、人類學家、歷史學者,並不是為了“知識多”,而是為了讓 AI 學會——理解情緒、語境、隱喻、文化背景。這些是人類最複雜的能力,也是 AI 最難獲得的能力。未來的優勢,不再來自技能數量,而來自:是否能解釋複雜問題是否能理解不同文化與人群是否具備洞察力與創造力理解力,是下一代的頂級能力。3)決定孩子上限的,不是成績,而是“能否創造新的價值”。Edwin的成功,來自於“看到別人看不到的價值”。別人做資料,他做“人類智慧的數位化”;別人解決眼前問題,他解決行業底層問題。這類能力不是分數訓練出來的,而是:對世界有自己的判斷能從多學科視角看問題能把知識變成新的價值考試衡量的是輸入能力,而未來衡量的是創造能力。真正能改變命運的,是創造,而不是應付考卷。6/ AI 重塑財富,而教育重塑孩子的未來AI 正在發生一場新的“財富重新分配”。但對我們家長來說,更重要的是:孩子是否擁有 AI 時代真正需要的能力?Edwin Chen給我們看到一種新的可能:從小培養邏輯與思維注重語言與表達把文化理解力當作核心能力跨學科融合,而不是單科突破看到他的故事,不是又看到一個“焦慮範本”,而是一個可複製、可參考的“未來教育範本”。在人類與 AI 共存的時代,理解世界、解釋世界、創造世界的人,永遠不會被機器取代。你家的孩子,也完全有可能成為下一個 Edwin Chen。 (十一媽媽up)
Gemini 3 Pro 封神的背後:Google致敬的那個男人,竟然是個“快樂的無業游民”
最近,Google 的 Gemini 3 Pro 徹底刷爆了技術圈。它之所以能從眾多大模型中殺出重圍,不僅僅是因為它的推理能力更強了,而是因為它帶來了一個革命性的功能——“生成式 UI”(Generative UI)。當你對它說“做一個貪吃蛇遊戲”時,它不再是像以前那樣給你吐出一大段冰冷的程式碼塊,而是直接在螢幕右側“畫”出了一個可以玩的、互動流暢的遊戲介面。這種“忽略過程,直達結果”的產品哲學,讓無數開發者驚呼“變天了”。但 Google 為什麼會有這個想法?如果你把時間軸撥回 2025 年 2 月,你會發現這個理念其實源於一條推特。當時,Andrej Karpathy 發推提出了 "Vibe Coding" 的概念:“未來我們不需要寫程式碼了。我們只需要沉浸在一種感覺(Vibe)裡,甚至忘掉程式碼的存在。”Google 聽懂了。他們把 Karpathy 這種“看不見程式碼”的終極幻想,做成了 Gemini 3 Pro 的核心。那麼,這個讓兆巨頭都要“偷師”理念的男人,到底是誰?AI 界的“六邊形戰士”:Andrej KarpathyAndrej Karpathy 這個名字,對於普通人可能有點陌生,但在 AI 開發者心中,他是神一般的存在。回顧他的履歷,你幾乎可以看到整個現代 AI 發展的縮影:1. 名師高徒的學術起點在史丹佛大學攻讀博士期間,他是 AI 教母 李飛飛(Fei-Fei Li) 的得意門生。在那裡,他設計並主講了傳奇課程 CS231n,這門課至今仍是全球無數電腦視覺工程師的“入行聖經”。2. OpenAI 的創始元老博士畢業後,他成為了 OpenAI 最早期的核心研究員之一,與 Ilya Sutskever 等人一起奠定了 GPT 系列的基礎。3. Tesla 的自動駕駛統帥隨後,他被 Elon Musk 挖走,擔任 Tesla 的 AI 總監。在那裡,他直接向馬斯克匯報,領導了 Autopilot 團隊,不僅一手搭建了 Tesla 的資料飛輪,更主導了那個當時備受爭議的決策——放棄雷達,轉向純視覺方案。4. 回歸教育與再出發功成名就後,他沒有選擇躺在功勞簿上,而是離開大廠,回歸初心。他在 YouTube 上開設了 《Zero to Hero》 系列課程,手把手教普通人寫大模型。如今,他創辦了 Eureka Labs,致力於用 AI 重塑教育,試圖打造一種全新的“AI 原生”學習方式。學術界、工業界、教育界,他不僅都去過,而且在每一個領域都做到了頂尖。5 個故事,看懂“頂級極客”的另一面如果光看履歷,你可能會覺得他是一個高高在上的精英。但實際上,Karpathy 之所以如此受歡迎,是因為他極其真實、有趣,甚至有點“奇葩”。01:周末隨手寫個程式碼,羞辱了整個行業(llama2.c 事件)2023 年,大家都覺得跑大模型(LLM)非常複雜,需要安裝幾 GB 的 PyTorch 庫。 Karpathy 有個周末閒著沒事,覺得現在的 AI 軟體棧太臃腫了。於是他用純 C 語言(不依賴 Python,不依賴 PyTorch)寫了一個推理引擎。 這個檔案只有 500 行程式碼,編譯完的可執行檔案只有幾 MB,卻能在 MacBook 上流暢運行 Llama 2 模型。 他用一個周末的“玩具”,狠狠打臉了那些把 AI 搞得過於複雜的框架,也讓無數人第一次真正看懂了 LLM 是怎麼跑起來的。02:把自己當成“神經網路”來訓練(生物駭客)Karpathy 是典型的**“工程思維入腦”**。他不只最佳化程式碼,還瘋狂最佳化自己的身體。睡眠實驗: 他通過 Oura Ring 監測資料,調節溫度、濕度、光線,測試不同變數對“深度睡眠分數”的影響。他在推特上像發佈模型訓練日誌一樣,發佈自己的睡眠資料分析。咖啡演算法: 他曾詳細分享過自己的咖啡攝入策略——不是為了好喝,而是為了維持血液中咖啡因濃度的恆定,以保持大腦 GPU 的最佳算力。這完全是把生理機能當成 Learning Rate(學習率)在調節。03:在 Tesla 的“豪賭”(切斷雷達)當時所有自動駕駛公司都認為必須用雷射雷達(LiDAR)。但 Karpathy 和馬斯克認為:人類只靠眼睛就能開車,所以車也應該只靠攝影機。他領導團隊重寫了 Tesla 的感知棧,建構了著名的 HydraNet,並推動移除了車上的雷達。據說他在 Tesla 工作時,為了處理海量資料,經常就在辦公桌下鋪個睡袋睡覺(這點倒是和馬斯克很合拍)。04:史上最“不務正業”的無業游民離開 OpenAI 和 Tesla 這種頂級公司後,大家都以為他要去融資幾億美金開公司。結果他回家錄 YouTube 視訊去了。他拒絕了無數投資人的電話,只是為了把極其複雜的 Transformer 模型講得連高中生都能懂。他在推特上自嘲說自己是"Funemployed"(快樂的失業者)。這種“視金錢如糞土,只想教書育人”的態度,也是為什麼很多開發者對他有類似“聖徒”般崇拜的原因。05:痛恨“臃腫”的潔癖Karpathy 有嚴重的程式碼潔癖。他非常討厭複雜的抽象層。如果一個任務可以用 100 行原生程式碼解決,他絕不會引入一個 100MB 的第三方庫。雖然他現在推崇 Vibe Coding,但他本人的基本功極其紮實。他在 Stanford 教書時,曾強制要求學生手動計算反向傳播的梯度,不准用自動微分框架。他的邏輯是:“如果你不知道引擎蓋下面發生了什麼,你就沒資格開這輛法拉利。”AI 時代,“懶”是一種稀缺的超能力看完 Karpathy 的故事,再回看 Gemini 3 Pro 的“生成式 UI”,你會發現一個有趣的核心:這些頂級的創新,往往源於一種“懶”。Karpathy 因為“懶”得處理臃腫的環境,寫出了極簡的 llama2.c;因為“懶”得處理多餘的感測器資料,搞出了純視覺自動駕駛;因為“懶”得寫重複的程式碼,提出了 Vibe Coding,最終啟發了 Google 的生成式 UI。在 AI 時代,我們從小被教育的“勤奮”——死記硬背、機械重複、拼手速——正在迅速貶值。相反,“懶”正在成為一種核心競爭力。這裡的“懶”,不是躺平,而是一種敏銳的需求洞察力:是因為對低效流程的不耐煩,你才會去想如何最佳化它;是因為不想把時間浪費在重複造輪子上,你才會去尋找更高級的工具。Gemini 3 Pro 這樣的工具出現,正是為了成全我們的“懶”。它把我們從“如何實現”的苦役中解放出來,讓我們有精力去思考“實現什麼”和“為什麼實現”。所以,像 Andrej Karpathy 一樣,做一個“聰明的懶人”吧。在這個時代,發現需求比解決需求更重要,定義問題比動手執行更珍貴。 (許良學AI)