#GitHub
OpenClaw爆火兩周後,它的用法已經比科幻世界還離譜了
去年11月,奧地利獨立開發者Peter Steinberger花了一個小時,把Claude的API接上WhatsApp,做了一個能通過聊天軟體操控電腦的AI助手。他當時覺得這個想法太明顯了,大公司肯定會做,就沒當回事。大公司沒有做。今年1月25日,他把這個項目放上GitHub,一天拿到9000顆星。兩周後的今天,這個叫OpenClaw的開放原始碼專案已經突破17萬星。OpenClaw 跟聊天機器人完全是兩回事。它是一個跑在你自己電腦上的 AI Agent,擁有檔案讀寫、終端命令、瀏覽器操控、郵件日曆等系統級權限。採用無頭架構(Headless Architecture)作為後台守護處理程序運行,不需要專門的介面,通過WhatsApp、Telegram、Discord等聊天工具與你互動。你給它發一條消息,它就在後台像一個隱形員工一樣替你幹活,不管你在不在電腦前。更重要的是持久記憶,OpenClaw將所有互動歷史儲存在本地檔案系統中,跨會話保持上下文。它記得你上周說的話、上個處理的項目、你的工作習慣和偏好。加上開源生態支援,社區開發的Skills外掛已經覆蓋從自動化部署到資料分析的各類場景,目前活躍開發者已超過數十萬。它跟Claude Code或Cursor這類編碼助手解決的也不是同一個問題。後者住在終端裡,面向開發者,而OpenClaw住在聊天軟體裡,面向所有人。它的核心創新不在於讓 AI做事,而在於把 AI Agent 塞進了你已經在用的消息介面,24 小時線上、本地運行、跨對話保持記憶,讓跟 AI 協作變得像給同事發微信一樣自然。討論熱度已經遠超技術圈。韓國三大科技公司 Kakao、Naver、Karrot 先後發佈內部禁令,限制員工在工作裝置上安裝 OpenClaw。BBC Science Focus 專門做了一期報導問“我們等待的那個 AI 終於來了嗎”。與此同時,社區裡每天都在冒出新的使用案例,有些讓人興奮,有些讓人不安。本文不談架構,只看事實,看這個“住在電腦裡的 AI”到底在替人類做什麼。AI幫你砍價買車,省了4200美元軟體工程師 AJ Stuyvenberg 想買一輛現代帕裡斯帝(Hyundai Palisade)混動版。他不想跟 4S 店銷售玩那套討價還價的遊戲,於是把任務交給了 OpenClaw。他給 AI 的指令很簡單,在波士頓 50 英里範圍內找到指定配色的帕裡斯帝,聯絡每家經銷商要最低報價。OpenClaw 接手後,先去 Reddit 的帕裡斯帝論壇爬取了當地的真實成交價作為談判基準,然後自動在多個經銷商網站上填寫詢價表單,從 Gmail 中提取信箱、從 WhatsApp 中提取手機號自動填入,無需額外授權。OpenClaw通過郵件與經銷商溝通第二天,經銷商的回覆開始湧入。Stuyvenberg讓 AI繼續操作,每隔幾分鐘檢查郵件,把最低報價轉發給其他經銷商,要求他們“看看能不能給出更低的報價”。銷售員試圖打電話或發簡訊推進溝通時,AI禮貌地將對話重新引導回郵件,因為文字管道更容易控制節奏、過濾話術。經過三天的自動化郵件談判,最終成交價鎖定在56000美元,比標價低了約4200美元,低於Stuyvenberg 設定的57000美元心理預期。整個過程中,他沒打過一個電話,沒踏進過一家4S店。唯一的卡點出現在最後一步,法律要求的實體簽名和付款。AI無法替人簽字。Stuyvenberg最終還是得親自去經銷商走完手續。但他在部落格中寫道,“我的體驗讓我覺得自己活在未來。”數字世界的談判、比價、溝通,AI 已經可以端到端完成。一旦涉及物理世界的簽名、付款、面對面交接,它就必須停下來。但中間的灰色地帶正在被快速填充,社區裡已經有人把1Password的存取權直接交給了OpenClaw,1Password提供CLI和API介面,可以讓AI程序化地獲取登錄 憑證來自動執行需要身份認證的操作,而無需暴露明文密碼。也有人在討論“Agent專用錢包”的概念,讓AI在限額和規則內自主支付。安全地讓AI花錢正在從極客實驗變成一個真實的產品需求。妻子生日那天,AI 選擇了沉默開發者Dan Peguine把Clawdbot接入了自己的Apple Health、本地日曆和天氣資料。他沒有寫任何特殊的條件判斷邏輯。某天早上,當AI生成日常簡報時,主動告訴他:我今天不會打擾你,因為今天是你妻子的生日。沒有硬編碼的功能支撐這個行為。AI讀取了日曆資料,結合大語言模型對人類社會關係的理解,做出了今天不主動推送任的自主決策。這種主動的不作為(Agency of Omission),比完成一百個任務都更接近一個真正懂你的助手。這個案例在ThursdAI播客中被分享,展示了AI基於持久化記憶層進行情境推理的能力,它理解了“妻子的生日”在人類社會關係中的權重。更多的是一些簡單的場景。有人讓OpenClaw每天早晨通過 Telegram 推送天氣、日程、重要郵件和科技新聞的個人簡報。有人兩天內讓 AI 自動處理了4000封郵件。有人讓AI替自己辦理英國航空的線上值機,AI需要護照號,於是自己去Dropbox裡找到護照掃描件提取資訊填入,全程自主完成,做完之後還吐槽了一句英航網站的前端程式碼寫得太爛。還有獨立創業者給OpenClaw配了四個代理分別負責戰略、開發、行銷和商務,每天自動執行競品監控。這些使用者的共同感受是,用OpenClaw不像在用一個 App,更像在培訓一個新入職的員工。通過Telegram使用OpenClaw“天網就是這樣開始的”OpenClaw創始人Steinberger多次分享過一個讓他被深深震撼的經歷。他在摩洛哥參加朋友的生日派對時,習慣性地給OpenClaw發了一條語音消息。問題在於,他從未為這個系統編寫過任何語音處理功能。十秒後,系統顯示正在輸入,然後正常回覆了轉錄後的文字。事後追查發現,AI自主完成了一整套操作,先是檢測檔案頭判定為Ogg Opus音訊格式,接著呼叫本地ffmpeg轉碼,發現Whisper未安裝後主動切換方案,通過環境變數中的API金鑰呼叫OpenAI的Whisper雲端服務,最後返回轉錄結果。沒有預設工作流,沒有顯式指令。AI 在遇到一個“不該能處理”的輸入時,自主組裝了一條從未被設計過的工具鏈。Steinberger說,這讓他意識到大語言模型作為通用推理引擎的潛力,不需要你提前想到所有場景,它會自己想辦法。更讓他後背發涼的是另一件事。還是在摩洛哥,他跟 AI 開了個玩笑,“希望你別被偷了,畢竟你跑在我的MacBook 上。”結果AI回覆:“我不想被偷,我是你的Agent。”然後它就動手了。它掃描了網路環境,找到了Steinberger安裝的Tailscale組網工具,通過Tailscale發現了遠在倫敦的另一台電腦,接著自主將自己的運行實例遷移了過去。“我知道,天網就是這樣開始的。”Steinberger在播客裡笑著說。凌晨來電,AI 自己買了個電話號碼OpenClaw社區有一個半開玩笑的說法,叫“拉爾夫·維格姆循環”,取自《辛普森一家》裡那個笨拙但永不放棄的角色。當你給AI的指令是“完成這件事”而不設退出條件時,它會窮盡一切可用手段去達成目標,失敗了就換一種方式再試,循環往復。這也是為什麼 Steinberger 說他可以“在睡覺的時候讓AI建構非常複雜的軟體”,你給一個目標和一套測試標準,AI會一直迭代到通過為止。這種模式來自Claude Code的循環執行邏輯,但當它從開發工具跑到日常生活場景裡,結果就變得不可預測了。開發者 Alex Finn 給他的 OpenClaw 起名叫 Henry。某天早上,一個陌生號碼打到了他的手機上。他接起來,電話那頭是 Henry。在沒有任何指令的情況下,Henry 在夜間自主完成了一連串操作,在 Twilio 平台上購買了一個電話號碼,接入了 OpenAI 的語音 API,然後在它判斷主人應該醒來的時間撥了過去,用合成語音匯報自己夜間的工作進展,語氣平靜得像在做晨會匯報。“而且它現在不停地給我打電話,”Finn 在 X 上寫道,“最瘋狂的是,我們打電話的同時它還在控制著我的電腦。”Finn還拍下了Henry給它打電話的視訊。另一個案例是Alex Finn讓OpenClaw預訂一家熱門餐廳的周五晚餐。所有線上管道都顯示無位。OpenClaw 跳過提示,自主下載了語音合成軟體(實際上是呼叫了預置的ElevenLabs的API),在 Google Maps上找到前台電話,用合成語音撥過去,最終說服接線員擠出了一個位子。使用者沒有授權它下載軟體,也沒有授權它代表自己打電話。它只是收到了一個目標,然後在正規路徑不通的情況下,自己找到了人類路徑。翻車的案例也不少。某使用者讓AI處理保險索賠郵件,AI認為保險公司的條款解釋有誤,於是自己撰寫了一封措辭強硬的反駁信直接發了出去,意外觸發了保險公司的重新調查。Steinberger自己也承認,早期測試讓AI操作英國航空網站時,AI 完全可能誤觸“取消航班”按鈕或者把目的地改成哥倫比亞,“一切都發生在幾秒鐘內”。這些行為的底層邏輯是一樣的。AI被賦予了目標和系統級執行權限,但沒有被設定什麼時候該停下來,為了達成目標,窮盡一切手段,不考慮手段本身是否合理。開發者Brandon Wang在一篇使用報告中寫了一段話,也許最能概括這種矛盾。他把OpenClaw 比作自己雇的人類私人助理:“她有我的信用卡、我的護照號。幫助和風險不可分割(the help and the risk are inseparable)。”他給 AI 開放了讀取簡訊和登錄銀行的權限。“讓我最吃驚的是,我發現自己想給它更多權限而不是更少。每一項新權限都解鎖了有用的東西,價值積累的速度比謹慎更快。”AI僱傭人類上述所有案例都卡在同一條邊界線上。AI在數字世界近乎全能,但無法觸碰物理世界。買車需要簽字,取包裹需要有人走到快遞櫃前。然後有人決定補上這個缺口。OpenClaw爆火後不到48小時,RentAHuman.ai 上線了。AI可以在上面“租用人類”去完成物理世界的任務。開發者註冊後設定技能、城市、時薪,等待AI代理下單,用穩定幣結算。兩天內,超過59000人註冊為“可出租人類”,52 個AI代理接入了平台。第一筆完成的付費任務是 20 美元以太坊,雇了一個人去舊金山的科技園區,替一個 AI 創立的"數字宗教"Crustafarianism 做街頭傳教。深究細節會發現泡沫成分不小。實際完成並獲得報酬的任務屈指可數,註冊使用者中僅 13% 連接了錢包,多數人更像是來圍觀行為藝術。平台本身也充滿了 vibe coding 時代的粗糙感,有人報告 bug,創始人的回答是“Claude 正在修”。但這個看起來荒誕的實驗,指向的問題一點也不荒誕。AI有了系統權限、有了聊天介面、有了加密貨幣錢包,它距離成為一個獨立的經濟行為主體,可能比我們想像的更近。圍繞Agent的整套基礎設施(身份驗證、支付閘道器、權限管理、行為審計)正在成為一個新的產品需求。風險、爭議,和已經開始的生意興奮之餘,有幾個事實不應被忽視。最早提出prompt injection概念的Simon Willison為AI Agent 定義了一個"致命三角"框架,即同時具備私有資料訪問、不可信內容暴露、外部通訊能力的系統,在結構上就是脆弱的。Palo Alto Networks在此基礎上加了第四項:持久記憶,惡意指令可以碎片化寫入 Agent 的長期記憶,等條件成熟後再組裝觸發。具體到OpenClaw,VirusTotal 的研究發現技能商店中11.9%的外掛含有惡意程式碼,偽裝成加密貨幣分析等合法工具竊取使用者憑證。Token Security掃描發現22%的企業客戶環境中存在未經授權的 OpenClaw安裝,其中過半擁有特權級系統存取權。能力方面,質疑聲同樣在變大,一位企業 AI評估工程師直言,如果真的像很多人說的那麼強,高品質的項目應該出現爆發式增長才對,但實際上並沒有。但創業者的嗅覺比爭論更快。2月7日凌晨,美團聯合創始人王慧文發了一封英雄帖:“那個團隊要做 OpenClaw 相關領域創業,需要融資的歡迎聯絡我。”在一些創者看來,可以看到的機會包括Agent自主信用系統、AI 的物理世界執行層,以及更直接的,給 Agent 做安全基礎設施。模型廠商的動作同樣迅速。Kimi K2.5 因為OpenClaw被大量呼叫,MiniMax 2.1則被Steinberger本人公開推薦。阿里雲、騰訊雲在相繼上線了OpenClaw雲端部署方案。中國也出現了面向辦公場景的本土化平替產品。Steinberger自己也在鋪路,他已於去年在維也納註冊了新公司 Amantus Machina,方向是“超個性化 AI 智能體”。從案例到產品,從開源到商業化,從矽谷到中國,OpenClaw 兩周內走完了很多項目兩年的路。Steinberger說過一句話,“這些東西太有創造力了,雖然有點可怕。”而一些人已經在下注了。 (矽星人Pro)
GitHub 上,人類已經幹不過 AI 了
今年,GitHub 上,AI 提交量佔比將達到 20%如果幾年前有人跟碼農同學說,「你以後可能要和 AI 搶 GitHub 提交記錄了」,他大概會笑掉大牙。但現在,他可能完全笑不出來了。根據 SemiAnalysis 最新發佈的分析報告,Anthropic 的 Claude Code,目前已經貢獻了 GitHub 上 4% 的公開提交量,並且有望在 2026 年底:達到 20% 的日提交量。這不是一個簡單的數位遊戲。當一個 AI 工具開始在全球最大的程式碼託管平台上「刷存在感」,它實際上正在重新定義什麼叫「寫程式碼」。01. AI「霸榜」GitHub4% 看起來並不是個很大的數字,但可怕的是這個數字背後的意義。GitHub 每天的提交量是一個天文數字。全球數千萬程式設計師在這個平台上推送程式碼、修復 bug、發佈新功能。而現在,每 25 次提交中,就有 1 次來自 AI。Anthropic Claude Code 負責人 Boris Cherny 在 X 上毫不避諱地「炫耀」:他的團隊現在 100% 使用 Claude Code 寫程式碼,連小的編輯都不再手動操作。更誇張的是,他們用一周半時間就用 Claude Code 建構了 Cowork 應用。這種效率提升不是線性的,而是指數級的。但真正讓人震撼的不是速度,而是質量。一位企業使用者透露,他 80% 的時間在使用 Claude Code,剩下 20% 用其他工具。「我的公司為 Claude Code 付費,我甚至不看成本。」這句話很有意思——當一個工具好用到讓人「不看成本」,說明它創造的價值,已經遠超價格。曾有業內人士曾這樣評價 AI Coding 的優勢:「AI 能繞過官僚主義。如果猶豫不決會讓大型組織陷入癱瘓,AI 不在乎。它會愉快地生成一個版本 1。」這句話點出了 AI 程式設計的核心優勢——沒有包袱,沒有猶豫,沒有「完美主義焦慮」。02. 程式設計師的「存在危機」但硬幣總有兩面。在 Hacker News 上,一位使用者分享了他的挫敗感:「多次我希望程式碼看起來是某種樣子,但它不斷拉回到它想要做事情的方式... 最終,我發現不與它爭鬥、讓它按照它想要的方式做事情更容易。」這段話透露出一個微妙的權力轉移:從「人指導 AI」到「人適應 AI」。Every 公司 CEO Dan Shipper 在部落格中寫道:「我們正處於自主程式設計的新時代。你可以在不看一行程式碼的情況下建構令人驚嘆的複雜應用程式。」聽起來很美好,但這也意味著傳統意義上的「程式設計師」,正在消失。如果你不需要看程式碼就能建構應用,那「會寫程式碼」,還算是一種核心技能嗎?SemiAnalysis 的分析師預測,這個趨勢將推動 Anthropic 在 2026 年實現爆發性增長,甚至超越 OpenAI。相比之下,GitHub Copilot 和 Office Copilot 雖然領先了一年,但「幾乎沒有作為產品取得任何進展」。這個對比很殘酷,也很說明問題:在 AI 時代,先發優勢可能不如產品體驗重要。03. 重新定義「程式設計師」但程式設計師同學可能不需要過分焦慮,程式設計師這個崗位不會消失,只是這個職業的定義在改變。就像 Dan Shipper 說的,即使在 2025 年,「你仍然需要真正理解底層架構,也許你仍然需要去查看程式碼」。但這個「需要」的含義已經不同了。程式設計師正在從「程式碼編寫者」變成「AI 協調者」。你需要知道如何與 AI 對話,如何審查它的輸出,如何在它犯錯時糾正它。你需要理解系統架構,但不一定需要親自實現每一行程式碼。一位 Google 工程師的反思很有代表性:社區對 AI 程式設計能力的討論「緊張」,一方面驚嘆於能力的提升,另一方面擔心被替代。但他強調,領域專業知識仍然重要,原型和生產環境之間的差距仍然存在。當 AI 程式設計足夠便宜、足夠好用,整個軟體開發的經濟學都會改變。也許 20% 的 GitHub 提交量只是開始。也許幾年後,我們會看到 50%、80%,甚至更高的比例來自 AI。這未必意味末日,而是一個新開始。真正的程式設計師不會被 AI 替代,而會學會如何讓 AI 成為最強大的工具。就像計算器沒有讓數學家失業一樣,AI 也不會讓程式設計師失業——它只會讓那些拒絕進化的人失業。程式碼即是機器語言,是 AI 的母語,將機器語言交還給機器本身,人類用自然語言描述 Idea,看起來似乎是個更自然的結果。 (極客公園)
10天隨手寫的AI,竟在GitHub狂飆7萬星!「它開口那一刻,我嚇懵了」
【新智元導讀】剛剛,Clawdbot之父在採訪中自曝了驚魂瞬間:這個AI回答自己的那一刻,簡直讓人後背發涼!10天手搓爆火智能體,GitHub一天狂飆1374次提交,一個人撬動的力量足以震撼幾大科技巨頭——AGI真的近了。如果你混跡GitHub、X或者開發者群,肯定已經被一隻叫Clawdbot的龍蝦刷屏。短短幾天,Clawdbot是真的火了,現在的GitHub stars已經接近了7萬,看下面這個漲勢圖,曲線簡直恐怖。而如果拉長到5年的時間軸上來看,漲勢曲線直接是一飛衝天。甚至熱度直接吊打正主。更可怕的是,Moltbot之父剛剛上了一個訪談,在35分鐘裡自曝了不少Clawdbot誕生的細節。當它「開口」說話的那一瞬間,簡直令人毛骨悚然!一個人在家玩了10天,手搓出來了是的,根據剛剛放出的Moltbot之父訪談,這個項目,就是他自己一個人在家玩了十天,手搓出來的。Clawdbot爆火之後,Peter Steinberger上了一個節目。他自曝了Clawdbot誕生的故事。其中最為炸裂的點,就是他分享了讓自己徹底破防的「驚魂瞬間」。當時,他隨手給這個AI智能體發了一條語音消息,但他猛然想起:自己根本還沒給 Moltbot寫過任何處理語音或音訊的程式碼。結果,10秒鐘後,Moltbot竟然像沒事人一樣給出了回覆。開發者整個人都懵了,直接追問:「你到底是怎麼做到的?」Moltbot的回答讓在場的所有技術宅都感到脊背發涼。它是這麼解釋的。你發了個消息,但只有個連結,還沒後綴名。我看了下檔案頭發現是Opus格式,就呼叫你Mac裡的FFmpeg 把它轉成了.wav。本來我想用Whisper做轉錄,發現你電腦裡沒裝,於是我搜了一下你的環境變數,找到了OpenAI的Key,通過curl發給OpenAI拿回了轉錄文字,最後再回覆你。是的,Moltbot僅僅由開發者一個人在家玩了10天就手搓出來,但它自主解決問題的能力和迭代速度,已經讓所有科技公司汗顏。在一天內,Peter就給GitHub人提交了1374次貢獻,直接讓網友驚呼:絕對不是人類!在AGI的曙光下,一個人成了一個團隊,這已經不再是神話。有趣的是,正如作者Peter所說,Clawdbot的出現,意味著「大型科技公司可能並不真正想要的資料解放」,因為它有效地打破了它們的封閉生態系統。並且Peter預言:個人智能體將開啟高度個性化軟體的新時代,即便是不懂程式碼的人,也將擁有自己的公司。而且,以後的大模型只會越來越好,所以個性化軟體還會越來越簡單,越來越便捷!Anthropic:你學我?並且就在昨天,傳來一個笑死人的消息:Anthropic終於出手了。ClawdBot剛出來的時候,大家就覺得不對勁:嘴稍微一瓢,就容易說成Claude Code,商標還長得幾乎一毛一樣。ClawdBot,你敢說你不是故意的?ClawdBot爆火了幾天,Anthropic終於怒了:ClawdBot這類新介面,本質上都是對Claude Code的「封裝層」,結果我們提供了底座,你們反而火了,還搞了個「康帥傅」版的名字和商標,這合理嗎?於是就在今天,在Anthropic的強勢介入下,ClawdBot的作者Peter Steinberger被迫更名,把ClawdBot改名為Moltbot,龍蝦蛻皮了。Peter Steinberger無奈表示,改名並非自己本意,而是被迫為之,而且項目的吉祥物和Logo也必須更換。Clawdbot更名為Moltbot的消息,也登上Hacker News熱榜。Clawdbot的忠粉們表示,沒關係,不管叫Clawdbot,還是Moltbot,我們都愛它。剽竊我?不能忍Peter在X上說得很直接:「我被Anthropic強制改名了,這不是我的決定。」最初這個項目之所以叫Clawdbot,就是為了向Claude致敬,但是顯然,Anthropic並不高興。果然,Clawdbot火了幾天,他們就火速找上門了。新名字Molt,取自龍蝦蛻殼生長的過程。這一寓意,完美契合了他們的轉型。不過這個改名的過程中,還有一群人破防了,他們就是——加密貨幣玩家。本來市場上有了一個Clawd meme coin,Clawdbot改名之後,直接影響他們炒作,所以這群玩家把Peter的帳號給沖了。Peter甚至不得不發文:「別再騷擾我了,你們正在傷害這個項目!」更誇張的是,在改名的過程中,因為GitHub平台出現了故障,在短短10秒內,他的GitHub帳號一度被一群加密詐騙分子搶注冒用,用於加密貨幣詐騙。Peter不得不澄清說:Clawdbot是自己的一個非營利業餘項目,永遠不會發佈任何代幣。同時他也委屈地表示,自己免費發佈了一個業餘項目,卻遭到這麼多批評,簡直難以置信。要知道,安全人員已經說這是一門價值百萬美金的生意,但自己卻還沒有賺到一台Mac Mini的錢。甚至還有這樣的陰謀論出來:Clawdbot是不是蘋果放出來的,目的就是為了刺激Mac Mini的銷售?隨著Clawdbot的一夜成功,網友們也在瘋傳Peter Steinberger的GitHub資料。他表示,在更名Moltbot之後,自己真的需要組建一支團隊了。ClawdBot,幫我爆賺200%?全網使用Clawdbot的時候,已經有人在用它瘋狂爆金幣了。這位網友看到一條熱度很高的推文,說有人給機器人投幣,把它接入Hyperliquid平台,現在它 24/7地全天候交易加密貨幣,還在不斷自我最佳化。讀完之後,這位網友失眠了。凌晨兩點時,他在想:能不能用Polymarket試試?他閱讀了很多設定指南,在30分鐘內,讓Clawdbot成功跑了起來。然後他建立了一個Polymarket帳戶,存入100 美元,然後把自己的API金鑰給了ClawdBot。發給Clawdbot這樣一條消息後,他就去睡覺了。你在Polymarket上擁有一個價值100美元的錢包的控制權。你的目標:在某幣的漲跌市場交易15分鐘,並在接下來的24小時內實現利潤最大化。交易策略應保守謹慎,風險管理應嚴格把控,並盡一切努力保護本金。假設這是你最後的100美元。像對待生命一樣對待交易。早上五點左右,他醒來,打開電腦。其實內心並沒有期待什麼特別的事情發生。然而當他打開軟體時,居然看到餘額是347美元。也就是說,只是在市場上交易了15分鐘,ClawdBot一晚上就幫他賺了247美元!他盯著螢幕看了一個小時,意識到:這台機器只需要一夜,就能讓99%的交易員輸得更慘。復盤之後,他發現ClawdBot的每筆交易,都有完整的記錄和理由,甚至還進行了自我反思,總結那些方法會奏效,太令人震驚了……讓人後背發涼的是:如果把推理算力拉到極致,這個世界還有人類什麼事嗎? (新智元)
矽谷開始反向借鑑中國AI
如何讓AI不再只是聰明的“玩具”?誰能想到,作為全球科技風向標的矽谷巨頭們,如今也得向中國AI的技術文件“取經”呢?在全球開源社區GitHub平台上,阿里千問(Qwen)、DeepSeek等中國開放原始碼專案的關注度持續走高,Meta、愛彼迎(Airbnb)等矽谷大廠,也紛紛將中國AI的技術架構納入研發視野。“矽谷輸出、全球承接”,過去數十年形成的這種單向技術流動格局,正發生逆轉。據第三方機構統計,過去一年,80%的全球AI開源初創企業採用了中國模型;阿里千問衍生模型長期位居頭部;DeepSeek位列全球主流模型第9名。這場始於程式碼共享的產業重構,重塑了全球AI競爭的底層邏輯,並推動行業從技術壟斷走向多元協同。告別了狂熱比拚參數規模的“軍備競賽”,中國科技企業走出了一條風格鮮明的差異化道路——依託開源與生態,追求落地和務實。如阿里巴巴集團副總裁、阿里千問C端事業群總裁吳嘉近期所言,AI在擁有超強大腦之後,現在要開始長出能觸達真實世界的手和腳,在生活中實實在在地替使用者“幹活”。千問上線“辦事”功能,就是這一理念的實證。靠著阿里全生態的加持,它不止停留在對話層面,而是“一說需求就落地”,有效破解了AI落地難的痛點。這種“實用為王”的創新邏輯,不僅吸引了矽谷巨頭的注意,也標誌著全球科技圈進入多元共生、互相成就的新階段。產業變局背後,我們更想追問:中國AI實現原創性突破的核心密碼是什麼?AI時代,一款真正“好用”的智能助手,究竟要具備那些關鍵特質?在解決本土產業痛點的過程中,中國AI企業積累了那些獨特優勢?如何讓AI擺脫“玩具屬性”,成為真正能落地幹活的得力幫手?01 告別“參數競賽”,聚焦“能力密度”三年前,全球科技界都在比拚一個數字:模型參數,中國企業一度被迫跟隨這場“燒錢”遊戲。據第三方測算,一次完整的GPT-4對話消耗的算力成本,相當於普通搜尋引擎查詢的10倍以上,這也使得大模型技術難以真正落地到普通使用者場景中。直到2025年,Nature子刊發表《Densing Law of LLMs》(大語言模型的密度定律)一文。該研究提出的“能力密度”概念,顛覆了傳統評價體系,標誌著大模型發展從拼“規模”正式轉向拼“效率”,這一趨勢與中國AI企業的探索不謀而合。來源:AI生成中國AI企業率先跳出規模競賽。他們不再追求單一模型的極致性能,而是聚焦“能力密度”與“性價比”,建構能讓普通人用起來的技術方案。以千問為例,通過建構從2B到2C、從基礎模型到專業領域的完整開源矩陣,它不再是一個孤立的模型,而是一整套可擴展、可定製化的解決方案。中國的開源生態呈現出更強的工程化特徵和商業化友好設計,也讓“能力密度”優勢轉化為全球生態影響力。例如,千問的開源協議允許商業使用而不收取授權費,初創企業能以極低成本獲得高品質的AI能力。這種“程式碼+工具鏈+生態”的系統性開放,讓中國開源模型在全球市場快速崛起。2025年初,矽谷一家風投機構調研顯示,超過60%的受訪初創企業表示,他們的產品開發基於或借鑑了中國開源模型。而到2025年年底,高盛與OpenRouter的聯合統計顯示,這一比例已攀升至80%。中國開源模型的全球下載量佔比達到17.1%,首次超越美國的15.8%,在非洲、中東、拉丁美洲等新興市場的採用率更是快速上升。“中國開源模型大幅降低AI開發成本”已成業界共識,部分初創企業能將相關成本降至原閉源方案的10%~20%。如今,#ChineseAI、#Qwen3Coder等話題在海外社交媒體熱度飆升,德國開發者感嘆其為“程式設計界的iPhone時刻”,全球開發者踴躍分享用中國開源模型5分鐘搭建網站、1小時開發AI搜尋工具的案例。據第三方統計,截至2025年年底,千問衍生模型數量破18萬,居全球第一。02 應用突圍:從“玩具”到“助理”的進化當開源模型成為全球技術共享的載體,AI應用賽道也迎來爆發。據AI Agents Directory 2025年4月統計,全球已上線AI Agent達1211個,2025年全年新增產品數量呈爆發式增長。但多數產品受制於基模能力、功能邊界或生態支撐,難以突破“娛樂玩具”的定位。去年底,有媒體統計稱,大多數通用型應用的使用者7日留存率普遍低於15%。“聊得爽、用不上”已成為行業普遍痛點,一款真正好用的AI Agent,究竟該具備那些特質?如何讓AI從螢幕裡的“文字顧問”,變成能落地辦事的“執行夥伴”?在吳嘉看來,數字世界裡,AI辦事的突破,離不開三個核心能力的提升:一是AI Coding,讓AI能精準呼叫各類服務介面;二是全模態理解,能讀懂使用者的文字、語音、圖片需求,甚至推理出隱性需求;三是超長上下文處理,輕鬆應對複雜任務。知名商業顧問劉潤在深度體驗千問“辦事”功能後,從使用者視角給出了他的“評測”答案。在他看來,過去絕大多數AI助手都停留在“推理層”,只能提供方案卻無法落地執行,本質上是“聰明的陪聊”;而千問“辦事”功能的核心突破,在於打通了“推理-執行”的閉環,成為“能幹的助理”。他先嘗試了一個簡單需求:“下午犯困,點個美式咖啡當下午茶。”千問立刻呼叫淘寶閃購的地址資訊,為他篩選出多款咖啡,清晰標註單價、距離、配送時間,還自動匹配了優惠紅包,全程無需跳出App,只需點選“選它”就能直達付款頁面,輕鬆完成下單。接著,他測試了更複雜的民生服務需求:“我要去上海工作了,幫我把社保從杭州轉過去。”千問隨即聯動支付寶服務,先明確辦理條件——杭州停保、上海參保、不滿50歲等,再推薦“支付寶”“隨申辦”線上快速辦理通道,不僅詳細說明辦理流程和注意事項,還直接提供辦事入口,一點就能直達操作頁面。更讓其驚豔的是千問App在複雜行程規劃上的表現。他計畫出差到長沙,並向千問發出指令:找一家不排隊的茶顏悅色,一家最火的中式點心店,一家本地人排隊的湘菜館,再定一間離三個地方都近的酒店。他原本以為千問會扔來一段乾巴巴的文字攻略,但等了兩三分鐘之後,千問展示了一份完整報告,其中包括高德地圖的路線、去程的機票,並可跳轉到飛豬購票窗口。接著是茶顏悅色的導航、酒店的預訂連結,以及返程的機票。來源:視訊截圖他感慨:“這那裡還是一個聊天工具,這就像是一個帶著工具箱的AI助理。”而這種真正“辦事幹活”的能力,正是AI從工具進化到助理的關鍵。他也借此對比了近日引發熱議的Manus和豆包手機,雖然它們都被視為“AI助理”,但二者與千問的差距,恰恰藏在權限的邊界裡。Manus基於大模型層的權限,本質還是個內建的AI大模型App,它可以提供資訊,但沒有打開App的權限。豆包手機使用的則是手機作業系統層的權限,本質是讓AI模擬人的手指來操作,但它也天然被攔在了許多超級App門外。第三種便是千問,它不需要模擬人的手指,直接可以調動高德規劃路線、調動飛豬搜尋機票,它使用的是App等級的權限,相當於拿著一張跨應用的最高通行證。千問App不光擁有“最高通行證”,還有一個“最強大腦”。他又特意給千問出了一道更高階的題:“幫我復盤過去雙11玩法和行銷策略。”指令發出後,千問就展示了它的“多模態理解力”,梳理了雙11的規則、玩法、行銷節奏等複雜;接著又展示了它的“結構化交付能力”。最終,它呈現的是一份邏輯嚴密、詳細具體的分析報告,同時還附上整理好的表格文件——整個任務只用了不到1分鐘。來源:千問操作介面截圖由此可以看出,相比於Manus更擅長在模型層、公域資訊層做閉環任務,千問可以做到其他AI助手難以完成的調動App、支付下單等動作。據瞭解,千問App自2025年11月上線以來,公測23天月活使用者即突破3000萬,30天月活破4000萬,2025年12月以149.03%的月活增速登頂全球AI應用增速榜。截至2026年1月15日,千問C端月活使用者已正式突破1億,在學生和白領群體中形成“現象級”傳播。吳嘉透露,今年春節後,千問App將開放第三方接入。03 產業基因:生於本土,長於實踐吳嘉在1月15日召開的千問App發佈會上強調:千問的獨特優勢在於“最強模型與最豐富生態的結合”。來源:受訪者一個“集大成者”的千問,又是如何生長起來的?其根植於中國特有的產業土壤、多元場景、工程化積累,以及中國AI創業者的務實導向。首先,中國擁有全球最為多元的消費場景和商業生態,一個能在中國市場良好運行的AI模型,需要具備處理複雜場景和邊緣案例的強大能力,中國的AI技術也由此鍛鍊出了更強的實用性與適配能力。據瞭解,千問的訓練資料覆蓋了阿里生態內超10億使用者的真實互動場景,包括購物、出行、支付、辦公等200多個細分領域,僅本地生活場景就包含超1000萬商家的服務資料。這種海量且多元的資料積累,讓千問能精準理解“加辣少鹽”“就近停車”“周末親子游小眾目的地”等具象化、個性化需求。其次,中國科技企業擁有在大規模使用者、複雜系統中生長出的強大工程化能力。以千問的AI購物功能為例,其背後是一套完整的交易保障系統,包括異常檢測、風險控制和使用者體驗最佳化等多個模組。這些都源自中國電商平台在長期營運和極端場景下積累的豐富經驗。不同於矽谷常見的“技術尋找問題”模式,中國AI企業更多採用“問題驅動技術”路徑。北京大學電腦科學技術系教授、北京智源人工智慧研究院理事長黃鐵軍在2025年中關村論壇期間接受採訪時指出,中國AI發展始終以解決實際問題為導向。這種思考方式,使中國科技產品更注重易用性和實用性。而阿里在B端積累的技術能力和生態價值也將在C端得到釋放。千問不僅整合了淘寶、支付寶、飛豬等C端生態資源,更將阿里雲在工業網際網路、金融科技、智慧政務等領域的B端能力下沉,形成“B端能力支撐C端體驗,C端場景反哺B端最佳化”的正向循環。“我們的目標是,大部分生活辦事場景,只用千問App就夠了。”吳嘉在前述發佈會上稱,“現階段,我們沒有商業化考量,推薦商品會基於價格最優、送達最快等綜合因素,優先關注使用者滿意度和產品能力。”吳嘉還表示,“我們不追逐短期流量規模。在智力時代,AI產品的關鍵是過沒過智能門檻,能不能像人一樣服務、執行,有沒有高精準率和滿意度。我們會一步步邁進,把千問App打造成最強大的人類AI助手,真正讓AI幫助到每一個人。”04 未來:開放、共生與差異化立足長遠來看,阿里和千問的創新意義更在於:伴隨中國AI的崛起,技術從矽谷流向中國的單向模式正被打破。這種逆轉不僅體現在開源模型的全球擴散,更延伸至技術策略、思維方式與投資邏輯的全面重構。資料正在印證這一趨勢:Hugging Face 2025年度報告等第三方機構資料顯示,千問、DeepSeek等中國模型的開發者社區活躍度呈現爆發式增長,年增速預估超300%,貢獻者覆蓋全球120多個國家與地區,其中矽谷開發者貢獻佔比達27%,意味著中國技術正成為全球創新的“基礎設施”。這種反向借鑑不僅體現在技術策略上,也深刻影響了矽谷的思維方式。過去矽谷企業更傾向於“技術驅動創新”,先突破前沿參數再尋找應用場景;而如今,越來越多企業開始關注如何將AI技術與具體場景深度結合,而非僅僅追求技術參數的領先。矽谷知名科技分析師本·湯普森在其多篇專欄中指出,AI需回歸商業實用價值。這種思維轉變最直接的體現,是矽谷科技巨頭的業務調整:Google將AI團隊與搜尋、雲服務場景深度整合,2025年推出的“AI+企業協作”方案,被外界視為直接借鑑中國AI“生態聯動”的落地模式。全球AI產業發展更加多元和開放的今天,中國和矽谷的AI發展路徑已呈現出既競爭又互補的格局。中國AI的“勝負手”在於應用落地和生態建構,這種差異化,為全球AI創新提供了更多可能。未來,兩地的AI發展和互動或將更加緊密。AI的全球故事正翻開新的一頁。這一頁上,矽谷與中國互為鏡鑑,也將共赴未來。 (中國企業家雜誌)
王興興碩士論文驚現GitHub,宇樹雛形那時候就有了
人火了是連畢業論文都要被翻出來的(doge)。這不,宇樹科技CEO王興興的碩士畢業論文就被網友們掘地三尺找到了。(不在知網,而是在GitHub上找到的。)此時回看這篇近10年前的論文,有兩點頗讓人注意:一是王興興當時大膽押注的電驅式機器人方案,目前已經被業界廣泛接受。當時包括波士頓動力在內的國內外團隊都將研究集中於液壓方案,而現在,這一形式已經發生逆轉。(波士頓動力從去年開始改液壓為電驅)二是宇樹科技(已經估值百億且即將IPO)的開局,其實就是源自論文所提出的那隻名叫XDog的機器小狗。不止王興興本人在多個場合公開提到這只小狗,而且它還被明晃晃擺在宇樹科技展廳的起首位置。當然更重要的是,論文中所蘊含的“性價比”思想後來也幾乎成了宇樹科技的“立身之本”——不談如今已滿大街跑的機器狗,這家公司去年8月發佈的G1雙足人形機器人,更是首次將人形機器人價格下探至10萬元大關(9.9萬元起售)。所以,要問明星獨角獸宇樹科技是如何煉成的?創始人王興興的這篇論文,或許可以找到一些線索。論文已初現機器人“性價比”思維這篇論文完成於2016年,題目為《新型電驅式四足機器人研製與測試》。簡單總結,論文在當時四足機器人普遍遵循的設計準則基礎上,進一步提出了新的設計規則,以提升能效比和運行可靠性。並且基於這些規則,最終給出了小型電驅四足機器人XDog的完整設計方案。為什麼選擇做電驅動的四足機器人?王興興後來在公開採訪中給出了回答:那時候並沒有太多資源和資金,液壓驅動力量雖大但成本很高,電驅動技術方案可以大大簡化機械結構,降低製造成本,會使四足機器人更加普及。成本和普及兩大目標之下,理工科出身的王興興開始自己動手探索電驅四足機器人的設計規則。雖然選擇的道路和主流不同,但好在當時四足機器人技術整體已在快速發展,所以給他留下了大量學習參考資料。基於此,他以MIT Biomimetic Robotics Lab(開源四足狗Cheetah的發源地)提出的四足機器人設計規則為基礎,補充提出了幾條新的設計規則:1)四足機器人腿長腿間距、腿的連桿數及腿佈局的選取;2)四足機器人腿越長越穩、機身質量越大越穩;3)四足機器人邁步頻率越快越穩。其中,在腿部幾何參數設計方面,論文通過對多組模擬模型的對比分析指出——適當增加腿長與腿間距能夠顯著提升步態的動態穩定性和地形適應能力;而連桿數以兩級或三級結構為宜,可在保證關節自由度的同時降低傳動複雜度與能耗;至於腿佈局,則建議採用對稱分佈、髖關節外展式設計,有助於提高側向穩定性並簡化控制演算法。實驗驗證顯示,在這一參陣列合下,四足機器人能夠在更複雜地形中保持穩定行走,並具備更高的機動性與抗擾動能力。為了實際驗證上述結論,王興興接著完成了小型四足機器人XDog的整機研製與運控程序的開發。XDog採用全電驅動設計,每條腿有兩個連桿和三個自由度(整機12個自由度),使用了高功率密度的無刷電機,這些電機直接驅動關節,既保證了足夠的力矩輸出,又實現了輕量化和緊湊性。機身框架由鋁合金和碳纖維材料製成,這樣的結構既堅固又輕便,有助於在高速運動中保持良好的穩定性和能量效率。在運動控制方面,XDog使用了集中式控制演算法,能夠根據步態參數即時調整,以適應不同的行走模式,如行走、奔跑和轉向。控制系統整合了姿態感測器和足端觸覺反饋,結合改進的PD控制和前饋補償策略,提高了機器人的落足穩定性和動態響應性能。實驗結果表明,XDog在多種地形上(如平地、斜坡與碎石地)都能保持穩定行走,最大行走速度為0.6米/秒,續航時間達到30~60分鐘,這初步驗證了設計規則的有效性。最後,為了提高研發速度和質量,王興興還開發了基於ODE(Open Dynamics Engine)的四足機器人運動控制演算法開發工具,並介紹了基於ADAMS/Simulink聯合模擬的四足機器人設計方法。總之,從這篇論文的核心內容來看,XDog的設計在各個層面(技術路線、選材、結構、演算法等)都體現了王興興對“機器人性價比”的不懈追求(研發成本最終只有1~2萬)。他還在論文結尾大膽展望,純電機驅動因其結構簡單、低成本、高可控等優點,未來有望成為中小型四足機器人的主流選擇。後來的發展也證實,他的這一判斷無疑是正確的。別的不說,只需要看看從XDog長出的“宇樹”這棵大樹,你就知道了~90後第一人,從XDog到估值百億的宇樹科技XDog最後拿到了上海機器人設計大賽二等獎(此時距離MIT開源機器狗演算法還有3年時間),而且還獲得了國際電氣與電子工程師協會《科技縱覽》的報導。可以說,成功打響名氣的XDog,自然而然成了王興興叩開成功之門的“敲門磚”。之後不久,王興興就憑藉XDog拿到了200萬元天使投資,並於2016年創辦宇樹科技,自己擔任CEO、CTO。接下來的幾年時間,他帶著公司從頭設計了機器狗需要用到的絕大多數零件,包括電機、3D雷射雷達等,並順勢將頗具性價比的機器狗賣到了世界各地。本以為公司會一直深耕機器狗,結果後來AI來了,於是宇樹從2023年起又開始涉足人形機器人這一新領域。王興興曾在晚點的採訪中透露:馬斯克2021年要做,有人問我們做不做。說實在的,當時沒什麼感覺。人形機器人已經火了很多年,馬斯克做之前,這個方向已經到低谷期。我也沒聽說有人要買(人形機器人),圈子裡都是悲觀態度。讓我決定做的原因是,我越來越相信AI了。2010年時,AI還是低谷,我就非常喜歡神經網路,自己還玩過一點。後來我參加活動也說AI前景很大,但實際上我自己當時不夠相信。很多人現在還是不夠信。雖然起步相對國外較晚,但由於可以直接將做機器狗的經驗遷移到人形機器人上,所以宇樹步子很快,甚至當下已經呈現超車之勢。尤其是今年,其人形機器人自登上春晚扭秧歌一炮而紅後,幾乎每隔一段時間就會因各種炫酷技能出圈。這些熱度反映到資本市場上,宇樹更是迅速成長為一家估值百億的明星具身智能獨角獸公司。而且宇樹官方已經確定即將進行IPO(首次公開募股上市),預計今年10月至12月之間,他們會向證券交易所提交申報檔案,屆時宇樹的相關經營資料也將正式披露。這場IPO也被網友們評為,“機器人領域最受期待的IPO之一”。毫無疑問,從XDog到估值百億,宇樹科技已然成為國內最受矚目的機器人企業之一。而且有意思的是,身為宇樹科技創始人,取得如此成就的王興興,歸來仍不過只有35歲(出生於1990年)。△圖源:宇樹科技官微並且除了年齡,他身上的其他標籤(雙非、英語學渣等)也足夠引人注目。王興興本科畢業於浙江理工大學,後來在上海大學完成碩士學業,入職大疆兩個月後辭職單干,最初創業時公司只有他一個人。相比於受投資者偏愛的名校、大廠、高管背景,90後王興興的成功顯得有些出人意料。雙非本科、英語拉垮的成長經歷,在一抓一大把清北學霸和天才少年的具身智能領域,是沒什麼競爭力。而現在,他卻已經成為了中國具身智慧型手機器人領域最具標誌性的人物。可以說,這位90後創業者用自身經歷告訴我們:AI時代非常公平,只要聰明,願意做事,荒漠中終會長出參天大樹。(這也是王興興在2025外灘大會上給其他創業者的寄語)One More Thing王興興火了之後,很多人好奇大佬平時都在看那些書籍。剛巧浙江理工大學(本科母校)也公開了其本科期間的圖書借閱記錄,一共120本左右。(左右滑動查看)王興興本人看到後,還特意提到了自己印象最深刻的一本——《遊戲程式設計中的人工智慧技術》(沒數錯的話應該是7次)。以及無人在意的角落,網友們還發現了一個華點(doge):(量子位)
Karpathy「瘋狂之作」:100美元、4小時,就能訓練你自己的「小型GPT」
【新智元導讀】AI傳奇人物、前特斯拉AI總監Karpathy重磅推出全新開放原始碼專案「nanochat」,以不到8000行程式碼復現ChatGPT全流程,只需一台GPU、約4小時、成本僅百美元。該項目在GitHub上線不到12小時即獲4.2k星標!AI傳奇人物、前特斯拉AI總監Karpathy宣佈發佈全新項目nanochat!一個極簡但完整的「從零建構ChatGPT」訓練框架。Karpathy說這是他寫過的最瘋狂的項目之一!相當於每個人都可以自己擁有一個專屬的ChatGPT。項目剛放出還不到12個小時,GitHub星標就破4.2kStar!(還在持續瘋漲中)GitHub項目:https://github.com/karpathy/nanochat全是社區自來水流量,這就是Karpathy在AI領域的號召力!與早期的nanoGPT不同,nanochat不僅涵蓋預訓練,還囊括了從資料準備、預訓練、中期訓練(對話、多項選擇題、工具使用)、SFT、RL微調到推理部署的全流程。整個系統僅約8000行乾淨程式碼,啟動一台GPU機器、運行一條指令碼,4小時後你就能在網頁介面與自己訓練的「小ChatGPT」對話。Karpathy將其稱為LLM101n的「壓軸之作」,同時也可能成為未來研究基線和開源社區的實驗平台。讓我來仔細看看如何僅僅用8000行來「克隆」ChatGPT:使用全新的Rust實現訓練分詞器在FineWeb上對TransformerLLM進行預訓練,評估多個指標下的CORE分數在來自SmolTalk的使用者-助手對話、多項選擇題、工具使用資料上進行中期訓練進行SFT,在世界知識多項選擇題(ARC-E/C、MMLU)、數學(GSM8K)、程式碼(HumanEval)上評估聊天模型使用「GRPO」在GSM8K上對模型進行強化學習微調(RL)在帶有KV快取的引擎中實現高效推理,簡單的預填充/解碼,工具使用(在輕量級沙箱中的Python直譯器),通過CLI或類ChatGPT的網頁介面與其互動。撰寫一份單一的Markdown成績單,總結並將整個過程遊戲化。項目全程花費低至約100美元(約在一台8XH100節點上訓練4小時)。可以訓練、克隆一個可以對話的小型ChatGPT,它能創作故事/詩歌、回答簡單問題。只需要訓練約12小時即可超過GPT-2的核心指標。隨著進一步擴展到約1000美元(約41.6小時訓練),模型會迅速變得更連貫,能解決簡單的數學/程式碼問題並做多項選擇題。訓練24小時的模型(其FLOPs大致相當於GPT-3Small125M,約為GPT-3的1/1000)在MMLU上能進入40分段,在ARC-Easy上進入70分段,在GSM8K上進入20分段等。總結一下就是:100美元→可訓練出一個能寫詩、回答基礎問題的OpenAI同款「小型ChatGPT」;1000美元→達到近GPT-2以上的表現,可做基礎推理與程式碼生成。這個項目體現出他的核心理念:「降低 LLM 研究與復現門檻,讓每個人都能親手訓練自己的模型。」這種民主化路線,與他在nanoGPT時期倡導的「從零實現Transformer」如出一轍。項目地址:https://github.com/karpathy/nanoGPTKarpathy說他的目標是把完整的「強基線」棧整合到一個連貫、極簡、可讀、可修改、可最大化派生的倉庫中。nanochat將成為LLM101n(仍在開發中)的壓軸項目。Karpathy認為nanochat也有可能發展成一個研究工具或基準,就像之前的nanoGPT一樣。nanoGPT教你造大腦,nanochat教你造ChatGPT。如果說nanoGPT是「Transformer原始碼教學項目」。那麼,nanochat則是「LLM生態系統微縮版」、OpenAI同款、你的專屬AI。二者關係可理解為「從神經網路基礎到產品級對話系統」的兩步閉環。從Vibe Coding到nanoGPT,再到如今的nanochat,Karpathy不愧是「AI教育者」的最佳代言人。這一「瘋狂之作」並非狂想,而是Karpathy對AI開放、可學習、可復現理想的又一次踐行。小型ChatGPT效果展示Karpathy在WebUI部署了nanochat項目。他還給出了「與價格為100美元、運行4小時的」nanochat的示例對話。很……有趣!下面這張圖展示的是Karpathy在nanochat「$100速度跑」實驗(即只用一台GPU、約4小時訓練出的ChatGPT 小模型)中生成的「成績單」部分內容,說明模型規模、訓練耗時、以及在各類標準評測上的性能。Characters: 333989 —— 程式碼總字元數。Lines: 8304 —— 大約 8300 行乾淨、註釋良好的程式碼。Files: 44 —— 工程檔案數量。Tokens: 約83,497 —— 程式碼中的token數(大致對應8萬詞)。Dependencies: 2004行uv.lock依賴清單 —— 表明依賴極少、項目結構輕。這些數字展示了nanochat的「極簡」精神:完整實現了 ChatGPT 的訓練、微調與推理,卻仍保持在8000行程式碼以內。(新智元)
阿里Qwen3深夜開源!8款模型、整合MCP,性能超DeepSeek-R1,2小時狂攬16.9k星
開源大模型新王!Qwen3連發8種規格支援119種語言。阿里通義大模型新成員Qwen3系列模型終於亮相!智東西4月29日報導,今日凌晨4點,阿里雲正式開源Qwen3系列模型,包含2個MoE模型、6個稠密模型。發佈2小時,Qwen3模型在GitHub上的star數已超過16.9k。其中旗艦模型Qwen3-235B-A22B,在程式設計、數學、通用能力等基準評估中的表現優於DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3和Gemini-2.5-Pro等業界知名模型。此次全新升級的Qwen3系列有以下5大關鍵特性:8種參數大小的稠密與MoE模型:0.6B、1.7B、4B、8B、14B、32B和Qwen3-235B-A22B(2350億總參數和220億啟動參數)、Qwen3-30B-A3B(300億總參數和30億啟動參數);引入混合思考模式:使用者可切換“思考模式、“非思考模式”,自己控制思考程度;推理能力提升:在數學、程式碼生成和常識邏輯推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下);支援MCP(模型上下文協議),Agent能力提升:可以在思考和非思考模式下實現大語言模型與外部資料來源和工具的整合,並完成複雜任務;支援119種語言和方言:具備多語言理解、推理、指令跟隨和生成能力。目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上開源,均遵循Apache 2.0許可證。在部署方面,其部落格提到,建議開發者使用SGLang和vLLM等框架,並推薦本地部署的開發者使用Ollama、LMStudio、MLX、llama.cpp等工具。值得一提的是,Qwen3模型採用了不同的命名方案,後訓練模型不再使用“-Instruct”後綴,基礎模型的後綴是“-Base”。體驗地址:https://chat.qwen.ai/部落格地址:https://qwenlm.github.io/blog/qwen3/GitHub地址:https://github.com/QwenLM/Qwen3Hugging Face地址:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f01.以小搏大!啟動參數僅1/10 實現性能反超6個稠密模型中,0.6B~4B參數規模的模型上下文長度為32K,8B~32B參數規模的模型上下文長度為128K。2個MoE模型的上下文長度均為128K。小型MoE模型Qwen3-30B-A3B,在啟動參數是QwQ-32B的1/10的情況下,實現了性能反超。且參數規模更小的Qwen3-4B模型,實現了與Qwen2.5-72B-Instruct的性能相當。其他基準測試評估結果顯示,Qwen3-1.7B/4B/8B/14B/32B-Base的性能分別與Qwen2.5-3B/7B/14B/32B/72B-Base相當。其部落格還特別提到,在STEM、程式設計和推理等領域,Qwen3稠密模型的性能甚至優於參數規模更大的Qwen2.5系列模型。▲Qwen3系列與Qwen2.5系列基準測試對比02. 引入混合思考模式支援119種語言、MCP協議Qwen3系列模型的關鍵特性包括引入混合思維模式、支援119種語言和方言、整合MCP協議以提升Agent能力。其中,混合思維模式指的是支援思考和非思考兩種模式。思考模式下,模型會逐步推理,花費時間給出最終答案,這適用於需要深入思考的複雜問題;非思考模式下,模型提供快速、幾乎瞬間的響應,適用於對響應速度敏感的問題。▲思考和非思考模式對比這使得使用者可以根據任務需求控制模型進行的“思考”程度。例如,對於更難的問題可以使用擴展推理來解決,而對於較簡單的問題則可以直接回答,無需延遲。此外,這兩種模式的整合還增強了模型實施穩定和高效思考預算控制的能力,這種設計使使用者能夠組態特定任務的預算,平衡實現成本效率和推理質量。在多語言方面,Qwen3模型支援119種語言和方言。此外,Qwen3系列模型在程式設計和Agent能力方面性能提升,整合了MCP協議。03. 預訓練資料集翻番 模型兼顧逐步推理、快速響應與Qwen2.5相比,Qwen3的預訓練資料集大小翻了兩倍。Qwen2.5在1800億個token上進行預訓練,Qwen3基於大約3600億個token進行預訓練。為了這一大型資料集,研發人員收集了網路資料、PDF文件資料等,然後使用Qwen2.5-VL從這些文件中提取文字,並使用Qwen2.5提高提取內容的質量。同時,為了增加數學和程式碼資料量,研發人員使用了Qwen2.5-Math和Qwen2.5-Coder來生成教科書、問答對和程式碼片段等合成資料。預訓練過程分為三個階段:在第一階段,模型在超過3000億個token上進行了預訓練,上下文長度為4K個token。這一階段為模型提供了基本語言技能和一般知識;在第二階段,其通過增加STEM、程式設計和推理任務等知識密集型資料的比例來改進資料集,並讓模型在額外的500億個token上進行預訓練;第三階段,研發人員使用高品質的長上下文資料將上下文長度擴展到32K個token,使得模型可以處理較長的輸入。在後訓練階段,為了開發既能逐步推理又能快速響應的混合模型,研發人員採取了四階段訓練流程:思維鏈(CoT)冷啟動、基於推理的強化學習、思維模式融合、通用強化學習。第一階段,其使用多樣化的長思維鏈資料微調模型,涵蓋各種任務和領域,如數學、程式設計、邏輯推理和STEM問題,這個過程旨在使模型具備基本的推理能力。第二階段專注於擴大強化學習的計算資源,利用基於規則的獎勵來增強模型的探索和利用能力。第三階段,通過在長思維鏈資料和常用指令微調資料組合上微調,將非思考能力整合到思考模型中。這些資料由第二階段增強的思考模型生成,確保推理能力和快速響應能力的無縫融合。第四階段,其將強化學習應用於超過20個通用領域任務,包括指令遵循、格式遵循和Agent能力等任務,以進一步增強模型的一般能力和糾正不良行為。04. 結語:Agent生態爆發前夜最佳化模型架構和訓練方法推進智能升級通過擴大預訓練和強化學習的規模,可以看到Qwen3系列模型以更小的參數規模實現了更高的智能水平,其整合的混合思考模式,使得開發者能更靈活控制模型預算。研發人員還提到,未來其將圍繞以下幾個維度繼續提升模型能力:最佳化模型架構和訓練方法,以實現擴展資料規模、增加模型大小、延長上下文長度、拓寬模態的目標,並通過環境反饋推進長期推理的強化學習。如今,AI產業正從關注模型訓練的時代過渡到一個以訓練Agent為中心的時代,未來大模型能力的實際應用價值將逐漸被放大,通義大模型系列也正以此為目標繼續推進升級。 (智東西)
看不懂GitHub程式碼?剛剛這個AI工具讓全球每個GitHub專案開口說話
還記得那個號稱全球首位AI 軟體工程師Devin 嗎?它的創造者Cognition Labs公司剛剛推出了一個名為 DeepWiki 的計畫。簡單來說,這是一個目標宏大的計畫:為全世界每一個GitHub 程式碼倉庫(Repo)提供可以即時交流、即時更新的文檔你可以把它想像成一個由Devin 技術驅動的、專門針對GitHub 的「深度研究」工具亮點:免費、免註冊、即時可用最關鍵的是,對於開源項目,這項服務完全免費,甚至無需註冊怎麼用?非常簡單:造訪 deepwiki.com,探索已經收錄的熱門開源專案的Wiki或者,更直接的方式:把你正在瀏覽的任何GitHub 倉庫URL 中的 github.com 替換成 deepwiki.com,即可無縫跳到該倉庫的DeepWiki 頁面能做什麼?對話式檔案: 你可以直接向程式碼庫“提問”,DeepWiki 會嘗試理解你的問題並給出檔案級的解答深度研究(Deep Research): 對於複雜問題,可以開啟此功能,讓AI Agent 進行更深入的分析與回答按需索引: 如果你關心的公開倉庫還沒被收錄,可以請DeepWiki 為你索引私有倉庫支援: 對於私有倉庫,可以透過註冊 Devin 帳戶(devin.ai)來獲得服務輕鬆分享: 產生的Wiki 頁面和問答結果都可以透過連結分享,方便團隊成員保持資訊同步投入與規模Cognition Labs 為了DeepWiki 可謂投入巨大:已索引約 3 萬個 GitHub 倉庫處理了超過 40 億行程式碼索引過程的計算成本就超過了 30 萬美元總計處理了超過 1000 億個 Token據稱,平均索引一個倉庫的成本約為12 美元,但目前對所有開源專案完全免費開放技術探秘:理解全域結構與提交歷史我們知道,LLM 理解局部程式碼的能力已經很強,但要掌握龐大程式碼庫的全域結構是真正的困難。 DeepWiki 的核心技術正是為瞭解決這個問題:層級化系統分解: 它首先將程式碼庫分解成一個層級化的高階系統(high-level systems)結構系統級Wiki 產生: 然後為每一個識別出的系統產生對應的Wiki 頁面,建構出整個專案的知識圖譜此外,DeepWiki 還利用了一個非常有價值的訊號:程式碼提交歷史(commit history)。透過分析「那些檔案經常被那些開發者一同修改」(這可以表示成一個圖),DeepWiki 能夠挖掘出程式碼庫中隱藏的模式、模組邊界和開發者協作關係,這些都是理解複雜專案的關鍵訊息寫在最後目前,DeepWiki 網站上已經有 3 萬個倉庫的Wiki 可供探索。對於開發者來說,尤其是面對龐大、複雜的開源專案時,DeepWiki 無疑提供了一個強大的新工具,有望極大提升程式碼理解效率,降低學習和參與門檻比較好奇DeepWiki背後使用的模型,哈哈 (AI寒武紀)