#AI研發
月薪 3 萬被截胡,AI 人才的時代紅利來了?
“我們也想要AI高手,但確實要不起。”說這話的是北京某上市遊戲公司的招聘負責人景陽,“應屆生中的AI高手非常搶手。往年,招一個應屆AI Golang工程師,月薪均值10-15k已經很高了。今年呢?現在這個月份,很多人還沒寫論文,就已經收到30k的offer了。”其實不止應屆生,有經驗的AI人才同樣被瘋搶。景陽透露,自己過去四年都沒有遇到過“人才被截胡”的事情,今年春天全扎堆了,兩個月碰見了四次。“我們看上了一位遊戲策劃,他之前深度參與了一個AI有關的項目。給候選人開了3萬的月薪,對方接了offer還答應下周入職。結果轉頭就有公司出3.6萬把人搶走。而這個候選人,原來的工資只有2.3萬,我給們的漲幅已經是高於行情了。”景陽說。似乎大家都有一個認知,AI浪潮襲來,“搶人”就等於“搶未來”。但另一邊,如果我們只看新聞標題,又感覺全球大廠似乎都在收縮——亞馬遜、甲骨文、Meta、網易、騰訊、字節跳動,裁員的消息一個接一個。各類社交媒體上,有人吐槽、有人焦慮、有人轉行,更有悲觀者喊出“學電腦沒有前途”。一邊是動輒千人的“裁員潮”,一邊是各家網羅人才、求賢若渴,生怕晚了一秒候選人就去了對家。這種反差的背後,原因其實也很簡單,不是崗位少了,是崗位的技能要求變了。放眼全球AI領域,中美兩國處於毫無疑問的領先地位。2026年3月底發佈的《全球人工智慧企業科技創新指數報告2026》,從全球遴選出100家最具創新力的標竿AI企業,其中中國佔了51家,美國37家,兩國合計壟斷了全球88%的頂尖力量。但也正是中美兩國,在這一輪AI浪潮中上演著邊裁員邊招人的“冰與火之歌”。先看中國這邊。今年年初,脈脈高聘發佈了一組資料:2026年1月至2月,國內新發的AI崗位數量同比增長了12倍,佔整個新經濟領域崗位的26.23%。也就是說,每四個新崗位裡,就有一個跟AI相關。這其中,行業“大神”是最先被搶奪的戰略資源。騰訊從OpenAI挖來了姚順雨,小米從DeepSeek挖來了羅福莉,字節跳動則成功挖到了阿里通義實驗室Qwen大模型後訓練負責人郁博文。這些名字在普通人聽來或許陌生,但在AI圈子裡,每一個都是重量級。但更值得關注的,是大廠對應屆生和實習生的態度。阿里校招崗位中,80%與AI相關,為演算法、AI研發、AI產品等實習崗位開出的日薪是500元;字節跳動的Seed校招項目給校招新人贈送“虛擬股”,讓應屆生一入職就有了“股東”身份;騰訊今年釋放了超過1萬個實習崗位,喊出了2026屆實習生薪酬“上不封頂”的口號。智聯招聘春節後前三周資料顯示,面嚮應屆生的人工智慧工程師職位數同比增長39.2%,而面向全體的職位數同比增速則為22%,應屆生需求增速高出總體17個百分點,充分說明企業對AI領域應屆生的重視與需求缺口。薪資層面,應屆人工智慧工程師職位的平均招聘月薪也達到17038元,對於應屆求職者來說,是一個兼具價值與發展潛力的優質選擇。你可能會問,一個實習生能值多少錢?答案是:在AI領域,一個優秀的年輕人,可能比一個普通的全職員工更有價值。首先,年輕人沒有“路徑依賴”,他們敢於嘗試所有全新的東西。比如,山姆·奧特曼28歲創立了OpenAI,押注大語言模型。其次,年輕人敢於“沉迷”新東西,近乎“走火入魔”的偏執往往是走向成功的先決條件之一。姚順雨的博士論文致謝裡有這樣一句話“2019年,我主動聯絡導師說‘GPT-2這類語言模型看起來很有前景,或許能直接用於解決文字遊戲’。此後五年,我不僅在研究中收穫豐碩,更與導師結下亦師亦友的情誼。”他19歲就開始“走火入魔”地研究語言模型,5年後成為這個領域的頂尖專家。再看美國那邊。Business Insider披露的資料顯示,當前AI相關實習和研究型短期項目的月薪,已經衝到7000–18000美元區間,折合人民幣約4.9-12.6萬元。頭部企業為頂尖AI博士開出的年薪,普遍在200萬到300萬元人民幣之間。具體來看,OpenAI在舊金山的實習生,月薪可以達到18300美元;GoogleDeepMind的實習生,基本年薪在11.3萬-15萬美元之間,此外還享有和全職員工一樣的醫療、餐飲、交通等福利;Meta開放了多個為期12-24周的研究實習崗位,要求是博士在讀或具備相當研究背景的候選人,薪酬區間大約在每月7650-1.2萬美元;亞馬遜則為機器人演算法實習生開出了時薪107美元的價碼。就連本身與AI關聯不大的社交平台Reddit首席執行長史蒂夫·霍夫曼都公開喊話:“加大招聘應屆生。”他給出的理由簡單卻直接——這一代人本身就是AI原生代,他們從指尖的程式碼到大腦的演算法思維,都與AI同頻生長。霍夫曼甚至算了一筆帳:(應屆生)他們用AI工具學程式設計,上手速度是傳統途徑的2倍;對大語言模型的理解比“老工程師”更直觀。最關鍵的是,他們“零折舊”,沒有傳統行業的思維定式。“如果你現在不招,以後就再也找不到他們了。”霍夫曼篤定地說,“最優秀的應屆生一旦畢業,就要立刻鎖定,否則他們會帶著自己的項目去別家。” 這既是對人才的搶奪,也是對未來的投資。如果單看數量,中國其實並不缺AI人才。經濟學人追蹤了2025年12月舉行的神經資訊處理系統大會(NeurIPS)上發表論文的研究人員的教育背景,50%的AI研究人員在職業生涯初期來自中國(2019年僅為29%);與此同時,在美國起步的研究人員佔比,則從20%下降到12%。它說明,全球AI頂尖研究人才的來源結構,正在重新洗牌。更能說明問題的是,2025年NeurIPS論文作者本科畢業院校前十名中,有9所是中國高校。其中,僅僅清華大學的畢業生,就佔到了NeurIPS研究者總數的4%。而美國最頂尖的名校麻省理工學院(MIT)僅佔1% 。這似乎足以這說明,中國正成為全球AI領域最核心的人才供給源頭。另一方面,中國人工智慧研究論文的數量、質量均居於全球第一梯隊。2025年,世界智慧財產權組織公佈的資料顯示,中國已成為全球人工智慧專利最大擁有國,佔比高達60%。奇怪的是,儘管我們的數量和質量都處於第一梯隊,但焦慮感並沒有因此減輕。焦慮的來源之一,是僱主尤其是大廠對金字塔尖人才的過度爭奪。頭部企業為頂尖AI人才開出的年薪高達百萬人民幣,這些“天才少年”往往還沒畢業,就被幾家公司同時盯上。但對於絕大多數普通的AI或電腦相關專業畢業生來說,進入大廠的門檻卻越來越高。景陽提到,如今企業招聘把AI能力排在第一,超過211、985學歷,超過大廠經驗。“新人進來必須會用AI,美術、策劃、技術、推廣,所有人都一樣。這是硬性指標,整個市場都是這樣的。”她說。6月份即將本科畢業的電腦系學生馬金告訴霞光社,自己雖然學的是電腦,但是由於只是一個普通本科學校,所以在高校林立的北京地區求職並不佔優勢。“尤其是今年龍蝦火了之後,連村口大媽都知道龍蝦可以替代人幹很多事情,讓我進一步認識到了今年求職的處境。為了更好地找到工作,我從春節開始就沒閒著,阿里達摩院的人工智慧訓練師證書、科大訊飛的智能體工程師認證、IBM人工智慧教育工作者認證,這些但凡能免費學習、免費考試的證書我都考了一遍。還有DeepLearning AI證書、哥倫比亞大學大語言模型證書和史丹佛AI工程師證書,這幾個付費的也都開始學習了,4月份會集中考試。”“過去兩個月雖然沒去學校上課,但是心裡比期末考試還緊張。上述線上課程短則幾天,長則一兩個月,自己基本每天的生活除了聽課就是備考。”馬金說,“最近又聽同學群裡說大廠喜歡有人文背景畢業生,所以我還報了‘中國石窟文化歷史與價值傳承培訓班’,結課考試後也能拿到一本證書。希望將來有機會進入《黑神話·悟空》那樣的團隊。”不過雖然如此,但是馬金的面試進展依然不太順利,甚至連一個實習機會都沒有找到。像馬金一樣焦慮的畢業生不在少數,據他透露,自己班裡70名同學普遍都沒有得到相關大廠的實習機會。除了像他這樣努力“考證”爭取實習和就業機會的,還有一部分同學已經備考公務員聯考。同樣的情形也發生在大洋彼岸。美國白宮直屬的經濟政策諮詢機構CEA發佈的《AI Talent Report》顯示,“美國AI人才缺口已突破400萬大關,人才短缺直接拉響‘紅色警報’,而國際學生尤其是中國留學生,早已成為美國 AI 領域的中流砥柱”。造成這種巨大缺口的原因主要有兩點,一是簽證政策急劇收緊——2025年H-1B申請費暴漲至10萬美元,中印兩國技術人才受影響最大;二是大規模裁員引發人才外流,2025年以來美國科技企業已裁員約9.8萬人,亞馬遜、微軟、Meta等巨頭持續縮減崗位。裁員導致的焦慮氛圍、不穩定的職業前景,進一步加速了人才外流的雪球效應。為了填補400萬的人才缺口,美國提出了一系列的AI人才供給策略。第一是強化本土培養,通過增加AI相關專業招生名額、加大教學資源投入等方式,提升大學入學率和畢業率,擴大潛在AI人才基數;第二是降低移民門檻、最佳化H-1B簽證和綠卡政策,吸引國際AI人才流入,同時留住本土AI畢業生;第三是跨行業引流,加大AI研究資金支援、最佳化產業政策,消除發展障礙,吸引其他行業人才轉入AI領域。但政策的調整需要時間,而企業的用人需求是迫在眉睫的。把視野拉遠一些,AI人才的缺乏不僅僅是中美兩國的問題,而是一個全球性的困境。根據《IFF全球人工智慧競爭力指數報告》的估算,當前全球AI人才總量約300萬人,其中研發技術類人才佔比32.6%。到2030年,全球AI人才缺口或將突破280萬,較當前增長近一倍。280萬,相當於美國第三大城市芝加哥的人口數量。而且,這還只是缺口,不是總量。在這樣的背景下,企業之間的搶人大戰只會越來越激烈。那些能夠提前鎖定優秀畢業生的公司,將在未來幾年的技術競爭中佔據先機。而那些反應遲緩、招不到人的公司,則可能被慢慢甩開。《經濟學人》在文章《The AI talent war is becoming fiercer》中指出,人才是AI時代的“石油”。從經濟學角度看,人才爭奪戰本質是“要素流動”的較量。人才不是靜態資源,而是會追逐邊際收益的“活水”。那麼,大廠到底在搶什麼樣的人?景陽公司的招聘要求是,必須會用AI,對AI有非常深入的瞭解和認知。簡單來說,“我們招的就是用AI的人,就是擁抱變化的人。我覺得,能研究AI、學習AI、應用好AI,這些人就是稀缺的。”景陽以遊戲美術崗位舉例,比如每位美術每個月能做80張圖,而另一個員工借助AI可以月產100張圖,那他倆的效率就相差了20%多。不進階的那個人最後就會被淘汰。“AI用得好的人,可以提效。假設一個部門裡10個人,都提效20%,那這個團隊在整個市場中都極具競爭力。”她說。阿里集團學術委員會主席、浙江湖畔創業研學中心教育長曾鳴在一次演講中指出“AI時代人才的三個共性”。一是超強的元認知能力。他們擅長抽象建模,能看到問題本質,習慣用第一性原理思考。這也是為什麼學應用數學的人在AI時代特別吃香,他們能把現實世界變成數學模型,這是AI時代的稀缺能力。二是自驅且充滿好奇心。這些人對改造世界充滿樂趣,“躺平”在他們字典裡不存在。矽谷真正的創業者現在已接近“9-12-7”狀態,即每天工作9到12小時,一周7天,但這不是壓力,而是激情驅動。三是快速學習和跨界能力。一個人可以幹過去七八個工種的事,適應多個崗位,甚至一人撐起一家公司。回到AI浪潮中搶人的本質,說到底,人才是第一資源,創新是第一動力。誰掌握了頂尖的AI人才,誰就能主導未來的技術標準、甚至產業生態與全球話語權。對於個人而言,順應趨勢,向“複合型、場景化、全球化”方向進化,或許才能更好適應變化的世界。AI車輪滾滾向前,各方焦慮背後也有人持謹慎態度。一位大廠獵頭告訴我們,自己從業十餘年,“見過太多風口了,二十年前手機市場好的時候,你要是個iOS開發、Android開發,別人求爺爺似的搶你;十年前,產品經理特別火,外面各種培訓班鋪天蓋地,好像是個人就能幹產品經理;七八年前,區塊鏈熱潮,數字貨幣和加密技術人才一個難求;五年前直播帶貨火了,大家就搶資料分析師和選品師。但到今天再回頭看,每個行業風口也就持續那幾年,培養人的速度明顯跟不上搶人的熱潮。”“普通人不應該總想著去追求什麼風口。普通人之所以是普通人,就是因為他後知後覺,缺少提前預判的能力。當大家都認識到這個是風口時,再進去,就已經晚了。所以對於很多人來說,最好的職業規劃不是去追什麼風口,而是現在在做什麼事,就做好這件事,或者說自己感興趣什麼事,就做好什麼事。”上述獵頭總結。 (霞光社)
AI預測權威:我還是低估了AI的速度,今年年底實現“AI研發自動化”真的有可能
AI迭代正擊穿預測極限,受Claude Opus 4.6驚人表現衝擊,權威研究員Ajeya Cotra坦言其對2026年的AI進展預測已提前失效,今年底“AI研發自動化”的機率達10%,她表示“已找不到任何穩固趨勢能斷言這不會很快發生”!人工智慧能力的躍升速度,正在讓最嚴謹的預測者也措手不及。知名AI預測研究者Ajeya Cotra近日公開承認,她僅在兩個月前發佈的2026年AI進展預測已顯著偏於保守。觸發這一自我修正的,是Anthropic最新模型Claude Opus 4.6在權威評測機構METR基準測試中的表現,該模型的軟體工程"時間跨度"已達約12小時,遠超Cotra此前預測的2026年底約24小時水平。這意味著AI在軟體工程領域的實際進展,比她的預測提前了近十個月。更具衝擊力的是,Cotra隨之上調了對"AI研發全面自動化"的機率判斷。她將今年年底前AI完全接管研究構想與實施、無需人類介入的機率維持在10%,並明確表示:"這是我第一次找不到任何可以外推的穩固趨勢,來斷言這件事不會很快發生。"這一表態在AI預測圈引發廣泛關注。Cotra曾在全球最大AI安全資助機構之一Coefficient Giving擔任AI安全研究資助負責人,目前供職於METR——一家專注於AI能力評估的機構。01 預測落空:兩個月前的判斷已經過時今年1月14日,Cotra基於2019年至2025年間時間跨度約每年翻倍不到兩次的歷史趨勢,預測2026年底最先進模型的50%成功率時間跨度約為24小時,80百分位預測為40小時。然而,僅在她發佈預測約兩個月後,Opus 4.6便被評估為具備約12小時的時間跨度。在METR測試集中,19項被估計需要人類耗時超過8小時的軟體工程任務裡,Opus 4.6能夠至少部分完成其中14項,並穩定攻克其中4項。Cotra坦言,在此後還有整整十個月進展的情況下,AI代理仍在24小時任務上有一半時間失敗,"已經不再可信"。值得注意的是,Cotra同時提示,當前時間跨度估算的不確定性顯著上升——Opus 4.6的95%置信區間為5.3小時至66小時,部分原因在於長任務數量稀少、人工完成時間多為估算,且基準測試本身已接近飽和。02 能力邊界:傳統評估框架正在失效隨著AI代理能力逼近乃至超越數十小時的任務量級,Cotra認為"時間跨度"這一概念本身的適用性正受到挑戰。她指出,任務的可分解性隨規模增長而顯著提升:一小時的偵錯任務幾乎無法拆分平行,一天的開發任務勉強可以分工但邊界模糊,而一個月乃至數月的項目則天然適合拆解為多個平行子任務。一旦AI代理能夠穩定完成80小時量級的任務,理論上便可通過"管理層AI"分配任務、"執行層AI"平行推進的方式,持續推進任意規模的項目。Cotra的同事Tom因此提出,以大型團隊完成任務所需的日曆時間,而非單人工時,作為衡量"內在難度"的更優指標。Cotra認為,隨著AI進入這一新量級,"單人時間"指標可能開始呈現超指數增長,使得年底前軟體工程能力的上限極難估算。她同時承認,這種大規模任務分解在實踐中不會完美運作——項目參與者對全域背景的直覺性把握,難以被Jira工單或Asana任務完全替代。但她認為,對於相當大一類軟體項目而言,這種模式"可能出乎意料地有效"。03 關鍵節點:AI研發自動化今年或成現實在所有預測中,最受關注的是Cotra對"AI研發全面自動化"的機率判斷。她將這一機率定義為:AI系統完全承擔研究構想與實施工作,無需人類參與。在1月的預測中,她給出了10%的機率,並在發佈後收到多位AI預測領域同行的反饋,認為這一數字偏高。但在Opus 4.6的表現出爐後,她表示10%"再次感覺處於合理區間"。Cotra同時保持審慎。她指出,全面自動化AI研發不僅需要軟體工程能力,還需要在"研究判斷力"和"創造力"等方面取得突破,而這些恰恰是當前AI系統相對人類研究者仍明顯欠缺的領域。她認為,這一目標在未來三至五年內實現的可能性,遠高於今年之內。但她的措辭已發生根本性轉變:"這是我第一次,找不到任何可以外推的穩固趨勢,來斷言它不會很快發生。" (硬AI)
“雷軍的AI秘密武器”羅福莉首秀:詳解小米AGI之路
12月17日,2025小米“人車家全生態合作夥伴大會”舉辦。在這次大會上,小米MiMo團隊負責人羅福莉完成了首秀演講。作為前DeepSeek核心成員,羅福莉自從加入小米,就被視為小米AI研發走向“正規軍化”和“極客化”的里程碑。市場曾期待她能帶來像DeepSeek那樣顛覆性的“小而美”模型,而羅福莉身上AI時代的極客特質,也許能與小米初創時期的極客基因完美相融,產生新的化學反應。羅福莉的首秀略顯緊張,但不負眾望,她帶來了一個高效的模型MiMo-V2-Flash,也拋出了新的AGI夢想。在她看來,現在的模型大多隻是“完美的語言外殼,沒有錨定現實世界的物理模型”;“真正的智能是從互動中活出來的”,通往AGI的必經之路,不是打造一個程序,而是“推演整個世界的運作邏輯,打造一個虛擬宇宙”。這次首秀,羅福莉確實帶來了鮮明的“DeepSeek 基因”,比如MoE架構、MTP技術和對極致效率的追求。此次開放原始碼的MiMo-V2-Flash模型,它具備三個核心特點:高效推理:雖然總參高達309B,但通過MoE架構僅啟動15B,結合被低估的MTP(多令牌預測)技術,生成速度達到150 tokens/秒。這帶來約2.5倍加速,主要為瞭解決車機、助手等端側互動對延遲的敏感。創新的長文字架構:設計上追求“簡單優雅”,採用Hybrid SWA機制,鎖定128 tokens的“神奇窗口”。這不僅支援256K長上下文,固定了KV快取以降低硬體壓力,還在程式碼生成上刷新了SOTA。極高的性價比:落地層面非常務實,後訓練階段採用MOPD技術,用極低的計算量(不到標準流程1/50)復刻教師模型性能,意在降低大規模部署的成本。這場首秀被安排在“人車家全生態”大會上,意義耐人尋味。羅福莉在小米的職責很明確:主導大模型研發,通過高效推理與智能體技術,推動AI從“語言互動”跨越到“物理世界”,賦能全生態。但客觀來看,端側AI智能、賦能全生態的理想還在路上,現在的硬體依然難以支撐這樣一個已經“極致效率”的模型。以當前最高端的旗艦手機為例,端側模型的舒適區依然停留在3B到7B參數之間。MiMo-V2-Flash的15B啟動參數,對移動裝置而言依然是“房間裡的大象”。所謂的“高效推理”,更多是指在雲端資料中心實現了高吞吐量,對於使用者手中的終端,這依然是一個重度依賴網路的“雲端模型”。雖然有驚喜,但是此次小米並沒有打破端側AI的算力天花板,對於期待“AI手機”變革的使用者而言,還需要繼續等待。但今天的羅福莉,確實在給小米,講了一個可圍繞“人車家生態的”、新的AGI故事。以下為演講實錄(為最佳化閱讀體驗,做了二次編輯、刪減):01 從生物演變看 AI 發展路徑今天我想帶大家換一個視角,從 10 億年生物進化的長河中,重新去審視我們正在經歷的這一場 AI 變革。如果我們回到生命進化的歷程,會發現自然界在建構智能這座金字塔時,遵循著非常嚴密的邏輯:在 6 億年前,生命首先學會了控制身體與環境互動;緊接著進化出了多巴胺系統,通過強化學習進一步提升生存能力;在 2 億年前,哺乳動物的大腦首次具備了在行動前先在大腦裡模擬未來的能力;最終我們發現,人類才登上了智能的塔尖,掌握了語言這一抽象的符號系統。所以我們能看到,生物演化的規律是先具備對物理世界的感知和生存體驗,最後才誕生了語言。但大家都能發現,到現在為止,大模型的發展路徑其實跟生物進化路徑是不同步的,甚至說是一種倒敘,或者說是一種跳躍。生物是先從行動進化到思考,再進化到語言;但是大模型是先學會了語言,再去補齊它的思考能力,最後再去補齊對物理世界的模擬以及具身感知。為什麼大模型智能的產生首先是在語言領域?因為語言不僅僅是一種符號的排列組合,更是人類思維以及對於世界的一種描述。在文字領域的投射,本質上是一種失真壓縮。當大模型通過 Next Token Prediction(下一詞預測)這種範式在海量文字裡進行學習,試圖把 Loss(損失函數)降到最低的時候,我們發現它不僅僅是在擬合一個統計規律,而是在壓縮人類數十億年間關於這個世界的認知同構。這種壓縮的過程,在我們看來就是一種智能。所以,大模型通過語言的爆發,通過 Scaling(擴展)算力和資料,從而理解了人類的思維和對世界的理解。但其實它並不真正像人類一樣具備對整個物理世界的感知。嚴謹來說,它應該是成功地解碼了人類思維在文字空間的一個投影。大家都能看到,這其實是一種自頂向下的捷徑,因為它是在學習一種智能的結果,來倒推智能產生的過程。02 MiMo-V2-Flash 的誕生,解決三大核心問題不管怎麼說,語言包含了人類對世界極致的壓縮,是智慧的結晶,也是高階智能體之間高效協作的工具。因此,小米從語言出發,建構了全新一代面向 Agent(智能體)的基座模型——MiMo-V2-Flash。MiMo-V2-Flash 在研發之初,主要圍繞著三個非常關鍵的問題展開:第一,我們認為當代的智能體必須要有一個高效的溝通語言,即程式碼能力和工具呼叫能力。第二,目前智能體之間的溝通頻寬非常低,如何加速頻寬?這需要一個推理效率極高的模型結構。第三,Scaling 的範式已經逐步從預訓練(Pre-train)轉向後訓練(Post-train),我們如何激發後訓練的潛能?這就需要一個穩定的範式,以便在強化學習(RL)上投入更多的 Compute(算力)。在這三個問題的驅動下,我們看到了 MiMo-V2-Flash 超強的基座潛能。雖然它的總參數在我看來非常小——總參數 309B,啟動參數隻有 15B,我甚至都不願意稱它為“大”模型——但它的程式碼能力和 Agent 能力在世界級公開公正的評估榜單上,已經進入了全球開源模型 Top 1-2 的行列。基本上,大部分評估基準已經超過或者與 DeepSeek-V3、Kimi、Qwen 等模型相當,而這些模型的總參數量通常是 MiMo-V2-Flash 的兩倍到三倍。03 性能與成本的平衡,挑戰推理不可能三角這個圖展示了全球相同水位大模型在價格和速度上的比較:橫軸是推理價格(從大到小),縱軸是推理速度(從小到大)。我們能看到 MiMo 在右上角,代表了低成本、高速度。舉兩個模型進行對比: 比如 DeepSeek-V3.2,MiMo-V2-Flash 比它更便宜一點,但推理速度大概是 V3.2 的三倍左右。再比如 Gemini 2.5 Pro,雖然綜合性能相當,且推理速度差不多,但 Gemini 2.5 Pro 的推理成本比 MiMo-V2-Flash 貴了整整 20 倍。04 架構創新與 MTP 加速那麼我們是怎麼做到這一切的呢?核心關鍵在於圍繞“極致推理效率”重新設計模型結構,主要依靠兩個創新。第一個是 Hybrid Attention(混合注意力)結構。我們採用了 Hybrid Sliding Window Attention(混合滑動窗口注意力)和 Full Attention(全域注意力),比例大概是 5:1。為什麼選 Sliding Window Attention?因為它看起來非常簡單,只關注鄰域的 128 個 Token。經過大量實驗驗證,我們發現一些看似複雜的 Linear Attention(線性注意力)結構,在兼顧長短文推理和知識檢索的綜合性能上,其實並不如簡單的 Sliding Window Attention。更重要的是,它的 KV Cache 是固定的,能非常好地適配當代主流的 Infra(基礎設施)推理框架。圖:全域注意力(GA)和滑動窗口注意力(SWA)的1:5混合結構第二個是 挖掘 MTP(Multi-Token Prediction,多令牌預測)的潛力。MTP 一開始被提出是用於做推理加速的,後來 DeepSeek 將其用於提升基座模型能力。我們在訓練時加入了一層 MTP 層以提升基座潛能,並且在微調時加入了更多層的 MTP,用少量算力就提升了 MTP 層的接受率。最終推理時,我們使用了三層 MTP 進行加速平行 Token 驗證。在實際場景中,這種方式能做到 2.2 到 2.6 倍的推理加速。在社區關於三層 MTP 的情況下,我們來看模型輸出吞吐:在單機吞吐能做到 5,000~15,000 Tokens/秒的基礎上,單請求吞吐也能做到 150~155 Tokens/秒。使用 MTP 相比不使用,整體速度提升了 2 到 3 倍。05 訓練範式革新:MOPD 與自進化除了關注預訓練結構的高效性,我們還在思考如何擴展強化學習訓練的 Compute。強化學習訓練通常非常不穩定,因此我們提出了 MOPD(Multi-Teacher On-Policy Distillation,多教師線上策略蒸餾) 範式。它的核心在於 On-Policy,依賴稠密的 Token Level Reward(令牌級獎勵)進行監督學習。通常 Post-train 範式會通過 SFT 和 RL 拿到各領域專家模型。MOPD 則會讓 Student(學生)模型基於自身機率分佈 Roll out(生成)一些序列,然後用專家模型對這些序列進行打分,提供非常稠密的監督訊號。我們發現這種學習效率極高,通過簡短的幾十步就能將各領域專家的能力快速蒸餾到 Student 模型上。此外,我們還有一個意外發現:當 Student 很快超越 Teacher 時,我們正在嘗試將 Teacher 替換成更強的 Student,繼續自我迭代提升,這是一個正在進行中的工作。06 邁向物理世界:從語言模擬到真實互動MiMo-V2 已經初步具備在語言空間模擬世界的能力。比如,我們可以通過 HTML 讓它寫一個作業系統,很多功能都是可實現的;或者寫一個 HTML 模擬太陽系;甚至做一個畫聖誕樹並產生互動的小 Demo。MiMo-V2-Flash 已經在昨天發佈,我們開源了所有模型權重,同步了技術報告細節,並提供了 API 供開發者接入 Web Coding IDE。我們的體驗 Web 也已上線,大家可以掃描試用。雖然現在的大模型能聊天、能寫程式碼,但我相信大家還是不放心把身邊複雜的任務交給它。我認為真正的下一代智能體系統,不應該只是一個語言模擬器,而是需要跟世界共存。下一代智能體必須具備兩個潛能: 第一,從“回答問題”變成“完成任務”。 這不僅需要記憶、推理、規劃能力,更需要一個 Omni(全模態)的感知能力。做一個統一的動態系統非常必要,這是理解世界的基礎。有了這個基礎,模型才能無縫嵌入到像眼鏡這樣的智能終端,融入我們的生活流。第二,建構物理模型。 回到開頭的話題,現有大模型本質上是用算力的“暴力美學”攻克了頂層的語言和第二層的強化學習,但跳過了中間對世界的感知和模擬,以及底層的實體互動。這就是為什麼大模型能做奧數、模仿莎士比亞,卻不懂重力等物理法則,經常產生具身幻覺。因此,AI 進化的下一個起點,一定要有一個可以跟真實環境互動的物理模型。我們要打造的本質上不是一個程序,而是一個具備物理一致性、時空連貫性的虛擬宇宙。這意味著 AI 能力的本質跨越——不僅僅是看懂畫面,而是理解背後的物理規律;不僅僅是處理文字,而是推演世界的運作邏輯。真正的智能絕對不是在文字裡讀出來的,而是在互動裡“活”出來的。 (騰訊科技)
蘋果Siri王炸新功能曝出,AI操控一切App,又一華人AI研發跳槽Meta
蘋果將實現“動口不動手”操作iPhone。新版Siri終於要來了!智東西8月11日消息,知名蘋果爆料人、彭博社記者馬克·古爾曼最新爆料,蘋果即將推出新版Siri語音控制功能,並升級其開發者框架App Intents。升級後的Siri將可以僅用聲音指示就可以自主打開App完成發帖、購物等操作。對於新款產品,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初,搭載M5晶片的版本將於明年初發佈。此外,爆料還稱,蘋果CEO蒂姆·庫克與美國總統川普達成協議,將在美國本土生產iPhone和Apple Watch的蓋板玻璃。蘋果正完成正式版iOS 26和Liquid Glass 1.0的研發工作,且蘋果短期內不會在美國生產iPhone。另外,蘋果AI工程師朱雲轉投Meta,這已是自龐若鳴以來的離開蘋果的第5位AI工程師。01. 新一代siri要來了! 僅用語音就能操作應用程式在此前,許多蘋果觀察人士惋惜Siri無法呼叫個人資訊來更好地處理請求,例如尋找朋友傳送的特定檔案、定位通過簡訊分享的歌曲,或從照片中調取駕照號碼。這項能力本是2024年全球開發者大會上Siri演示的亮點,但其卻被推遲到現在。▲2024年全球開發者大會上展示的Siri(圖源:CNBC)但古爾曼認為這沒什麼大不了的,真正改變遊戲規則且蘋果幾乎未曾提及的,是升級版的開發者框架App Intents,這項技術可能最終使Siri成為iPhone真正的免提控製器。新的App Intents將意味著,僅用聲音,使用者就能指示Siri找到一張特定照片,編輯它並行送出去;或是在Instagram帖子上發表評論;或是滾動瀏覽購物應用並將某物加入購物車。或是不觸碰螢幕就登錄某項服務。本質上,Siri將能像你一樣操作你的應用,精確地在它們自己的介面內完成操作。如果蘋果能成功實現這一點,這不僅是一個不錯的易用性升級,更是兌現了近15年前Siri所承諾的願景。這也是蘋果下一個硬體發展的關鍵。蘋果即將推出的家用裝置,例如計畫明年推出的智能顯示器和之後的桌面機器人,都將依賴這項技術來實現自然互動。沒有新的App Intents,這些產品的吸引力可能還不如亞馬遜和Google5年前推出的裝置。這就是為什麼Siri的延期在整個公司的其他產品計畫中產生了連鎖反應,它已經導致智能顯示器的發佈被推遲整整一年。蘋果深知其中利害。在公司內部,測試和完善這一功能已成為其全球資料營運團隊的首要任務,該團隊專門負責將Siri和Apple Intelligence的輸出與原始資料進行比對,排查錯誤並為潛在修復提供依據,蘋果不希望再次因承諾過高而交付不足登上新聞頭條。當前計畫是在春季隨Siri基礎設施全面升級時推出該功能,並進行大力推廣。但據內部消息,公司內部存在一些擔憂:工程師們正竭力確保該系統能相容足夠多的應用程式,並具備處理高風險場景所需的精確度。特別是在健康類、銀行類等對精度要求嚴苛的應用場景,軟體故障的風險令人憂慮。多年來,使用者飽受Siri理解偏差之苦,當手機搞錯你查詢天氣的城市或導航至錯誤餐廳時,雖令人惱火但尚不致命。但若讓現有版本的Siri全面接管所有應用操作,風險係數將呈幾何級增長。正因如此,蘋果選擇暫緩新版Siri的全面鋪開。目前蘋果正與優選第三方應用進行測試,名單包括Uber、AllTrails、Threads、Temu(海外版拼多多)、亞馬遜、YouTube、Facebook、WhatsApp甚至部分遊戲應用。針對銀行等敏感領域,蘋果正考慮嚴格限制Siri的操作權限或直接排除這些功能範疇。這場變革遠不止於提升Siri的智能水平,實質是為蘋果生態系統打造全新的語音優先互動介面。倘若蘋果真能將其成功推向市場,很可能會成為多數使用者始料未及的爆款產品。另外,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初發佈,搭載M5晶片的版本將於明年初發佈。02. 蘋果將在美國本土生產手機和手錶的蓋板玻璃多年來,蘋果CEO蒂姆·庫克一直自豪地強調iPhone玻璃“美國製造”的屬性,這源於與康寧公司的長期合作。但蘋果上周的表態顯示,這一說法並不完全屬實。在與美國總統川普達成的新協議部分內容中,蘋果承諾將在美國本土生產全部iPhone和Apple Watch的蓋板玻璃,暗示此前部分材料實為海外採購。▲美國總統川普與庫克(圖源:彭博社)需說明的是,庫克或許從未明確宣稱所有iPhone玻璃均為美國生產。但他在“美國製造”宣傳中頻繁提及與康寧的合作關係,足以讓公眾形成這種認知。以蘋果2021年的新聞稿為例:“在蘋果先進製造基金支援下,雙方專家共同研發了新型微晶玻璃,其強度源自奈米陶瓷晶體。該材料在康寧肯塔基州哈囉茲堡工廠生產——這裡正是歷代iPhone玻璃的製造基地。”事實上,據知情人士透露,此前僅有部分玻璃產自肯塔基州,因此這項Apple Watch玻璃本土化生產的最新承諾標誌著重大調整。但這仍只是象徵性的舉措,因為蘋果玻璃製造的核心成本與工藝難點在於海外完成的切割與精加工環節,肯塔基州僅負責原始玻璃基板的生產。且蘋果宣稱康寧產線調整將耗資25億美元(約合人民幣179.5億元),該數字在蘋果宣傳的“未來數年6000億美元(約合人民幣4.3兆元)對美投資計畫”面前相形見絀,25億美元僅佔總額的0.4%。古爾曼認為,庫克正雙線操作,既向川普釋放“全面配合政策”訊號,又向公眾行銷這一形象。為維持川普政府好感,庫克顯然認為這值得付出任何代價。但消費者是否買帳仍是未知數,部分使用者或願為避開政治鬧劇支付溢價,另一些則樂見庫克保護股東利益並維持產品售價的務實策略。03. 蘋果即將完成iOS 26和首版Liquid Glass的開發工作隨著公司準備在9月上旬推出iPhone 17系列及其他新產品,蘋果工程師們正接近完成iOS 26及配套作業系統的最終期限,上周第五個測試版已非常接近最終公開版本的發佈。▲iOS 26(圖源:彭博社)最新的測試版運行相當流暢,公司在整體性能和電池續航方面確實有所改進。最新測試版中最大的變化包括:解鎖iPhone和在控制中心滾動時出現的彈性動畫,以及相機應用中可反轉滑動方向以在視訊、照片、人像和全景等模式間切換的功能。動態島介面還為低電量警報設計了新樣式。還記得三年前蘋果在iPhone 14上推出動態島時,聲稱將逐步改進和擴展該功能嗎?然而除了一兩個小調整外,蘋果幾乎什麼都沒做。這再次印證了蘋果推出某項功能後便基本不再跟進的做法。04. 朱雲跳槽Meta 短期內還將有人離職蘋果又一位AI工程師轉投Meta。上個月,已有四名知名AI模型工程師從蘋果跳槽至Meta的超級智能實驗室,其中包括蘋果基礎模型團隊前負責人龐若明,以及他的三名工程師馬克·李、湯姆·岡特和張博文。如今,第五位AI研究員朱雲也將離開蘋果的模型團隊前往Meta,將加入超級智能實驗室集團現有的基礎模型團隊。▲朱雲(圖源:Linkedin)其領英首頁顯示,朱雲於2022年1月加入蘋果,擔任蘋果機器學習工程師,至今已有近四年的時間。如今對蘋果AI模型團隊來說是個艱難時期,由於公司在人工智慧領域的進展令人失望,該團隊備受壓力。據知情人士透露,在士氣低落和Meta開出天價薪酬的雙重影響下,短期內可能會有更多人離職。05. 結語:蘋果正在經歷轉型陣痛智能顯示器等新硬體延期,暴露出蘋果軟體能力對硬體路線的制約。相較亞馬遜Alexa與GoogleAssistant已建構的智能家居矩陣,蘋果的滯後可能使其錯過家庭入口的關鍵窗口期。連續5名AI核心成員轉投Meta,不僅削弱了其研發實力,更暴露蘋果在生成式AI浪潮中的戰略搖擺,專注垂直場景的蘋果可能還將面臨更嚴峻的人才爭奪。 (智東西)