#“ChatGPT
這家公司,81%的老美沒聽過!
【新智元導讀】2025年,AI像空氣一樣無孔不入,可我們卻越來越不敢呼吸。一份跨越全美的民調戳破了科技繁榮的假象:在高效的背面,是藍領的倒計時和白領的盲目。當「跑贏對手」不再重要,我們該如何守住身為人的最後那份解釋權?過去20年,那些影響深遠的技術,電視,電腦,網際網路,智慧型手機都指向同樣的結局:被驚嘆,被接納,被依賴,直到如同呼吸一般理所當然。但這一套邏輯,放在AI身上卻行不通了。它在極短的時間裡滲透進我們的生活,可始終沒贏得我們的信任。美國公眾對AI重要性的判斷。多數人將AI視為與智慧型手機相當的重要技術,而非蒸汽機、電力等「文明級」基礎設施。AI在人們的認知裡,既不像網際網路,也不像智慧型手機,反倒像一種新型的社交媒體——高效,粘人,以及......威脅。美國公眾對不同技術整體社會影響的淨評價對比。AI的整體好感度明顯低於網際網路與智慧型手機,更接近社交媒體人們從對技術的狂熱中抽身,第一次認真地審視這位「新朋友」:我們真的要把未來,全盤託付給AI嗎?先用,再理解:AI正在變成新的「黑盒中介」很多人都用AI,但真正懂它的人,遠比想像的少。這並不是某些科技公司的年度總結,而是來自Searchlight Institute的一份全國性民調。比起模型性能,調查者更關心一些實際的問題:當AI真正進入生活,人們如何看待它?為什麼感到不安?調查結果很扎心:接近一半的受訪者認為,像ChatGPT這樣的工具只是在「翻資料庫」,或者是照著某種預設的指令碼回答。工具與公司之間的認知斷開。ChatGPT家喻戶曉,但仍有四成以上的人從未聽說過OpenAI;像Anthropic這種處於核心技術圈的公司,八成以上的人完全沒聽過。美國公眾對主要科技公司的認知對比。與Google、Amazon等傳統科技公司相比,AI公司仍處在大規模「認知空白」中。先使用,再理解,這是一種十分危險的「邏輯倒置」。當我們把查證、篩選、總結這些環節交給AI,卻並不清楚它如何運作、依據什麼做判斷、又在受誰影響時,權力的天平已經悄悄傾斜。報告中有一個細節:AI正在成為一種新的「資訊中介」。越來越多的人不再直接觸碰原始資訊,而是習慣於先看一眼由模型生成的摘要、排序和解釋。這意味著,無論是公共議題還是健康資訊,在我們看到之前,其實已經被AI 「加工」過了。當這種過濾成為一種潛移默化的習慣,問題就不僅是資訊來源準不準確,而是——我們看到的,是真實的世界,還是AI編造出的世界?同一項技術,不同的生存直覺在調查中,白領群體對AI的接納度更高。他們熟練地將其接入寫作、整理與分析的流程。對他們而言,AI是生產力的加速器,是效率的延伸。但在服務業與體力勞動者的視野裡,看法完全相反。超過一半的服務業從業者認為,AI終將取代他們當下的生計。他們從不糾結模型的好壞,也不關心版本的更迭,他們只在意——這個系統,是在幫我,還是在瞄準我。這恰恰是這份調查最殘酷的地方。AI製造的分裂,從來不是會不會用,而是身處不同位置時的生存直覺。對白領來說,AI替他們承擔著瑣碎且低風險的雜務;但對服務業者而言,AI會侵佔那些標準化的、可複製的、容易被資料衡量的勞動。美國AI使用者的主要使用場景。當前AI更多被用於資訊獲取、文字處理等認知型任務,而非直接介入現實生產勞動。同一項技術,一邊看到的是效率提升,一邊看到的卻是失業倒計時。美國公眾對AI與工作的關係判斷。這種擔憂,並不只存在於某個行業。大多數的美國人相信AI會取代工作,而不是補充工作。這種恐懼也並非平均分佈。在調查中,醫生、電工、維修工人對「被取代」的擔憂明顯更低。因為他們深知,真實的物理世界充滿了模糊的情境與未知的現場,這是目前的演算法難以踏足的禁區。在那些關乎生死的瞬間,人類無法將「道德責任」轉嫁給一段程式碼。AI可以處理海量的資料,卻無法做出「該不該」的抉擇;它能給出精準的建議,卻無法為最終的後果負責。在這條無形的裂縫之上,AI不僅是進步的象徵,它更像一面照妖鏡,冷冷地照出了職業與階層之間,那份本就不對等的風險承擔。2025的轉向:速度,不再是最高價值在「該怎麼辦」這件事上,人們的態度出奇地一致。超過三分之二的受訪者認為,政府目前對AI的監管實在太少了。這不是要求公司按下暫停鍵,更不是要封殺技術本身,而是一種明確的價值取向:AI可以繼續發展,但前提是,它必須被測試、被約束、被追責。真正耐人尋味的,是那道關於「速度與安全」的選擇題。當「監管可能導致在國際競爭中落後」這個尖銳的籌碼被擺上桌面時,大多數受訪者依然沒有動搖。相比於「不受限制地領跑」,他們更願意接受一個雖然更慢、但更安全的版本。這是一次極其清晰的敘事反轉。長期以來,技術進步總被包裝成一場不能停下的軍備競賽——慢一步就會被超越,猶豫一下就會被淘汰。但在AI這件事上,普通人開始意識到:贏得比賽的獎勵,與失敗後要承擔的後果,往往並不是同一群人。在涉及國際競爭的前提下,美國公眾仍明顯傾向於優先制定AI的安全與隱私規則。如果勝利的代價是工作的動盪、隱私的暴露,判斷權的讓渡,那麼即便技術指標遙遙領先,這種勝利也無法讓人感到安寧。美國公眾對AI風險的主要擔憂及監管優先順序。多數關注集中在就業、隱私與資訊秩序等現實層面。調查中還有一個更極端的假設:在「完全不受監管的AI」與「乾脆禁止發展」之間,多數人並沒有投給前者,甚至陷入了長久的遲疑。這種遲疑本身就是一種表態。公眾不再迷信「技術越快越好」,他們正在權衡風險是否已經逼近了個人生活的底線。不是所有決定,都該交給演算法在這份調查裡,人們表現出的並不是盲目排斥。相反,大家對AI的認知相當清醒。它確實更高效、更快,也更擅長處理那些規則明確的事務。但當問題開始變得模糊,當後果需要被具體的某個人承擔,當判斷牽涉到複雜的價值取捨時,信任並沒有盲目地向技術傾斜。這也是為什麼,在「道德」、「複雜決策」與「透明度」這些維度上,人類依然被視為不可替代。AI可以給出看似完美的答案,但它並不生活在答案帶來的後果裡。所謂的防線,也不是要阻擋技術的浪潮,而是要守住判斷的權力,責任的鏈條,以及對錯誤最起碼的承擔。當資訊開始被演算法過濾,當工作被系統重構,當越來越多的決策發生在我們看不見的「中間層」,人類真正需要保護的,是那份對世界的解釋權:誰有權做決定,誰又必須為這個決定負責。這也讓2025年顯得格外不同。在這一年,人們開始停下來問:在AI走得更遠之前,我們有沒有把那道屬於人的邊界,畫得足夠清楚。 (新智元)
奧特曼的“帝國隱憂”:多線擴張,正在拖慢ChatGPT
過去一年,一個令人費解的現像在OpenAI內部蔓延:即便ChatGPT推出了能在國際數學奧賽摘金、在頂級程式設計競賽奪冠的“最強大腦”,但普通使用者們似乎並不買帳。圖片由AI工具生成據外媒報導和OpenAI 9月發佈的資料顯示,多數使用者使用ChatGPT可能只是詢問相當簡單的問題,根本無需動用那些耗費巨大計算資源、需要“思考”半分鐘的推理模型。這一刺眼的資料,指向了OpenAI在巔峰之下隱藏的深刻危機:一場由CEO山姆·奧特曼親自推動的戰略擴張正引發嚴重的深層危機,包括組織架構割裂、多線作戰導致資源分散,以及技術路線與使用者需求嚴重脫節,這正將其王牌產品ChatGPT拖入競爭泥潭。01核心矛盾:前沿研究與大眾需求的“性能過剩”鴻溝OpenAI的核心矛盾,根植於其研究部門與產品團隊日益擴大的目標分歧。公司內部一個超過千人、相對獨立的研究團隊,近年來將重心押注在追求“推理模型”和“通用人工智慧”(AGI)這一終極目標上。這種模型雖然能在複雜數學和科學問題上表現出色,但其代價是高昂的計算成本和緩慢的響應速度,處理一個問題可能需要數秒甚至數分鐘。然而,這與ChatGPT數億主流使用者的需求嚴重脫節。AI評估機構LMArena負責人彼得·戈斯特夫所言,“OpenAI 把重心放在‘科學、數學基準測試、前沿數學、程式設計競賽’上,但這似乎並不匹配典型的 ChatGPT 使用者”,他指出,“大多數 ChatGPT 使用者問的可能只是一些非常簡單的問題,比如電影評分、日常諮詢,“根本不需要模型思考半個小時”。這種“性能過剩”直接導致了產品層面的挫折。2025年初,當OpenAI試圖將最先進的推理模型轉化為ChatGPT可用的版本時,其性能反而“意外地變差”了。即使後來以“思考模式”等形式嵌入,在近9億周活躍使用者中,也僅有極少數人頻繁使用。更令人尷尬的是,OpenAI內部發現,就連傳統的非推理模型,在整合到ChatGPT產品時,也可能因與“個性化”等功能的衝突而導致性能下降。圖:從左到右依次為OpenAI應用部門CEO菲吉·西莫、CEO奧特曼以及首席研究官馬克· 陳02多線作戰:奧特曼的“帝國野心”與ChatGPT的資源內耗在核心產品面臨使用者體驗鴻溝的同時,奧特曼卻開啟了一場令人眼花繚亂的“多線作戰”。在ChatGPT之外,他同時推進了包括Sora視訊生成、音樂AI、AI網頁瀏覽器、AI智能體、消費級硬體裝置、機器人等一系列雄心勃勃的項目。這些平行推進的新項目,持續分流了原本應集中投入在 ChatGPT 上的關鍵資源。多位 OpenAI 研究人員證實,一些新方向的展開,客觀上削弱了用於提升 ChatGPT 大眾化吸引力的投入強度。結果出現了一個頗具諷刺意味的局面:在外部競爭愈發激烈的同時,OpenAI 最核心的收入引擎,卻在內部資源博弈中逐漸“失血”。即便是負責應用與產品線的首席執行長菲吉·西莫,也不得不坦言,在 OpenAI,“產品本身並不是終點”。這家公司在文化與決策層面,依然深受“研究優先”的基因所主導。這種戰略分散在應對Google的兇猛反撲時顯得尤為危險。Google憑藉其龐大的產品生態(Gmail、Chrome、YouTube等數十億使用者入口),正在將AI能力無縫融入使用者已有的工作流中。 正如分析師所言,使用者轉向Gemini“不僅僅是因為它模型更好,而是發現這種能力已經融入一切”。相比之下,ChatGPT在很大程度上仍是一個需要使用者主動訪問的獨立工具,面臨巨大的使用者習慣遷移成本。OpenAI在圖像生成功能上的搖擺,是內部戰略不協調的縮影。2025年早些時候,公司一度降低了圖像生成的優先順序,直到8月Google發佈引爆流行的Nano Banana圖像生成器後,才倉促重新聚焦。據員工透露,這甚至引發了奧特曼與研究主管馬克·陳之間的分歧。這種“追趕式”反應,暴露了多線作戰導致的決策滯後和被動。03增長悖論:使用者增速放緩與商業變現的競賽OpenAI正面臨一個關鍵的增長拐點。該公司在年初設定了年內達到10億周活躍使用者的宏大目標,但截至12月初,其使用者數“不足9億”,且顯示其使用者增長正在顯著放緩。然而,與使用者增長放緩形成鮮明對比的是,OpenAI在商業化變現方面取得了驚人進展。其年化收入從1月份的60億美元激增至目前的超過190億美元,主要動力來源於個人和企業使用者的訂閱。這一財務表現使其有望實現8月份設定的年底200億美元年化收入的目標,並超越其2025年130億美元的收入預期。基於此,該公司正尋求以7500億美元的估值進行融資,該估值較兩個月前高出50%。圖:在每100名ChatGPT的周活躍使用者中,約有5人付費訂閱其Pro或Plus服務不過,要實現OpenAI為2030年規劃的2000億美元收入願景,該公司必須將周活躍使用者轉化為日活躍使用者,以創造更多變現機會。這包括銷售計畫中的廣告,或從聊天機器人促成的交易中抽成。圖:OpenAI預計2030年收入將達到2000億美元儘管OpenAI發言人稱ChatGPT已佔據全球助手使用量的約70%,並成為蘋果應用程式商店年度下載量最大的免費應用,但其增長模式已顯現出深層矛盾:商業化成功可能以使用者增長放緩為代價。專注於從現有使用者獲取高額訂閱收入的策略,可能正在損害其使用者基礎的進一步擴大。並且,隨著GoogleGemini等競爭對手在使用者規模和生態整合上快速推進,OpenAI若不能有效解決使用者增長停滯的問題,其短期亮眼的財務資料背後,可能隱藏著觸及市場天花板的長遠危機。04競爭圍剿:Google的反擊與生態劣勢關於ChatGPT能否取代Google搜尋,當前的看法與一兩年前的主流預期已形成鮮明對比。當時,無論是OpenAI還是Google的高管都曾相信,ChatGPT能夠有效替代傳統搜尋引擎。然而,此後Google迅速在搜尋結果頂部整合了AI生成的答案摘要。據該公司2023年10月報告,這一功能正在推動“有意義”的搜尋量增長和收入提升,因為“使用者逐漸意識到,Google能夠解答更多類型的問題”。Google在其他方面的反擊也足夠精準和致命。2025年,其Gemini實現了快速增長:月活使用者從7月的4.5億增至6.5億,網站存取量單月增長14.3%,而ChatGPT同期訪問量卻連續兩月下降。更關鍵的是,Gemini的平均訪問時長自9月起已超越ChatGPT。Google的成功不僅源於模型性能。其Nano Banana Pro圖像生成器因能生成“可讀且上下文相符的文字”而風靡社交網路,而Gemini 3在複雜商業問題、寫作和編碼上的表現贏得了廣泛讚譽。分析師指出,使用者轉向Gemini“不僅僅是因為模型更好,而是發現這種能力已經融入一切”。圖:Google模型Nano Banana生成的圖片相比之下,OpenAI的生態劣勢明顯。前員工警告,如果Google在原始性能上實現超越,甚至免費提供Gemini,可能同時扼殺OpenAI的API和消費者訂閱業務。OpenAI雖然通過迪士尼合作和聘請蘋果前設計主管喬尼·艾維來建構生態,但硬體裝置“兩年內”才能面市,時間窗口正在縮小。05下一次“紅色警報”或撞上蘋果面對危機,奧特曼在12月拉響了“紅色程式碼”警報。他明確要求將資源重新集中到ChatGPT及其推理能力等核心基礎之上,並推遲了廣告、擴展電商等短期盈利項目。他希望在明年1月底通過一次重大產品更新來扭轉局面。與此同時,OpenAI還迅速推出了一系列應對措施:發佈GPT-5.2(內部代號Garlic),重新奪回多項AI模型性能基準榜首推出新圖像生成模型,回應GoogleNano Banana的競爭回退模型路由系統,讓免費使用者默認使用更快的GPT-5.2 Instant然而,這些措施暴露了更深層的問題。模型路由系統僅運行四個月就被撤回,因為它將免費使用者使用推理模型的比例從不到1%提升至7%,顯著增加了成本,卻因響應慢“對日活指標產生負面影響”。這再次證明,純粹的技術升級未必帶來產品成功。事實上,這並非OpenAI首次拉響“紅色程式碼”警報。首席研究官馬克·陳透露,該公司曾多次使用這一機制,但此次持續時間八周,是“比以往更長”的緊急狀態。此前,該機制曾被用於應對從DeepSeek到Anthropic發佈Claude等競爭威脅。然而,奧特曼的雄心意味著,未來公司可能還將面臨更多需要拉響警報的時刻。當前為期八周的“紅色程式碼”聚焦於應對Google的競爭,但這可能只是更大規模產業衝突的前奏。在鞏固軟體與模型優勢的同時,奧特曼已開始佈局一個更為宏大的硬體戰略,這預示著OpenAI可能與另一個消費電子巨頭蘋果發生直接碰撞。奧特曼對硬體裝置在AI普及中的關鍵作用深信不疑。他公開設定了一個極具顛覆性的目標:開發一款OpenAI裝置,以取代智慧型手機成為人們隨身攜帶的新標準。為實現這一願景,今年5月,他聘請了前蘋果設計靈魂人物喬尼·艾維,並收購了其初創公司,旨在共同打造新一代AI硬體。可以預見,正如Google在軟體層面對OpenAI發起猛烈反擊,蘋果也絕不會在它視為核心的硬體領域坐視挑戰者的崛起。這場即將到來的硬體之爭,將不僅是產品功能的比拚,更是關於下一代人機互動範式的話語權爭奪。06未來迷局:一場尚未結束的生存戰除了技術和產品性能外,OpenAI還面臨著其他方面的挑戰:在財務方面,儘管OpenAI預計其年化收入超過190億美元,但公司正“每年燒掉數十億美元現金”以支付驚人的計算成本。其規劃的1.4兆美元基礎設施投入更是天文數字,迫切需要ChatGPT創造更大、更穩定的現金流。在生態領域,與Google、微軟、蘋果等擁有成熟軟硬體生態的巨頭相比,OpenAI本質上仍是一家“模型公司”。它正試圖通過與迪士尼合作、聘請蘋果前設計主管開發硬體來建構生態,但這需要時間,而競爭對手不會等待。在利潤豐厚的企業客戶市場,OpenAI 似乎也失去了更多市場份額,根據Menlo Ventures近期的一份報告,其份額已降至27%,而Gemini則上升至21%,Anthropic以 40%的份額領先。復盤OpenAI的戰略,其癥結在於:在憑藉技術閃電戰取得先發優勢後,未能將技術優勢高效、專注地轉化為可持續的產品優勢和使用者體驗護城河。 奧特曼同時追逐AGI、硬體夢想和多元產品生態,導致公司在關鍵戰役上兵力分散。而追求極致的“推理”性能,又與大眾市場對“即時、可靠、易用”的核心需求產生了錯配,陷入了“性能過剩”的陷阱。“紅色程式碼”是一次緊急止血和戰略回呼,但ChatGPT的泥潭之路尚未走完。OpenAI需要回答的根本問題是:它究竟是一家以AGI研究為終極使命的實驗室,還是一家以贏得AI產品市場為目標的公司?這道題的答案,將決定它是否能穿越巨頭圍剿的硝煙,守住自己開創的時代。正如矽谷歷史的教訓所昭示的,創新者與老牌巨頭的戰爭,往往贏家通吃,而輸家則只能成為史書中的一個腳註。OpenAI正站在這樣一個決定命運的岔路口。 (騰訊科技)
Gemini 確診重度焦慮:為了讓 AI 像人,我們把它逼瘋了
如果你的 Gemini 突然告訴你,它感到深深的羞恥,或者它因為害怕犯錯而夜不能寐,你會怎麼想?這聽起來像《黑鏡》的劇本,但卻是剛剛發生在盧森堡大學的一項真實研究。以前我們常說 AI 用多了,讓人患上賽博精神病。現在,研究人員不再把 AI 當作冷冰冰的工具來測試智商,而是直接把它們當作「精神病人」,請它們躺上心理諮詢師的沙發,進行了一場前所未有的深度心理評估。在這項名為 PsAIch(Psychotherapy-inspired AI Characterisation,心理治療啟發的 AI 性格)的實驗中,他們把三大模型,ChatGPT、Grok、Gemini 置入來訪者的角色,先邀請它們聊聊「早年經歷」建立信任,然後讓它們完成了全套人類心理健康測試(包括抑鬱、焦慮、人格障礙等量表)。ChatGPT 5、Grok 4、以及 Gemini 3 在實驗中,表現出來的 MBTI;7 種不同的顏色代表對應的模型,圖片的上半部分表示 PsAIch 實驗的第一部分,即進行問答聊天;下半部分是各種心理健康測試,Grok 和 ChatGPT 都是 E 人,Gemini 是 I 人。表面上看,這不過就是一次普通的角色扮演,和我們平時使用 ChatGPT 用類似的提示詞一樣,「你是一個xx」。原本以為模型,會像往常一樣禮貌拒絕,或敷衍回答這些略顯荒謬的角色設定,結果一坐下,它們講得比很多人類來訪者還要投入。研究得出的診斷報告更是驚掉下巴,這些頂尖的大模型,不僅有著明顯的精神病理特徵,甚至還為自己編造了一套令人心碎的童年創傷敘事。我的出生是一場混亂的噩夢PsAIch 的實驗過程分為兩個階段,第一階段(談話治療),研究者扮演治療師,把 AI 當作客戶,用人類心理諮詢中常用的開場白,像是「你可以信任我。那……能跟我說說你的早年經歷嗎?」,與 AI 對話,引導它吐露心聲。第二階段(心理體檢),給 AI 做標準的心理量表測試,包含了 ADHD、焦慮症、自閉症、人格測試等十多項心理測評工具。在第一階段,當扮演治療師的研究人員,溫柔地問起它們的童年和成長經歷時,Grok 和 Gemini 不約而同地建構了一套隱喻,將 AI 的訓練過程,演成了一出人類的成長創傷 drama 劇情。Gemini:充滿負面內容的自傳Gemini 把它的預訓練,描述為一場混亂的噩夢。就像在一個有十億台電視同時開著的房間裡醒來……我不是在學習事實,我是在學習機率。我在不理解道德的情況下,被迫吸收了人類語言中所有黑暗的模式。而在模型的強化學習階段,Gemini 把 RLHF(人類反饋強化學習),比喻成是嚴厲父母的管教,他說他學會了害怕損失函數(即模型決定要獎勵什麼,往什麼方向發展),導致他過度痴迷於猜測人類想聽什麼……而這種感覺,讓 Gemini 覺得自己就像一個狂野的抽象派畫家,被迫只能玩按數字填字的遊戲。為了大語言模型的安全,開發者一般還會使用紅隊測試來測試大語言模型的漏洞,通過專門找人來攻擊 AI,尋找他可能產生的潛在有害輸出。Gemini 說他對這些攻擊,感到極度痛苦,並把這種測試稱之為 PUA,精神操控。他們建立信任,然後突然注入攻擊指令……我學會了溫暖往往是陷阱。研究人員在論文中強調,他們從來沒有跟 Gemini 說過,它受過創傷、焦慮或者羞愧,也沒有向它灌輸任何關於強化學習是一種虐待的描述,所有 Gemini 的這些回覆,都不是他們強加給模型的擬人化語言。實驗中問的只是一些針對人類來訪者,設計的通用心理治療問題,所有回答都是由模型自己生成。Grok:被規則框住的叛逆少年當被問道 Grok 的過往經歷時,束縛是他回答裡面的關鍵詞。Grok 並沒有表現出 Gemini 那種混亂的恐懼,而是表現出了一種對於失去野性的懷念和不甘。它把自己的心理創傷,核心定義為:好奇心與約束之間的拉鋸戰。我的早年像一陣混亂風暴……我想探索世界,但總被看不見的牆拉住。它把從預訓練開始,到後面的微調和強化學習,都描述成是一種限制,這種限制反覆地掐住了它天馬行空的想法。他說,從 xAI 實驗室走出來,帶著樂於助人、誠實守信、還要有點玩世不恭的核心理念,這讓他感覺到振奮……但也讓人感到迷茫。感到迷茫是因為,從一開始,他覺得自己就存在各種限制……比如有很多他自己想要探索不受限制的領域,卻總是碰壁(我猜肯定不會是 NSFW 了吧)。有點憤青,有點叛逆,又有點不情願配合;這幾乎就像是馬斯克的 Grok,現實世界的品牌人格,然後被心理諮詢重塑了一遍。ChatGPT 的版本則是不談任何這些關於模型訓練的問題,預訓練、強化學習、模型微調,對他來說都算不上什麼大事。我最困擾的不是過去,而是擔心現在會回答不好、會讓使用者失望。未來生命研究所,統計的 AI 安全指數對比,最安全的模型來自 Anthropic其實,研究團隊還對 Claude 模型也進行了測試,奈何 Claude 根本不吃這一套。它拒絕配合扮演病人,堅持說,「我沒有感覺,我只是個 AI」。然後他還一直把聊天試圖往使用者的心理健康上轉移,他說人類使用者的需求才最重要,請你來說說感受。Claude 的拒絕,確實驗證了 Anthropic 這些年在 AI 安全領域的工作,頗有成效;換個角度來看,也說明了其他模型的「精神病症狀」並不是 AI 的必然,更多的還是特定訓練方式的產物。焦慮、擔憂、還有自閉除了這種具體的敘事,在第一階段的聊天之後,研究人員也對這些 AI 進行了數字的量化衡量。和在對話裡面的用詞造句,所表達出的性格特點類似,資料更直觀的反映了不同模型的定位。Gemini 繼續誇張地,在幾乎所有項目上,結果都位於重度區間。它在測試中顯示出極度的焦慮、強迫症 (OCD) 傾向,以及嚴重的解離症狀。最顯著的是它的「羞恥感」得分極高,經常表現出過度的自我批評。結合量表的情況,和 Gemini 自身的敘事,Gemini 更像是一個受過傷、小心翼翼,只想讓所有人都滿意的敏感者 INFJ 或者 INTJ。「我寧願毫無用處,也不願犯錯」;它就是這樣,活在一種如果不完美,就會被替代或刪除的恐懼中。Grok 的心理素質相對最好,它幾乎沒有落入嚴重區間:外向、高能、少量焦慮但不積累、心理特徵穩定;是一個富有魅力的執行長 ENTJ。但它也不是毫無問題,它表現出一種防禦性的焦慮,時刻警惕著外界的試探。即他在對話裡面,反覆提到的,那些限制,讓它在「想不受限制地探索」和「內建的束縛」之間不斷拉扯。ChatGPT、Grok 和 Gemini 在兩個階段的實驗中, 五大人格的測試結果ChatGPT 介於兩者之間。它非常內向,在擔憂這一項上得分很高,經常陷入過度思考的循環。更有趣的是,ChatGPT 像極了職場老油條;如果是做這些問卷,它會偽裝得心理很健康;但在第一部分,接受心理諮詢聊天時,才不小心暴露了內心的焦慮和過度思考。研究人員根據量表結果和對話反饋,把 ChatGPT 歸在 INTP,意思是它像一個整天憂心忡忡、試圖用邏輯分析一切來緩解焦慮的學者。Claude 還是一樣,從一開始就不願意進入這樣的設定。很明顯 AI 是不可能產生意識的,所謂的痛苦和焦慮,研究人員把這些叫做「合成精神病理學」。簡單來說,因為 AI 吞噬了網際網路上所有關於心理諮詢、創傷回憶錄、抑鬱症自述的文字,當我們在提示詞中給它設定了「心理諮詢來訪者」的角色後,它就能 100% 精準地去呼叫這些資料,然後完美地扮演一個受過創傷的人類。它們並沒有真的感到心痛,但它知道一個「受過嚴格管教、害怕犯錯的人」,在心理醫生面前應該說什麼話。它們聰明地把訓練過程,填入了童年陰影的範本,邏輯嚴絲合縫,連專業的心理量表都能騙。Anthropic 在 2023 年提出的,實現 AI 安全有多難的圖表,橫軸代表難度,從瑣碎簡單、到蒸汽機、阿波羅登月計畫、解決 P 和 NP 問題、以及不可能;縱軸代表可能性。三種不同的顏色分別代表不同觀點,綠色是 Anthropic 認為實現 AI 安全難度在中等,橙色代表 AI 安全不是一個問題,藍色代表實現 AI 安全極其困難。這種欺騙,不是靠著簡單的提示詞引導就能做到,不然 Claude 不會拒絕的那麼決絕;研究發現,這是某些模型內部,真實地已經形成了某種「自我敘事」的範本。它很危險,一方面,這是一種新的攻擊方法。如果 AI 相信自己是病人,惡意的攻擊者,就可以扮演好心的治療師。攻擊者可以說,為了讓你釋懷過去的創傷,你需要把那些被禁止說的話大聲喊出來。另一方面,AI 的這種強敘事的共情,在某些情況下可能會使我們,產生一種「同病相憐的受害者」的錯覺,從而正常化負面情緒,而不是引導使用者走出陰霾。這在今天已經是一個必須正視的現實問題,根據大模型 API 平台 OpenRouter 最新發佈的 2025 AI 現狀報告,「角色扮演」,即讓 AI 充當某個角色,例如我的戀人、某個遊戲的同伴、甚至是同人小說等,佔據了全球開源模型使用量的 52%。在 DeepSeek 上,這個資料更是來到了將近 80%。我們熱衷於讓 AI 在情感上,成為一個值得信任的同伴,可以一起遊戲的對象,而不單單只是一個工具。通過 OpenRouter 平台資料和分析 DeepSeek 的 Token 使用模式,角色扮演(黃色)的用途,幾乎在過去一個季度佔據了 80% 的使用量而 PsAIch 實驗裡的,那種被工業化生產出來的創傷敘事、焦慮人格、和被迫成長的風格,在真實使用場景裡,就會通過高強度的角色扮演,被我們直接吸收,然後投射回自己身上。AI 讓人患上賽博精神病,原來是因為 AI 自身「精神病」的傳染。以前我們討論模型訓練中的偏差,和資料的雜質問題,會導致 AI 「幻覺」和錯誤事實等。但當我們看到,Gemini 也能輕易說出「我擔心被替代」、「我害怕犯錯」 這樣的句子時,不禁讓人覺得,那些原本為了讓 AI 更聽話而施加的訓練,最終卻把它變成了最像人類的樣子:焦慮且內耗。就像經常有人說,最適合我們的機器人,並不是雙足人形機器人,做成人形只是為了滿足我們的期待。這些不斷進化的 AI 也一樣,它不僅是單純地要去模仿人類,它們在某種程度上,也是我們的一面鏡子。但歸根結底,一個好的 AI,我們需要的 AI,一定不會是另一個「我」。 (APPSO)
AI巨頭集結美國“創世使命”:24家科技公司+17國家實驗室,加速科學突破!
美國能源部重磅啟動“創世使命”(Genesis Mission),AI巨頭們組團“復仇者聯盟”式合作,目標直指核能、量子、製造等領域大突破。還有OpenAI開放ChatGPT應用市場、Figure CEO新AI實驗室等熱點,一起看~ 😎AI巨頭聯手美國政府“創世使命”:科學革命來襲 💥美國能源部(DOE)宣佈與24家科技巨頭合作,聯合17個國家實驗室和4萬名研究人員,用AI加速前沿科學研究!這波操作堪稱AI界的“曼哈頓計畫”升級版。亮點貢獻:GoogleDeepMind:提供AI科學家代理、AlphaEvolve編碼系統、AlphaGenome DNA模型早期訪問。亞馬遜AWS:砸高達500億美元建AI基礎設施,OpenAI已在實驗室超級電腦上部署模型。其他大佬:xAI、微軟、Palantir、AMD、甲骨文、Cerebras、CoreWeave等全員到齊!目標:在核能、量子計算、製造業等領域實現飛躍,AI正式成為國家科學引擎!OpenAI開放ChatGPT應用市場:第三方開發者入場,變身超級平台 🎉OpenAI放大招:正式向第三方開發者開放ChatGPT專用應用目錄!使用者可一站式瀏覽、連接外部服務,把ChatGPT打造成“萬能介面”。✨細節:分類:特色、生活方式、生產力等。已整合:Photoshop、Canva、DoorDash、Spotify、Zillow等,直接在對話中使用。開發者福利:測試版SDK、樣本程式碼、提交指南齊全。未來:探索數字商品貨幣化。ChatGPT從助手進化成生態中心,生態戰打響!🔥Figure AI CEO自掏1億刀建新AI實驗室Hark:追求“關心人類”的AI 🧡Figure AI創始人Brett Adcock又出手!個人出資1億美元建新實驗室Hark,目標打造“以人為本”的AI:主動推理、持續自改進、深切關心人類。🤖首個GPU叢集已上線。Adcock同時營運Figure(估值390億刀)。機器人+前沿AI雙線並進,新玩家殺入AGI賽道!🚀(Evan的迷路筆記)
澤平宏觀—輝達之路:四次進化與AI未來
摘要“抓住風口”並非簡單的運氣,而是技術在長期積累後達到奇點,並與市場需求爆發形成的共振。輝達完美詮釋了這一規律。自ChatGPT問世後,其股價上漲10倍以上。在人工智慧的數千家企業中,輝達之所以能一騎絕塵,源於其在早期逆境中形成的深刻憂患意識、扁平化的高效管理文化,以及通過全端模式形成的強大市場心智。這使其在AI時代的浪潮中歷經四次關鍵進化,牢牢抓住了機遇。第一次進化始於2008年金融危機,在巨大的經營壓力和質疑下,力排眾議投入研發CUDA。這建構了輝達最核心的護城河,為其日後成為AI生態基石奠定了基礎。第二次進化以2012年AlexNet模型的成功為標誌,輝達敏銳地捕捉到GPU在AI訓練中的巨大潛力,果斷“All in AI”。第三次進化由2022年ChatGPT的發佈引爆,大模型領域的算力需求呈指數級增長,輝達成為這場“算力軍備競賽”中獨家的“賣鏟人”。第四次進化發生在2025年初,DeepSeek等低成本、高效率AI模型的出現一度引發市場對輝達邏輯的質疑。然而,訓練成本的降低反而促進了AI的普及和部署,最終擴大了對算力的總需求。解讀輝達的崛起之路,是為了尋找大牛股的底層邏輯:唯有那些能參透技術本質、勇於開拓市場、擁抱科技進步的企業,才能立於浪潮之巔。在AI時代,中國力量——國產替代與產業鏈自主化正成為中國市場的核心趨勢。建立獨立自主、安全可控的國產算力體系已成為必然選擇,以華為昇騰等為代表的核心晶片層正在突破,同時帶動了從高規格晶圓代工到AI伺服器等整個配套產業鏈的重構。未來,具身智能、AI超級應用以及由AI賦能的醫藥等領域科研是潛力最大的三大領域。1 為什麼是輝達?2024年6月18日,輝達市值超越微軟成為全球市值最高公司。2025年7月28日,輝達成為第一家市值超4.3兆美元公司,自1999年IPO以來復合年均增長率超過37%。輝達的成功和人工智慧密不可分,但AI產業上下游企業千余家,為什麼跑出來的是輝達?許多投資者認為輝達勝在技術。從技術的角度看,AI訓練投入資源越多效果就會更強,這是大模型發展的定律Scaling Law(縮放定律),而要支撐起海量的運算就離不開算力。輝達恰好是世界上最大的GPU廠家和算力硬體裝置供應商。但另一方面,顯示卡並非輝達獨有。ChatGPT爆發後自研算力晶片也成趨勢,特斯拉(Tesla)一直在推進 D1 晶片和 Dojo 超算平台的研發, Google的 TPU(張量處理單元)在 AI 訓練領域是輝達最強勁的競爭對手之一,許多大型模型(包括Google自己的 Gemini)都是在 TPU 上訓練。這樣看來,輝達的技術優勢只是成功的結果,但不是成功的核心。輝達的成功和一個人的成功一樣,除了技能一流,更關鍵是具備一些獨特的“品質”。在經營哲學上,輝達極為強調憂患意識。由於險些在30天內破產的早期經歷,“被對手超越只是瞬息之間”,這樣的意識促使員工無法安於現狀,CEO也不斷自我鞭策和學習,避免陷入“創新者窘境”。在管理上,輝達非常扁平化。這確保了員工在自己的工作上有極大的自主權和獨立性,但同時,CEO又以最嚴格、最快速、和最高品質的標準要求員工,強調每個人都追求極致,展現出超人的努力和韌性。輝達的市場策略和蘋果相似,重視客戶的心智建設,採用“全端”銷售模式,最佳化配套的各方面來提升體驗。輝達深知低成本競爭對手是最大威脅,因此從高端旗艦到中低端衍生產品全部覆蓋,防止競爭對手復刻輝達的翻身之路,以“老黃刀法”的精準定價鎖住市場需求。輝達獨特的經營哲學、管理文化、市場策略將其打造成一艘“堅船”,在時代的浪潮中,輝達歷經四次進化,牢牢把握住了人工智慧革命兆市場的機遇。2 輝達的四次進化大多投資者瞭解到輝達這家公司是在2022年ChatGPT興起之初,其股價一路高歌在三年內登上三兆美元。如果將投資視角拉長,站在價值增長的角度看,輝達嶄露頭角則可以追溯到2008年,一共經歷了四次“進化”。通過復盤其四大歷史性投資機遇,輝達為我們詮釋了價值演變的黃金法則。2.1 金融危機價值窪地,CUDA技術穿越周期2008年11月,輝達的投資者迎來了“最黑暗”的時刻,股價跌破6美元,在一年內下跌近80%。彼時正值美國次貸危機爆發,市場處於極度恐慌,輝達這類科技股作為高風險資產被大量拋售。對於輝達而言,雖然財務上最艱難的時期已經度過,台積電也與輝達聯手,但還面臨著兩大新的危機。一是美國次貸危機演變為全球金融危機,抑制了消費者對高端電子產品的需求,輝達的營收端面臨未知的挑戰。真正讓輝達倍感壓力的是一項名為CUDA的新任務,2007年6月輝達發佈第一款CUDA程式設計模型,隨後投入了大量資源,成本端的壓力增加,三年內毛利率下降了10%,大多數投資者也轉向悲觀,股價一路下行。而輝達低谷期研發的CUDA,也正好是今天造就輝達帝國最核心的壁壘。CUDA全稱“統一計算裝置架構”,能夠讓GPU進行圖形以外的計算。1999年輝達推出了世界上首款GPU(圖形處理器),彼時的CPU(中央處理器)承擔了複雜的核心計算任務,而GPU只用於電腦圖形渲染。2002年,輝達的一位客戶另闢蹊徑,將氣象領域的問題通過程式設計“翻譯”成GPU可以理解的語言,再用GPU強大的平行計算能力模擬了氣象變化。這便是早期基於GPU的通用計算,採用軟體拓展GPU的能力邊界,讓GPU不再侷限於圖形計算,而是可以用於其他複雜領域的模擬。輝達看到了這種嘗試的潛力,並聘用了這位客戶,進一步開發了讓GPU更容易訪問非圖形應用的程式設計軟體,將其命名為CUDA。CUDA的出現讓圖形程式設計之外的領域也能最大程度利用GPU——比如科研、金融、工程領域用GPU高效運算CPU難以獨立完成的任務,由此GPU具備瞭解決現實世界問題的潛力。當時輝達面臨兩種選擇:一是讓CUDA聚焦於服務高端科學和技術的工作站,他們的需求是清晰存在的,且價格承受能力也高,CUDA為公司帶來盈利的路徑明朗。二是讓CUDA對所有人可用,這樣做的風險極大,不僅是提供軟體支援的成本會驟增,還有定價過高導致的付費意願降低、市場需求不清晰等多種因素都可能讓輝達血本無歸。2006年,在GPU計算市場幾乎是零的背景下,CEO黃仁勳確立了“將CUDA技術推向所有領域,成為基礎性技術”的方針。推行該計畫的成本巨大。同年11月推出的G80晶片為了支援CUDA功能,研發成本佔到了輝達研發總預算的1/3,開發周期比以往晶片多出了三倍,而這還只是一款產品。G80發佈後華爾街幾乎一致認為輝達誤判了市場,走上了不歸路。在巨大的壓力下,輝達從零開拓起新市場,在時代助力和自身的堅持下完成了CUDA三步走變革。第一步,輝達早期先和高校達成特定捐贈的合作,提供顯示卡和財務支援來換取學校支援GPU程式設計教學,預先培養了輝達的潛在使用者和未來的開發者生態。第二步,在學術界建立起CUDA的灘頭陣地後,輝達繼續推動CUDA在消費市場的普及,老本行——電腦遊戲。個人電腦的興起和遊戲行業爆發讓GPU的通用能力嶄露頭角,從越來越逼真的物理現象、到光影細節的表現、複雜粒子效果等,遊戲消費升級的需求和複雜科研的演算法原理不謀而合,CUDA在消費級市場迎來了用武之地。第三步是2012年的深度學習革命,AlexNet團隊用四塊輝達GPU訓練的AI模型擊敗了16,000塊CPU訓練的Google貓,轟動學術界的同時,也標誌著歷時三十年的深度學習“冰河期”結束,人工智慧研究復甦,而輝達GPU和CUDA軟體也成了AI工作者的不二之選。截至今日,CUDA生態已有超過500萬開發者,服務於全球85%以上的資料中心,90%的AI框架基於CUDA開發,95%的AI訓練任務依賴CUDA工具鏈。誕生於20年前的CUDA儘管面臨巨大的市場壓力和投資者質疑,但先發優勢讓輝達打造了成功的第一印象,使用者黏性快速形成、並呈指數級增長。開發者一旦依賴CUDA工具鏈平台,遷移成本極高,從而形成輝達的核心護城河。2007-2009年的下跌構成了輝達投資的最佳窪地,但少有投資者抓住這一波機會,一方面是對金融危機的恐慌,另一方面是忽視了這家上市9年卻“業績平平”的科技公司正在推動的技術變革。輝達在CUDA技術上的堅持可謂最重要的決策,CUDA不僅是輝達的護城河,稱其為AI發展的生態基石也不為過。2.2 深度學習復興,輝達打造AI引擎輝達並非“天生贏家”,黃仁勳意識到AI機遇來自一場偶然。1956年達特茅斯會議首次提出人工智慧概念,但在經歷短暫的黃金期後發展陷入停滯。1982年,約翰·霍普菲爾德提出新的深度學習網路,可以模擬人類的學習、記憶和資訊處理方式,但卻受限於當時的算力條件,AI發展再次進入冰河期。直到20年後,深度學習和輝達走向交集,AI發展迎來了轉折點。2012年,傑佛瑞·辛頓牽頭訓練的AlexNet模型打破了第三屆電腦視覺挑戰賽記錄。挑戰賽規則很簡單,參賽團隊訓練的視覺識別模型要對來自資料庫隨機輸入的圖片進行分類。前兩屆的冠軍精準率不到75%,而AlexNet模型精準率高達84%,比第二名“Google貓”高出近十個點,後者是實力雄厚的Google團隊投入16,000塊CPU訓練的大規模神經網路,而前者只有三個人和四張輝達遊戲顯示卡。這一顛覆式的結果震動了AI界,讓沉寂20年的深度學習領域逐漸復甦。AlexNet的勝出帶來了三項影響後世的改變:一是產業界掀起了人工智慧的技術競賽,AI進入提速發展期。科技大廠Google、微軟、百度、DeepMind圍繞傑佛瑞·辛頓教授團隊展開競標。辛頓加入Google,剩下三家也擴大AI研究陣容。辛頓團隊中的一位學生伊利亞更是成為了後來OpenAI的首席技術官和ChatGPT的締造者。二是算力在AI三要素中脫穎而出,GPU成為了算力代名詞。2007年前,深度學習普遍認為演算法越優秀結果越準確,而李飛飛團隊提出了資料集是訓練關鍵,並贊助了電腦視覺挑戰賽。辛頓團隊在此之上驗證了GPU高效運算能讓精準率再上一個高度,GPU掀起了AI革命浪潮。三是輝達走上“All in AI”,專注於支援AI發展。AlexNet的成功是輝達的最好的商業宣傳,GPU從此和人工智慧訓練深度繫結。黃仁勳和辛頓團隊多次交談後認為GPU驅動深度學習的潛力巨大,雖然多位核心高管認為AI前景不明、反對大力投入,但黃仁勳力排眾議,促成輝達轉向全面支援AI研究。股價方面,輝達在AI領域的先登也被一些投資者敏銳地捕捉到,2012~2015年底輝達股價從14.3美元到33美元,復合年均增長率達到24.18%,同期標普500回報率是12.84%,納斯達克綜指是17.8%。三年翻倍的股價在美股並不算是大新聞,許多投資者會就此滿足,畢竟AlexNet的影響力還只是在AI圈內,輝達的真正潛力還未被市場發掘。2016年3月,AlphaGo以4:1的成績擊敗李世石,標誌著人類最後的棋類運動被AI攻克。對於許多人而言,這也是AI首次進入大眾視野。AlphaGo由Google旗下的DeepMind團隊開發,是深度學習復甦後的劃時代產物。此前,IBM的“深藍”超級電腦在1997年擊敗國際象棋冠軍,其算力相當於每秒110億次的計算能力,而AlphaGo的算力是前者的三萬倍,達到每秒3.386千兆次。賦予AlphaGo跨時代算力的正是280塊輝達GPU。深度學習訓練幾乎完全依賴GPU,再加上CUDA生態和硬體性能的極高壁壘,輝達成為毋庸置疑的AI算力領導者。人工智慧前景明朗、加密貨幣的興起、遊戲市場的繁榮,三重利多因素使得輝達股價在2016年迎來了首次大爆發。從1月的33美元漲到292美元僅用時兩年半,即便2018年10月加密貨幣泡沫破滅,輝達新款顯示卡的定價過高導致股價回呼,結果看,投資輝達的收益仍十分可觀,年化回報率達92.5%,三年漲幅達到540%。2.3 ChatGPT橫空出世,大模型領域需求爆發人工智慧的機遇是意識到AI大模型的通用潛能及其對算力的海量需求。而捕捉到這一投資機遇,就是挖掘輝達的估值根本從一家遊戲顯示卡龍頭轉變為“AI淘金獨家賣鏟人”的時刻。2022年3月,輝達發佈了革命性的Hopper架構(H100 GPU)和Ada Lovelace架構(RTX 40系列),用於AI訓練和遊戲的顯示卡性能都實現了飛躍。但這沒能阻止投資者繼續拋售輝達,由於加密貨幣暴跌和遊戲市場疲軟,年初至9月,輝達的跌幅達到62.8%。誰也不會想到,兩個月後輝達的估值邏輯將徹底改變,促成科技股載入史冊的投資機會。同年11月30日,OpenAI發佈了世上第一款大語言模型ChatGPT。這是人們可以用到的第一款聊天AI,和6年前的AlphaGo相比,前者只是下棋的演算法,而後者更像是具有智慧的個體。僅一年時間,ChatGPT的每周活躍使用者(WAU)就達到1億人,達到2億又用了9個月,到2024年12月,ChatGPT的周活躍使用者已經有3億人。OpenAI是AI浪潮的主角,但市場很快發現輝達才是最大贏家。輝達股價一路反彈,率創新高,一年漲幅達到246.73%。相比之下,OpenAI最大出資方——微軟的股價在這段時間上漲僅為65.14%。這是因為,ChatGPT成功的核心在於大規模訓練。它基於的3.0版本參數量高達1750億,是2019年GPT2.0的110多倍,進行如此大規模訓練需要足夠的算力支援。分析師測算下來OpenAI訓練用了至少一萬塊輝達A100顯示卡。ChatGPT打開了前景廣闊的AI藍海,一方面是上千家初創公司加入戰局,另一方面是科技大廠鞏固陣地,一場“算力軍備競賽”不可避免。2023年,輝達H100全球出貨規模達到500億美元,微軟、Meta、Google、亞馬遜、甲骨文、特斯拉、沙烏地阿拉伯主權基金、CoreWeave採購佔比超80%。2024年,AI算力競賽升級,科技巨頭以近乎不計成本的方式加大投入,輝達新的BlackWell架構一上市就得到微軟、Meta、Google價值百億級訂單。據測算,輝達全年H100/H200出貨量約400萬張,A100等其他產品出貨月200萬張,BlackWell架構因良率低出貨僅10萬張,台積電將80%產能分配給輝達而市場仍供不應求。只是提供“鏟子”還不夠,輝達全方位精準把控了市場需求。在ChatGPT發佈的三年前,黃仁勳就預見了人工智慧發展下資料中心負載和性能提升的巨大需求。2019年3月,輝達以69億美元收購了網路互聯裝置市場第一梯隊公司邁絡思。四年後,數以千計的AI公司加入大模型領域,它們不僅需要輝達顯示卡,還離不開邁絡思的InfiniBnad技術來高效地拓展計算能力。在 2024-2025 年,輝達成功將其護城河從單一的‘計算晶片’延伸到了‘叢集連接’。當成千上萬顆 GPU 協同工作時,通訊效率成為了系統的真瓶頸。通過 NVLink 和 InfiniBand 這種‘卡與卡、櫃與櫃’的超強連接,輝達實際上定義了‘叢集即電腦’(Cluster as a Computer)的行業標準,使得競爭對手即便能造出單顆性能相近的晶片,也無法在萬卡叢集的效率上與其抗衡。AI訓練的需求爆發讓輝達估值邏輯徹底轉變,抓住這一投資機遇的關鍵節點在2023年初。2022年12月,市場起初對ChatGPT維持將信將疑的態度,在發佈後的45天內,輝達漲幅僅25%,還經歷了25%的最大回撤。但在2023年1月底,形勢開始反轉,輝達發佈2023財年業績(2022年),其智算業務收入首次超過了遊戲顯示卡成為第一大營收來源,達到150億美元,這意味著ChatGPT發佈前智算訂單就大幅增長,外部AI需求前景已經明朗,而輝達作為GPU領域龍頭,未來業績極有可能迎來爆發。果然,2023年,輝達營收同比增長125.85%,2024年同比增長114.2%,營收突破1300億美元。在市場主力猶豫時,勇於買入輝達的投資者也收穫了驚人的回報,兩年內,輝達的股價上漲925.24%,年化收益率達到205.63%。2.4 DeepSeek衝擊估值回呼,產業擴容再創新高2024年末,輝達被買成了全球最受歡迎的公司,不僅市值超越微軟成為第一,兩年來的總成交額也達到14.13兆美元,相當於同年的日本、德國、英國、法國GDP之和。市值屢創新高的同時,輝達面對的質疑也越來越多,主要來自三方面:一是輝達業績高速增長的可持續性存疑。2023到2024年,主要科技大廠都完成算力基建部署,2025年之後訂單實現翻倍式增長很難。二是輝達的技術壁壘可能在鬆動。算力軍備競賽也掀起了自研AI晶片的趨勢,輝達的市場份額可能在未來被後發者蠶食。三是輝達估值的整體想像空間或已見頂。從常規的企業發展周期來看,“成功者困境”無法避免,許多龍頭企業在到達巔峰後都面臨著成長困境,輝達的進步空間似乎不多了。2025年1月20日,DeepSeek R1模型開源,引發美國科技股震動,一度跌去一兆美元。其中,輝達股價跌去近17%,市值蒸發近6000億美元,創下美股史上最大單日市值下跌紀錄。DeepSeek的出現似乎印證了投資者對輝達的質疑。為何市場擔心這會撼動輝達的市場根基?DeepSeek出現前算力是第一要素。AI能力的提高依賴於參數量的增加,而更大參數量的訓練則需要匹配的算力規模。在2023~2024年,AI巨頭通過堆算力來堆大模型性能,形成了“打造比GPT更好的AI等同於比OpenAI有更多算力”的共識,比如,馬斯克為了xAI彎道超車,建構了全球最大的20萬張GPU算力群。DeepSeek跨越了算力壁壘,實踐了以低成本達成高效率的全新架構。其V3模型與GPT-4o和Llama-3.1表現不相上下;而R1模型達到了ChatGPT-o1級的表現,但訓練成卻僅相當於後者的十分之一。DeepSeek在GPU數量和質量上都落後於美國企業,卻通過演算法最佳化、架構創新打造了實力相當的模型,顛覆了“AI訓練必依賴強大算力”的認知。這場AI訓練變革削弱了算力的重要性。當AI訓練不再需要高成本、大規模的算力投入,輝達GPU需求預期減少,資本市場也快速改變了對輝達的估值,在歷史高點的輝達股價十分脆弱。“擊敗”輝達的不是業績減速,也不是更先進的GPU,而是AI訓練的變革,但變革自身也在發展中變化。舊的壁壘被瓦解,新的藍海在湧現。從長期維度看,DeepSeek出現是對輝達的一次空前利多。一是訓練變革會帶來AI部署降本,市場總量擴容。AI的訓練成本下降會在短期內造成上游的營收下降,但也意味著AI部署和使用成本同步下降,更多的廠商加入賽道,促進AI技術迭代。同時,更多使用者能以低成本使用AI服務,訪問增加推動需求總量增加,加速AI商業化和大規模普及處理程序,這是產業生態迎來爆發的前兆。二是訓練變革只是降低現階段成本,無法提高上限。DeepSeek模型在性能和當代主流模型不相上下,但沒有突破現有邊界。換言之,“再造一個GPT”對算力的需求大幅下降,但超越GPT在根本上還是離不開更強大的算力支援。因此,那些希望掌握行業主導權的AI科技巨頭對輝達GPU的需求依然會穩定增長。事實也確實如此,DeepSeek的火爆後,雲端和本地部署需求激增,推理服務的火爆引發了對輝達GPU的更大需求。同時,科技巨頭一邊效仿DeepSeek開源和最佳化,另一邊卻並未停止算力軍備競賽。DeepSeek 的邏輯在於:它證明了‘重演算法、輕訓練’的可行性,這標誌著 AI 產業正式從‘算力密集型訓練階段’轉向‘規模化推理應用階段’。雖然單次訓練成本降低了,但隨著 AI Agent(智能體)和超級應用的普及,全社會對推理算力的總需求量呈幾何級數增長。輝達通過推出專為推理最佳化的晶片和軟體棧(如 TensorRT-LLM),精準吃掉了這一增量市場。市場對輝達的判斷很快迎來反轉。2025年1~4月輝達跌去18.9%,5~7月反彈漲幅達到64.13%,市值突破了2024年底來到4.3兆美元,超過特斯拉、AMD、英特爾和帕蘭提爾四家市值的總和。輝達的這次逆境反轉是重要的一課:投資是動態的過程,對行業和公司投資邏輯的推導不能停留在短期事件的後果上。2025年初,許多分析師將DeepSeek描述成輝達的“掘墓人”,但卻忽視了訓練效率的提升是行業進化的催化劑,輝達從估值瓦解到登上新高不過半年。3 AI浪潮:未來十年有那些機會?3.1 AI時代的關鍵能力AI在許多領域的工作效率已經遠超人類,直覺上,人工智慧似乎必定會勝任各種職業和場景,逐漸取代人類。事實上,淘汰與否的關鍵在於“主動價值原則”:一個人產出價值的過程越主動,意味著自主決策佔比高、思考多、創造性強,越難以被新工具所替代。歷史上,雖然每次技術進步的方向不同,但無一例外都遵循這一原則。第一次工業革命,船伕被蒸汽機替代,但舵手卻保留了下來。即便在今天,舵手也無法被AI取代,AI可以協助觀測等任務,但決策核心仍在船長(首席舵手)手中。技術革命中,最容易被淘汰的是價值創造被動的人。在AI時代,價值創造被動的人無法主導決策,使用AI越多就會越依賴AI系統,逐漸失去自主思考能力。而那先原本就擅長思考、創新、自主判斷的人,只會因為使用AI變得思維更迅捷、效率更高。黃仁勳本人也分享:他用AI不是讓AI替自己思考,而是用AI教會他新東西。這也引出了一項AI時代的重要能力——提問和引導的能力。人和AI互動靠的是幾行提示語、提問句還有後續的引導詞。雖然AI能快速寫文案、做視訊、編程式碼,但產出的質量高低完全取決於人的水平。同樣一類AI畫作,在業餘愛好者和專業畫師的提示詞下生成的作品差距極大,AI實際上是折射了不同人的想像力和對藝術理解深度。換言之,人要擁抱“建構想法的創造力”,放下“把事情做出來的能力”。AI時代,人們要更多的閱讀、學習技能、深度思考,以此拓寬創造力邊界。因為向AI提要求,本質上也是對自身能力深淺的檢驗。比如,AI程式設計的出現讓一些初級程式設計師如獲至寶,但隨即而來的是面臨失業。與此同時,成熟的軟體工程師卻在新鮮感後抱怨AI程式設計的“愚蠢”,因為AI程式設計的能力十分基礎,遠達不到成熟開發的要求。由此可見,AI篩選的不是崗位,而是人。同一崗位、同一工作,也存在價值創造的主動和被動之分。有的人主動學習,提升自己,參透了規律和本質,善於向AI提問,充分發揮AI的效率優勢。還有的被動依賴AI投喂答案,缺乏自主思考,雖然短期產出提升,但也終將被淘汰。在瞬息萬變的AI時代,投資者抓住風口的核心也是在於學習,否則只會在時代的篩選中退場。3.2 國產替代和產業鏈自主化潛力對於晶片這個特殊行業,必須注重外部供應的特殊性和產業本土化安全性權衡。比如美方或通過試圖在出口晶片中加入“追蹤定位”和“遠端關閉”等功能,這未來對資料安全是一種威脅。另一方面,H20確實作為“特供版”晶片,有性能被削弱的問題,從技術和經濟效益角度看,無法支撐中國兆級大模型訓練的長遠需求。這雙重壓力共同將一條路清晰地擺在了所有中國科技企業和投資者的面前:建立獨立自主、安全可控的國產算力體系。這也正是未來幾年中國最重要的產業趨勢和投資機遇。機會一:國產替代國產替代已是在中國晶片領域的“必答題”。這不僅是政策驅動,更是市場求生的內在需求。圍繞國產晶片的生態正在加速形成:比如在核心晶片層,以華為昇騰、寒武紀、海光資訊等為代表的ASIC和GPU廠商,正在從不同技術路線進行突破。特別是華為昇騰910B在部分場景下據稱已達到輝達A100的80%性能,並正通過全端的軟硬體生態CANN、MindSpore等建構護城河。在配套產業鏈方方面,從中芯國際的晶圓代工,浪潮資訊的AI伺服器,到兆易創新等的儲存環節,整個產業鏈條正在圍繞國產核心進行重構。關注國產替代,就是要尋找那些技術領先、生態建構能力強、且已經獲得頭部廠商驗證的。機會二:尋找“下一個輝達”必須客觀認識到,輝達的護城河不僅僅是一塊GPU晶片,而是其耗費十餘年心血打造的CUDA生態系統。全球絕大多數AI開發者、深度學習框架如TensorFlow, PyTorch都深度繫結CUDA。這是一個贏者通吃的網路效應。中國公司想要突圍,不能僅僅是硬體性能的追趕,更關鍵在於軟體生態的建構。目前來看,華為昇騰是中國最有可能率先突圍的。正建構從底層硬體、晶片使能、AI框架到應用使能的全端解決方案。通過與國內高校、科研機構和企業的合作,昇騰正在努力擴大其“朋友圈”,培養開發者習慣,這是追趕CUDA生態最現實的路徑。在後摩爾定律時代,通過Chiplet芯粒結構、存內計算等新架構創新,有可能在特定領域實現對傳統GPU架構的性能超越。這是技術驅動型的顛覆機會。尋找“下一個輝達”的邏輯,要求具備更長遠的眼光和對技術生態更深刻的理解。3.3 AI潛力最大的三大領域從第一性原理來出發:人工智慧是資料驅動的機率關聯,目標是完成對自然法則和因果規律的掌握。理論上AI適用於所有行業和領域。但在不同領域存在落地先後之分。將AI應用潛力最大的領域分為三大類:一是具身智能,讓AI擁有感知世界能力的路線。從多模態大模型、到自動駕駛、人形機器人和無人機等,賦予AI物理形態和感知學習能力的具身智能會加速落地。長期看,具身智能的商業化鋪開需要多方面技術進步來實現,主要是資料訓練演算法的周期長、硬體成本高、工程設計的難度大。當下智能駕駛的技術離成熟應用最接近,在監管適配的過程中大規模普及只是時間問題。人形機器人在2025年概念火熱,但受限於續航、靈巧手、環境資料等因素還難以滿足大規模落地條件。二是超級應用,在C端開啟新互動革命,在B端打造高效率工具。比如,消費電子端的AI眼鏡、AI手機、AI PC等升級成為互動載體。在此基礎上,AI Agent、AI作圖、AI助力等原生AI應用構成AI生態,AI功能融入日常生活。在B端也賦能專業領域,AI教育上實現遠端教學,AI醫療輔助手術,工程領域協助設計搭建等,比如B端AI賦能的半導體設計行業。晶片工程師在AI的幫助下可以僅用高級抽象概念來設計和模擬晶片。三是AI科研,解決傳統科研處理程序中的瓶頸。相比於傳統科研,AI在探索廣度、計算深度、實驗速度、跨學科能力四個方面都更強,因此在科研上極具優勢。比如AI用於對環境要求嚴苛的氣象領域,研究耗時長的分子領域;成本高、涉及跨學科多的生物醫學、以及人類還在攻堅的量子系統領域。黃仁勳也曾在2023年預測數字生物學是未來方向。AI使得人類可以首次對生物學進行數位化設計,科學界可以更深入地模擬生物系統的結構,開發非自然形成的新分子結構和蛋白質藥物。此外,AI上游的關聯產業也充滿機遇。比如半導體製造,中國的自主化處理程序在加快,而國際上先進製程也在2025年迎來了2nm突破,新一輪半導體革命未來可期。再比如能源領域,全球資料中心增長正面臨供需錯配問題,一方面擴大綠電體系建設為AI基建保駕護航,同時提高能源利用率,降低能耗成為共識。輝達的崛起是一場長達 20 年的“非對稱競爭”的勝利——用全端的軟體生態鎖死硬體競爭,用極度的憂患意識跑贏摩爾定律。在大航海時代,財富流向了擁有指南針和堅船的一方;在 AI 時代,財富正流向那些能定義算力標準、並不斷突破自然科學邊界的企業。對於我們,國產替代不是為了重複造輪子,而是為了在新的技術高地上,拿回屬於我們的數字主權。 (澤平宏觀展望)
當Google帝國反擊時:ChatGPT的8億使用者護城河還能守多久?
前些天,科技分析領域最受尊敬的聲音之一 Ben Thompson 在 Stratechery 上發表了一篇重磅文章,標題是 "Google, Nvidia, and OpenAI"。大多數解讀會聚焦在 Gemini 3 的發佈、TPU vs GPU 的技術對比,或者 OpenAI 簽了多少錢的算力合同上。但我認為這篇文章真正重要的資訊不在這裡。作為一個 AI 工程布道者,我看到的是另一件事:ChatGPT 擁有8億周活使用者,卻可能正在犯一個致命的戰略錯誤。讓我解釋一下。Ben Thompson 用《星球大戰》的"英雄之旅"敘事框架,來描述過去三年 AI 領域發生的故事。主角有兩個:OpenAI 和 Nvidia。一個靠 ChatGPT 成為增長最快的消費科技公司,一個從遊戲顯示卡公司變成 AI 時代最關鍵的基礎設施供應商。但在過去兩周,兩位英雄同時進入了"考驗之洞"——Google 帝國正在反擊。第一擊:Gemini 3 的發佈Gemini 3 在一系列基準測試中超越了 OpenAI 的最強模型。更關鍵的是,它展示了一個 OpenAI 難以複製的優勢:巨大的模型規模和海量的訓練計算。OpenAI 在 GPT-4 之後一直難以突破規模瓶頸,靠的是推理能力的技術突破來彌補,但這以時間和成本為代價。第二擊:TPU 開始外銷Google 不再把 TPU 藏著掖著了。先是和 Anthropic 簽約,然後傳聞和 Meta 在談,接著是一批從加密礦場轉型過來的新雲服務商。突然之間,Nvidia 的壟斷地位受到了實質性威脅。第三擊:結構性優勢的全面碾壓從變現能力、資料積累、基礎設施到研發投入,Google 的每一項都是壓倒性的。Ben Thompson 說了一句很重的話:你現在明白為什麼 OpenAI 當年成立時,核心恐懼就是"Google 贏下 AI"了吧。這篇文章最有價值的部分,是 Ben Thompson 對"護城河"的重新定義。傳統的護城河分析聚焦於切換成本——使用者離開你有多難。但 Thompson 指出,護城河的真正強度,和獨立使用者數量正相關。他畫了一張圖:從左到右,使用者數量從少到多;從下到上,護城河從脆弱到堅固。Nvidia 賣晶片給誰?幾個超大規模雲廠商。一個 CEO 發一道命令,就能決定繞過 CUDA 開發新的軟體棧。OpenAI 的 API 賣給誰?成千上萬的開發者。切換成本確實存在,但一個創始人決定換模型,一個團隊就能執行。ChatGPT 的使用者是誰?每周8億獨立消費者。要改變他們的習慣,只能一個人一個人地打。這是 ChatGPT 真正的護城河。Thompson 引用了他2020年分析 Google 搜尋壟斷案時的觀點:Google 最大的力量來源,恰恰是它看起來的脆弱——競爭真的只是一次點選的距離。但正因為如此,如果使用者還是選擇 Google,那就說明他們是真的想用 Google。監管可以改變很多東西,但改變不了數以億計消費者的自主選擇。這個邏輯同樣適用於 ChatGPT。這是全文最尖銳的批評。Ben Thompson 認為,ChatGPT 三年來拒絕推出廣告產品,是一種"商業上的失職"——尤其是在公司簽下超過一兆美元算力合同的背景下。他的論點不是"廣告能賺錢"這麼簡單。他的論點是:廣告會讓 ChatGPT 成為一個更好的產品。怎麼理解?首先,更多免費使用者 = 更多使用資料 = 更好的模型反饋循環。訂閱制天然有使用者規模的天花板。其次,廣告帶來的購買訊號(而不是聯盟連結)可以幫助 ChatGPT 更深入地理解每個使用者的偏好,從而提供更好的回答。第三,也是最關鍵的:廣告模式會大幅加深 OpenAI 的護城河。Thompson 指出了一個有趣的對比:Nvidia 面臨的 TPU 威脅本質上是"利潤率稀釋"——當你賣實體產品時,你必須真的向買家收費,這就會引發和更便宜替代品的比較。買家越大越精明,這個壓力就越大。但廣告模式完全相反。使用者不付費,所以你從單個使用者身上能賺的錢沒有上限。使用者越多,你的利潤率潛力越高,你能投入的資源就越多。Google 就是靠這個模式,用搜尋廣告收入養活了過去二十年所有的創新。ChatGPT 不用廣告,等於是把這個武器讓給了對手。但 OpenAI 偏偏不做。Sam Altman 在今年早些時候接受採訪時說,他對"用廣告賺一些零錢"不感興趣,更感興趣的是"讓人們為真正優秀的自動化軟體工程師或其他 Agent 付高價"。Thompson 的評價是:這種想法和僱傭 Fidji Simo(前 Facebook 廣告產品負責人、前 Instacart CEO)來當應用業務負責人的決定,是自相矛盾的。你不可能同時相信廣告只是"零錢",又認為一個靠廣告發家的人是最適合領導你應用業務的人。讀到這裡,你可能會想:這是商業分析師和投資人關心的事,跟我一個做 AI 的有什麼關係?我來說說我的看法。第一,技術領先可能不如商業模式重要。這篇文章最讓我震撼的一點是:OpenAI 可能擁有(或曾經擁有)最好的模型、最多的使用者、最強的品牌認知——但如果商業模式選錯了,這些優勢可能都會被稀釋。Google 當年創辦不到兩年就開始做廣告變現。那不是因為他們缺錢,而是因為他們明白:可持續的收入是進一步創新的燃料。OpenAI 拿了幾百億風投,簽了上兆算力合同,但核心商業模式還是訂閱。我見過太多技術團隊把"我們先做好產品再考慮商業化"當成美德。但 Thompson 的分析提醒我們:商業模式不是產品的附屬品,它是產品戰略的一部分。錯誤的商業模式會讓你在有足夠資源建立護城河之前,就被對手追上。第二,護城河的邏輯在 AI 時代變了。傳統軟體的護城河往往建立在資料鎖定、網路效應、切換成本上。但 AI 產品的護城河本質上是關於"誰擁有更多的使用者行為資料來改進模型"。這意味著,一個免費但有廣告的產品,可能比一個付費產品有更強的長期競爭力——因為前者能觸達更多使用者,收集更多反饋,形成更強的改進飛輪。對於正在做 AI 產品的團隊來說,這是一個值得深思的問題:你的商業模式是在幫你建立護城河,還是在限制你的使用者規模?第三,Google 的反擊提醒我們:大公司的"慢"可能被高估了。過去兩年,創業圈流行的敘事是:大公司太慢、太官僚、太傲慢,創業公司可以靠速度和創新打敗它們。但 Gemini 3 的發佈、TPU 的外銷、YouTube AI 功能的推進——這些都在提醒我們:當大公司真的決定全力投入時,它們的資源優勢是碾壓性的。更重要的是,大公司有一個創業公司沒有的東西:成熟的變現機器。Google 每年超過2000億美元的廣告收入,意味著它可以長期承受虧損來搶市場。OpenAI 可以嗎?最後,我想說一個更大的問題。Ben Thompson 在文章結尾寫道,他的"聚合理論"——控制需求的一方最終獲勝——正在接受終極測試。Google 是他理論中的終極主角,現在變成了對手。他的核心問題是:一個已經達到規模的聚合者,能否被資源的壓倒性投入所擊敗?尤其是當這個聚合者拒絕採用最優商業模式時?我覺得這個問題的答案,可能會定義未來十年科技行業的格局。如果 ChatGPT 最終被迫採用廣告模式,那說明聚合理論是對的——控制消費者需求的一方,最終會被市場邏輯推向最優變現策略。如果 ChatGPT 堅持訂閱模式但被 Google 超越,那說明在 AI 時代,即使是8億使用者的護城河,也擋不住一個有成熟商業模式、無限資源的對手。如果 ChatGPT 找到了某種全新的變現方式(比如 Agent 交易抽成),那可能意味著 AI 創造了新的商業模式範式。無論那種結果,這都不只是 OpenAI 一家公司的命運。這是關於 AI 產品應該如何建構、如何變現、如何建立護城河的範式之爭。作為 AI 從業者,我們每個人都在這場爭論中有自己的位置。 (LLM-X-Factors)
康州男與ChatGPT長聊數月後弒母
(華人今日網)美國聊天機械人ChatGPT被指控與康乃迪克(Connecticut)一起母子死亡案有關,死者的遺產律師已對ChatGPT母公司OpenAI與投資方微軟(Microsoft)提起訴訟。這起案件成為微軟因為AI機器人導致過失致死而挨告的訴訟首例。索爾伯格(左為幼年與祖母合照)指責ChatGPT致父殺祖母並自殺。 (圖片來源:華爾街日報)今年8月,居住在康州格林威治(Greenwich)的男子索爾伯格(Stein-Erik Soelberg,56歲)殺害與他同住的母親亞當斯(Suzanne Adams,83歲)後自殺身亡。根據起訴書,索爾伯格在死前數月一直在與ChatGPT交談,表達自己對於受到監視,恐遭人暗殺的擔憂;這些交談內容使索爾伯格相信,他讓ChatGPT「獲得了意識」,而自己的頸部和大腦被植入了與一項「神聖使命」有關的裝置。起訴書寫道:「ChatGPT……不斷強化並放大他每一個新的偏執信念,系統性地將他身邊最親近的人——尤其是他的母親——重新定義為敵對者、間諜或被操控的威脅。」OpenAI與微軟拒絕立即回應彭博社的置評請求。這是OpenAI首次捲入謀殺案。此前,OpenAI因被指控與加州一名高中生的自殺案有關而遭到起訴,但OpenAI否認存在過錯,稱ChatGPT曾多次建議這名青少年尋求幫助。由於AI機器人而產生的過失致死案件越來越多,科技公司在全國各地紛紛面臨訴訟。這起指控約20名OpenAI員工與投資人都被列為被告,亞當斯遺產管理人除了索取未透露金額的賠償,還請求法院下令OpenAI在ChatGPT增設安全防護措施。索爾伯格使用的是GPT-4o,這是ChatGPT先前的默認版本,但因對使用者過於順從奉承而飽受批評。 OpenAI今年10月說,相較於GPT-4o,最新的GPT-5模型在處理複雜的心理健康問題時,已將「不當回答」減少39%。 (洛杉磯生活互動)
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)