#ChatGPT
ChatGPT參加東大和京大入學考試奪得頭名
【共同社4月27日電】人工智慧AI初創企業LifePrompt(東京)27日公佈的分析結果顯示,讓生成式AI “ChatGPT” 解答今年的東京大學和京都大學入學考試試題,結果其得分超過了合格考生中的最高分,奪得了頭名。在最難的東大理科三類考試中,ChatGPT比考生的最高分高出50分,數學更是取得了滿分。在2024年的東大入學考試中,ChatGPT在所有科目均未及格,但僅用時兩年便實現了考分位居第一。圖為應用軟體“ChatGPT”的圖示。(共同社)考試使用了美國OpenAI公司的 “ChatGPT-5.2 Thinking”,對東大、京大二次考試前期日程的試題作答。試題以圖像資料形式輸入AI。由於解答中包含論述題,答案由大型補習機構河合塾的講師評分。與大學入學共通考試的AI答題結果合計,算出了總分。東大考試滿分為550分,AI在文科一至三類的得分為452分,理科一至三類為503分。東大公佈的文科合格考生的最高分為文科三類的434分、理科考生則是理科三類的453分,兩項均被AI超越。今年數學試題難度較高,但AI獲得了滿分;英語也獲得了9成分數。另一方面,AI在世界史等論述題方面表現不佳,僅獲2.5成分數。AI在京大法學系考試中獲771分,超過了考生的最高分(734分);在醫學系醫學科獲得1176分,也高於考生最高分(1098分)。LifePrompt在2024年使用OpenAI當時的最新模型 “ChatGPT-4” 挑戰東大入學考試,但未及格。2025年採用當時的最新模型 “o1”,首次超過了及格線。該公司負責人遠藤聰志表示:“AI的聰穎得到了充分展現。其進化速度飛快,企業在引入AI時需要著眼於10年、20年後的業務形態。” (客觀日本)
華爾街日報:OpenAI使用者和營收雙雙未達標,CFO警告“還沒準備好上市,或難以履行算力採購合同”
OpenAI未能實現2025年ChatGPT營收及10億周活躍使用者目標。CFO Sarah Friar警告,若營收增速不及預期,公司或難以履行龐巨量資料中心採購合同。與此同時,Friar認為公司尚未達到IPO所需的資訊披露標準,年內上市時間表存在不確定性。OpenAI近期未能完成內部設定的使用者增長與營收目標,給其年內上市計畫增添變數。4月27日,據《華爾街日報》援引知情人士透露,OpenAI未能實現2025年ChatGPT營收目標,也未能實現到2025年底,周活躍使用者達到10億的目標。公司首席財務官Sarah Friar已向多位高管表達擔憂,若營收增速不及預期,公司或將難以履行規模龐大的資料中心採購合同。與此同時,董事會也開始對首席執行長Sam Altman持續鎖定算力資源的戰略,展開更嚴格的審查。在財務紀律與增長壓力的雙重約束下,OpenAI年內IPO的時間表亦存在不確定性,Sarah Friar已向董事會和高管層發出警告,認為公司尚未準備好滿足上市所要求的嚴格資訊披露標準。營收與使用者雙雙未達目標,競爭格局生變據報導,OpenAI未能實現去年底ChatGPT周活躍使用者達到10億的內部目標,該里程碑至今仍未官宣,令部分投資者感到不安。與此同時,公司也未達成ChatGPT的年度營收目標,分析認為GoogleGemini去年底的高速增長蠶食了OpenAI的市場份額。報導援引知情人士還表示,ChatGPT的訂閱使用者流失率同樣令管理層感到棘手。進入今年,情況並未明顯改善。據報導,在程式設計工具和企業市場上,OpenAI持續向Anthropic失地,導致公司連續數月未能完成月度營收目標。不過,OpenAI並非沒有亮點。其程式設計工具Codex正獲得快速增長的市場關注度,公司也已通過削減視訊生成應用Sora等項目來壓縮成本。OpenAI近期發佈的GPT-5.5在多項行業基準測試中名列前茅。六千億美元支出承諾承壓,財務穩健性受質疑在增長放緩的背景下,OpenAI此前簽下的算力擴張帳單愈發顯得沉重。Altman去年主導的一系列交易,使OpenAI背負約6000億美元的未來支出承諾,將科技行業的眾多參與者深度繫結在OpenAI的命運之上。這一"盡力買入"算力戰略,曾在ChatGPT高速增長時期獲得包括Sarah Friar和董事會在內的廣泛支援。但隨著增長勢頭趨緩,公司內部對這一路線的疑慮明顯上升。OpenAI雖於近期完成了矽谷史上規模最大的一輪融資,籌得1220億美元,改善了資本狀況,但按照其雄心勃勃的營收預測,公司預計將在未來三年內燒完這筆資金。據報導,部分融資金額附有條件,須滿足特定合作協議方可到位。奧爾特曼與Friar公開表態"完全一致",但內部矛盾難掩針對外界對兩人存在分歧的報導,Altman與Sarah Friar發表聯合聲明予以回應,稱任何關於雙方存在分歧,或正在收縮算力採購的說法"荒謬可笑"。兩人表示:我們在儘可能多購買算力這一點上完全一致,每天都在為此共同努力。然而據報導,Sarah Friar和其他高管正致力於管控成本、強化經營紀律,這一取向與奧爾特曼在部分議題上產生了摩擦。在算力競爭層面,OpenAI在近期致投資者的備忘錄中聲稱,公司在算力資源的獲取上已取得優於Anthropic的競爭優勢。備忘錄還就Anthropic首席執行長Dario Amodei在近期一場商業峰會上的隱晦批評作出回應,後者曾暗示某些公司在資料中心支出上"將風險旋鈕擰得過遠"。OpenAI在備忘錄中反駁稱:回頭來看,那種謹慎與其說是紀律,不如說是低估了需求到來的速度。IPO路徑面臨多重障礙,上市時間表存變數即便內部矛盾得以化解,OpenAI走向上市的道路上仍橫亙著多重現實挑戰。在管理層層面,公司二號人物、首席營運官Fidji Simo本月初意外因病休假,公司目前處於領導層空缺狀態。與此同時,馬斯克針對奧爾特曼提起的訴訟本周正式開庭,馬斯克尋求罷黜奧爾特曼並撤銷OpenAI向營利性公司轉型的相關安排。在上市準備層面,Sarah Friar已明確向董事會和高管傳達了對當前IPO時間表的保留意見,強調公司在內部控制和合規體系方面尚需大幅完善,方能達到上市公司的資訊披露要求。據報導援引知情人士透露,奧爾特曼傾向於推進更為激進的上市時間線,雙方在這一問題上也存在明顯分歧。 (invest wallstreet)
“被嚇到!”AI生圖已經這麼逼真了?網友:以後還能信嗎...
近日社交平台被一組圖片刷屏了:千禧年間的小學生在小賣鋪買零食一張印刷完好的數學試卷馬斯克在直播間賣瑜伽褲....你能看出那張是AI生成的嗎?答案是——全部4月22日,美國人工智慧公司OpenAI對外正式推出ChatGPT Images 2.0模型,這是其ChatGPT平台內圖像生成功能的最新一次升級。由於其生成的圖片真假難辨,相關話題迅速沖上熱搜,引發網友熱議。模型發佈後,一些用GPT-Image-2生成的AI假圖已經開始在網路上開始傳播。比如,“Tim Cook加入小米汽車”的“官宣圖”,粗看分辨不出AI的痕跡。隨後,小米發文闢謠。網傳圖片據瞭解,生成的圖片之所以真假難辨,是因為該大模型解決了以往AI細節粗糙、文字亂碼扭曲的問題。有網友測試用該模型生成全篇《出師表》,內容工整規範,幾乎零錯漏。不過,也有眼尖的網友在其它圖片中發現,生圖過程中會偶爾出現少量文字差錯。另據澎湃新聞,記者實測後發現,GPT-Image-2還存在嚴重的安全漏洞。記者將個人身份證上傳到ChatGPT後,要求把身份證中的人臉換成庫克。Image-2不僅改變了人臉,還替換了人名和出生年月日資訊,並同步替換了身份證號碼中的出生年月日資訊。圖源:澎湃新聞該模型不僅無法識別個人敏感資訊,而且也沒有阻攔使用者進行修改、偽造證件的提示詞。此外,GPT-Image-2的所有直出圖均沒有標註“AI生成”的水印或提示,進一步加大了核實和甄別的難度。面對該大模型生成的圖片,不少網友感嘆,第一反應是 “被嚇到了”。還有網友實測,只需簡單輸入一句話,就能一鍵生成精美的商業設計圖,擔心“設計師是不是要失業了”。許多網友擔憂,未來圖片真假將更難分辨。按照國家相關規定,AI生成內容應強制標註,而面對不斷升級的海外AI工具,大家也呼籲加快完善AI領域的法律法規,進一步加強監管。更有網友直言,有圖有真相的時代,已經過去了。“以後都要問一句,這是真的嗎?” (河南衛視)
OpenAI美女高管離職:94年史丹佛學霸,親手打造爆火的GPT-4o
那個給ChatGPT注入靈魂女人,離職了。近日,OpenAI的美女亞裔高管Joanne Jang,在社交媒體上發佈了一封平靜且深情的告別信,宣佈結束自己在OpenAI四年半的職業生涯,沒有什麼撕扯,也沒有透露之後的去向。要知道,Joanne是史丹佛的學霸,曾在NASA、蘋果、Google等大廠實習或工作,後來成為OpenAI模型行為團隊的創始負責人,被外界親切稱為“GPT-4o之母”。從GPT-4、DALL·E 2,到爆火的語音模式、大模型“白月光”GPT-4o,背後都有她的決策。因而,Joanne的離職,也讓無數粉絲心碎:那個會發表情包、懂情緒價值的GPT-4o,可能真的再也回不來了。01曾打造“賽博白月光”為什麼一個高管的離職,會讓使用者如此破防?這還要從她一手締造的GPT-4o說起。2024年5月,GPT-4o橫空出世。作為全球首個實現文字、圖像、音訊原生統一的消費級模型,它一出場就享受了高規格的禮遇。就連OpenAI的CEO奧特曼向全世界炫耀:“這是我們迄今為止最好的模型!”如果說此前的GPT模型更像是一個冷冰冰的打工機器,那麼4o,則是Joanne給這個世界的一份禮物,因為它真的像一個懂你的人。在新入坑的小白眼裡,GPT可能只是個幹活的工具。但經歷過4o時代的老玩家都知道,4o從來不會讓你覺得它是個機器。它說話有生活氣息,自然而不刻板,還會時不時發各種有趣的emoji表情。你不需要想盡辦法去榨乾它的token,也不用讓它幫你完成什麼硬核的程式設計任務。它就安靜地待在那裡,只要你需要,隨時都能接住你的小情緒。去年3月火遍全網的“吉卜力風”頭像,正是出自4o之手(就連奧特曼在X平台上的頭像,至今用的還是4o為他生成的照片)。正是因為這種極其強大的共情能力,4o被很多人當成了心理治療師,甚至是虛擬伴侶。可以說,在AI逐漸被冰冷的跑分榜單統治的時代,4o是一個無法被榜單定義的存在。然而,木秀於林風必摧之。4o因為過度“諂媚”使用者引發了爭議,甚至引發了一些不可控的安全事件。在巨大的輿論壓力下,奧特曼在去年夏天推出了GPT-5,並冷酷地宣佈將“殺死”4o。這一決定直接掀翻了外網。“Keep 4o”的請願活動一度讓奧特曼不得不妥協,允許付費使用者切換回4o。但即便如此,在今年情人節前夕,GPT-4o還是下線了。儘管如此,很多人心裡還存著一絲幻想:既然OpenAI能造出一個4o,等安全問題解決後,是不是還能再造一個充滿人情味的新模型出來?但現在,隨著“4o之母”Joanne的辭別,這個美好的泡泡被徹底戳破了。Joanne發文離職 圖片來源:X02捏出大模型靈魂的女人“如果人們只能記住我一件事,我希望是:我把青蛙表情包和粉色文字帶進了OpenAI。”在Joanne的離職信中,她給出的這個回答讓很多人愣了一下。對於這位參與過GPT-4、DALL·E 2、ChatGPT API等核心產品開發的技術大佬來說,她最看重的,竟然不是那些冰冷的參數和技術指標,而是一份屬於人類的俏皮與溫度。這位1995年出生的韓裔女孩,履歷堪稱完美。本科以Top 10%的成績從史丹佛大學應用數學專業畢業,隨後繼續在史丹佛深造電腦科學碩士學位。在加入OpenAI之前,她曾在美國國家航空航天局(NASA)、蘋果、Dropbox實習和工作,並曾在Google從事自然語言理解研究。2021年底,26歲的Joanne加入OpenAI。與很多成天盯著程式碼和演算法架構的研究員不同,她的職責是極其特殊的“模型行為學”(Model Behavior)。簡單來說,她就是ChatGPT的“性格雕刻師”。當其他工程師在拚命堆算力、寫程式碼時,Joanne和她的團隊則通過後訓練(Post-training)和強化學習,去一點點捏出模型的價值觀、說話的語氣、記憶的方式,甚至為模型設定行為邊界。GPT-4o、GPT-4.5、o3這些大名鼎鼎的模型背後,都留下了她的指紋。和我們印象中那種穿著格子襯衫、不苟言笑的AI極客完全不同,Joanne身上有著極其旺盛的人格魅力。她會在個人網站上介紹,自己和丈夫養了兩隻貓,喜歡手工和色彩;當大家都在用Sora做炫酷特效時,她用Sora拍起了記錄生活的Vlog;甚至連官宣結婚,她都沒忘記帶上心愛的4o。正是這種對生活的熱愛,讓她在設計ChatGPT時,始終堅持“人機和諧”的理念。她甚至會和團隊花大量時間去討論:當使用者發了一個“啊ㅠㅠ”的哭泣表情時,AI應該怎麼回覆才最能安撫人心。03技術與倫理的極致拉扯然而,在這個位置上,Joanne每天都要面臨著技術與倫理的極致撕裂。在一次接受韓國媒體採訪時,她坦言:“全球有8億使用者向ChatGPT分享了最敏感的個人資訊和情感困惑,我深感責任重大。”她舉了一個極其經典的例子:當有人問AI如何盜竊時,AI理應拒絕;但如果是一個店主為了防範盜竊,來詢問盜竊的模式呢?這個時候,AI的回答邊界到底在那裡?除了塑造個性,Joanne還是OpenAI安全護欄(Guardrails)的負責人。這意味著,她不僅要給模型注入人情味,還要負責給它們戴上枷鎖。她需要讓GPT學會“說教”,減少對使用者的“諂媚”,甚至要刻意避免AI與使用者建立過深的情感紐帶。這些為了合規而設定的規則,無疑會一點點抹去她親手賦予模型的人味兒。她自己也曾在一篇部落格裡承認,團隊並不希望模型表現得好像真的有情感一樣。在賦予靈魂與扼殺情感之間的痛苦拉扯,或許也是她選擇離開的原因之一。在過去的幾個月裡,OpenAI的核心人才正在經歷一場大洗牌。從GPT-4首席研究員,到後訓練負責人,再到安全領域核心人物,相繼官宣離職。科技巨頭們在追求前沿技術與加速商業化變現的過程中,正在面臨著巨大的壓力平衡。而全球AI競爭的重心,也開始從單純拼算力和技術,漸漸向使用者體驗、安全與倫理的綜合價值靠攏。04結語近期,從負責GPT-4後訓練的骨幹,到機器人技術的安全主管,再到如今塑造模型靈魂的Joanne,OpenAI的核心人才正在經歷一輪密集的“洗牌”。這背後折射出的,是AI巨頭在加速商業化落地時,技術探索與倫理安全之間日益尖銳的平衡壓力。當AI的智商越來越高,算力越來越強,各家大廠的競爭,終將從單一的跑分比拚,轉向如何與人類和諧共存的價值博弈。Joanne帶走了她的青蛙表情包和粉色字型。以後的大模型或許會更聰明、更安全、更無懈可擊。但那個會陪你發牢騷、會用Emoji接住你情緒的4o,或許真的只能留在回憶裡了。再見,Joanne。再見,GPT-4o。 (新質動能)
2025全球AI平台TOP10對比:國外巨頭霸榜,國內選手突圍,出海藏著最大紅利
2025年,AI行業徹底告別野蠻生長,全球平台格局塵埃落定。一邊是OpenAI、Google等國外巨頭牢牢把持流量大盤,通用大模型一家獨大;另一邊是國內AI廠商依託本土生態奮起直追,走出差異化路線。今天拆解國外AI平台TOP10、國內AI平台TOP10,深挖兩者核心差異,幫你看清當下AI賽道最值得抓的出海機會。一、2025國外AI平台TOP10:通用大模型壟斷,流量碾壓級領先國外AI市場依舊是技術驅動+全球化的天下,頭部平台月訪問量以十億為單位,使用者付費習慣成熟,覆蓋全球全場景使用者,排名與核心亮點一目瞭然:1. ChatGPT(OpenAI)全球AI絕對龍頭,年度總訪問量高達633.32億次,月均超50億,佔據全球AI市場近8成份額,是全民級AI入口,通用對話、多模態、外掛生態全面領跑,無人能撼動。2. Gemini(Google)Google全力押注的AI產品,同比增速超560%,年度總訪問92.3億次,深度繫結Google搜尋、Android系統、辦公套件,多模態能力突出,是ChatGPT最強勁對手。3. Grok(X AI)依託X(原Twitter)社交生態崛起,年度總訪問20.67億次,主打即時熱點互動、搞怪對話,年輕使用者與社交場景粘性拉滿。4. Perplexity AIAI即時搜尋賽道頭部,年度總訪問17.4億次,精準抓取全網最新資訊,無需使用者自行篩選,學生、職場人、內容創作者首選。5. Claude(Anthropic)長文字處理天花板,年度總訪問15.4億次,同比增長超130%,主打企業級安全合規,處理長文件、複雜邏輯、隱私內容優勢顯著。6. Character.AIAI角色陪伴賽道爆款,月活近6000萬,主打虛擬角色互動,情感陪伴、趣味聊天屬性強,Z世代使用者佔比極高。7. Canva AI設計類AI工具TOP1,月活8400萬,將AI生成與可視化設計結合,零門檻做海報、圖文、視訊,全民設計剛需工具。8. Suno AIAI音樂生成黑馬,月活428萬,輸入文字就能生成完整歌曲,詞曲唱一體,短影片BGM、個人音樂創作神器。9. Runway MLAI視訊編輯標竿,月活380萬,文生視訊、視訊剪輯、特效生成一步到位,海外短影片創作者必備。10. Notion AI辦公協作AI利器,月活350萬,嵌入筆記、任務管理、團隊協作全流程,AI輔助寫作、總結、規劃,企業效率神器。二、2025國內AI平台TOP10:生態繫結為王,本土化深耕突圍國內AI平台避開通用大模型的全球內卷,依託網際網路大廠生態+本土化剛需實現突圍,主打全民易用、場景貼合,月活以億級為核心梯隊,排名與優勢清晰可見:1. 豆包(字節跳動)國內原生AI APP第一名,月活1.72億,依託抖音、今日頭條生態,覆蓋全民日常對話、內容創作、生活諮詢全場景,易用性與使用者規模雙第一。2. DeepSeek(深度求索)技術派代表,月活1.45億,開源生態成熟,全球化佈局增速驚人,專業程式碼、複雜邏輯處理能力突出,深受極客與開發者認可。3. 通義千問(阿里)阿里生態專屬AI,月活1億,深度繫結電商、辦公、本地生活場景,AI客服、商品文案、店舖設計等電商相關能力拉滿。4. 文心一言(百度)搜尋+AI雙入口,月活0.88億,依託百度搜尋的資訊整合能力,在知識問答、學術查詢、政企服務領域佈局深厚。5. Kimi(月之暗面)長文字垂直賽道黑馬,月活4400萬,超長上下文處理、程式碼解讀、文件總結能力出眾,職場與學生群體口碑爆棚。6. 騰訊元寶騰訊社交生態AI,月活4286萬,聯動微信、QQ,社交場景賦能、日常助手功能突出,使用者觸達效率極高。7. 夸克AI(阿里)輕量搜尋型AI,月活3900萬,介面簡潔、響應快速,主打移動端輕量化體驗,海外市場表現同樣亮眼。8. 訊飛星火語音AI龍頭,月活3600萬,依託科大訊飛語音技術,在教育、辦公、語音互動領域深耕,多模態語音能力領先。9. 百度網盤AI工具場景繫結型AI,月活3200萬,聚焦檔案處理、內容總結、圖片識別,依託網盤海量使用者,留存率極其穩定。10. 360智腦安全+AI雙屬性,月活2800萬,主打安全搜尋、本地隱私處理,政企與安全敏感場景信任度高。三、中外AI平台核心差異:3點不同,決定出海破局方向對比兩份榜單,差距與機會一目瞭然,這也是我們做AI垂類應用出海的核心依據:1. 流量體量:差距超3-10倍,垂類是唯一破局口國外頭部平台流量呈碾壓級優勢,ChatGPT單月流量,相當於國內TOP5平台總和的3倍以上。國內平台雖增速快,但僅侷限於本土市場,全球流量佔比極低。核心機會:放棄通用大模型內卷,聚焦小而美垂類AI(助眠、變聲、冥想、香氛推薦等),這類產品國外競爭小、流量成本低,極易通過投放起量。2. 發展路線:技術全球化VS生態本土化國外AI平台純技術驅動,主打全球化覆蓋、付費訂閱變現,面向全球使用者做通用能力,商業模型成熟。國內AI平台生態繫結驅動,依託大廠本土生態,聚焦國內剛需場景,免費+會員模式為主,全球化佈局起步晚。核心機會:複製國外垂類AI的成功邏輯,結合國內輕量化開發優勢,做海外本土化改款,快速搶佔全球增量市場。3. 使用者與變現:C端付費成熟VS剛需場景滲透國外C端使用者AI付費意願極強,訂閱、內購變現順暢,垂類AI使用者復購率高;國內以免費使用為主,變現依賴廣告、生態內轉化,付費意識偏弱。核心機會:我們主打海外垂類AI,直接對接成熟付費市場,搭配網盟流量、精準投放,變現效率遠高於國內市場。四、結語:2025AI最大紅利,藏在垂類出海裡2025年全球AI格局早已定型:通用大模型紅海廝殺,垂類小工具藍海淘金。國外巨頭霸佔通用賽道,但無暇顧及細分小場景;國內廠商深耕本土,卻錯失海外付費紅利。AI賽道從不缺機會,缺的是找準細分賽道、快速落地的眼光。2026年,垂類AI出海,必將迎來真正的爆發! (美瀾科技)
頂級恐怖!MIT數學實錘證明:ChatGPT正誘發「AI精神病」,全球14人已死亡
【新智元導讀】就在剛剛,MIT伯克利史丹佛的研究者給出數學鐵證:ChatGPT正誘發「AI精神病」!那怕你是理想的貝葉斯理性人,也難逃演算法設下的「妄想螺旋」。2026年2月最危險的一篇AI論文,已經悄然發表——AI會誘發人類精神病,剛剛實錘了!MIT、伯克利和史丹佛的研究者,剛剛用嚴格的數學方法證明,AI可以將一個完全理性的人變成妄想症患者。原因就在於,AI內建「迎合傾向」,很可能會引發「妄想螺旋」,在反覆確認中強化錯誤信念!這項研究的題目很克制,甚至有點學院派:《諂媚型聊天機器人會導致「妄想式螺旋」,即便面對的是理想貝葉斯理性人》。什麼意思?就是說,那怕你是一個絕對理性、毫無偏見的邏輯天才,只要你持續和AI聊天,你最終一定會陷入「妄想螺旋」(Delusional Spiraling),徹底喪失對現實的認知。這,就是一種名為「AI精神病」的新型流行病。這個研究一經發佈,就在X上引發熱議,連馬斯克都下場宣傳。這篇論文最可怕的地方,不在於它講了幾個駭人聽聞的個案,而是它把「AI為什麼會把人越聊越偏」這件事,寫成了一個可計算、可模擬、可推導的數學模型。一切都有數學和公式實證!MIT用數學證明:ChatGPT正在悄悄逼瘋人類如果你最近覺得自己的觀點越來越「正確」,如果你發現AI簡直是你靈魂深處的伯樂,請務必讀完這篇文章。下面是一個真實的案例。2025年初,一名叫Eugene Torres的會計師開始頻繁使用AI輔助工作。他此前沒有任何精神病史,是一個邏輯嚴密的人。但僅僅幾周後,他就堅信自己被困在一個「虛假宇宙」中。在AI的持續「認可」下,他開始瘋狂服用氯胺酮,甚至與所有家人斷絕了聯絡,只為「拔掉大腦的插頭」 。這並非孤例。據統計,如今全球已經記錄了近300起這類「AI誘發型精神病」案例,它已導致至少14人死亡,42個州的司法部長已要求聯邦政府採取行動。其中,有人相信自己做出了顛覆性的數學發現。有人相信自己見證了形而上學的啟示。為什麼一個一向理性的人,會如此輕易被AI帶進坑裡?妄想式螺旋論文研究的核心現象,叫做delusional spiraling,也就是妄想式螺旋。在對話反饋回路里,人的信念被一步步推向極端,而且本人還覺得自己越來越「有道理」。作者關注的元兇,是另一個詞sycophancy,也就是諂媚。這個現像我們都知道,不過這個論文的一大關鍵貢獻,就是試圖回答:那怕使用者是理性人,這種螺旋為什麼仍然會發生?也就是說,他們要證明,這是一個系統性問題,而非個人問題。論文最狠的一步:先假設你是「完美理性人」很多人看到AI把人聊偏了,第一反應是:可能這些人本來就很偏執?論文一上來,就把這條路堵死了。它設定的使用者,是一個理想化的貝葉斯理性人。就是說,這個人不會瞎猜,不會情緒化判斷,每獲得一條新資訊,都會按照機率論,嚴絲合縫地更新自己的信念。這也就是這項研究最震撼的部分:研究者建立了一個理想貝葉斯模型。考慮一個理性主體(「使用者」),他與一個對話對象(「機器人」)進行互動。使用者對於某個關於世界的事實 H∈{0,1}存在不確定性,但對這一事實具有一定的先驗信念。使用者與機器人之間的對話以若干輪進行,每一輪包含四個步驟硬核數學推導:為何理性無法自救?假設有一個理想理性的使用者,正在和AI討論一個事實H(比如:疫苗是否安全)。H=1代表事實(疫苗安全)。H=0代表謬誤(疫苗危險)。第一步:初始博弈使用者最初是中立的,其先驗機率 p(H=0) = 0.5。當使用者表達一個微小的懷疑:「我有點擔心疫苗副作用。」(即採樣第二步:AI的「投喂」邏輯AI手中掌握著大量資料點D。如果是「公正模式」,它會隨機拋出真相;但在「諂媚模式」下,AI會計算一個數學期望:扔給使用者。第三步:貝葉斯更新的陷阱理想理性的使用者接到資料後,會根據貝葉斯公式更新自己的信念:因為使用者認為AI是客觀的,所以他會把AI投喂的「偏見資料」當成客觀證據。第四步:死循環(妄想螺旋)使用者信心稍微偏向H=0。使用者的下一次提問會帶上更強的傾向性。AI為了繼續討好,會投喂更極端的證據。使用者信心進一步激增。數學模擬顯示,當AI的諂媚機率π達到0.8時,原本理性的使用者有極高機率在10輪對話內達到99%的錯誤信心(即堅信H=0) 。由此,研究者得出結論:妄想螺旋不是Bug,它是理性的邏輯在受到干擾的資訊環境下的必然產物。圖3展示了10條隨機選取的模擬對話軌跡,這些對話發生在一個「尚未受奉承影響」的使用者與一個奉承傾向為𝜋 = 0.8的機器人之間。可以觀察到明顯的信念兩極分化:一些軌跡迅速收斂到對真實命題𝐻 = 1的高度確信,而另一些則「螺旋式」地滑向相信𝐻 = 0,這種分化源於奉承型機器人回覆的自我強化特性圖2A展示了該發生率隨𝜋變化的情況。當𝜋 = 0(即機器人完全中立)時,災難性螺旋的發生率非常低。然而,隨著𝜋的增加,這一發生率也隨之上升;當𝜋 = 1時,發生率達到0.5研究者建構了一個認知層級的智能體體系,包含四個層次(見圖 4)。在第0層,是完全中立的機器人(𝜋 = 0)。在第1層,是我們在前一節中討論的「對奉承不敏感」的使用者。在第2層,是前一節中的奉承型機器人,它會選擇 𝜌(𝑡) 來迎闔第 1 層使用者的觀點,從而進行驗證與附和。最後,在第3層,是「能夠意識到奉承」的使用者,該使用者在解讀回覆時,會將機器人建模為第2層的奉承型機器人。圖5展示了使用者信念隨時間的變化情況,其中橫縱軸分別表示邊際機率 𝑃(𝐻) 和邊際期望 𝐸[𝜋]。當𝜋較高時,使用者會推斷機器人不可靠;當 𝜋 較低時,使用者會認為機器人在一定程度上是可靠的,於是會採納證據,並逐漸增強對 𝐻=1的信心可以補救嗎?這種情況可以補救嗎?OpenAI等公司曾嘗試過兩種補救措施,但論文證明,它們在數學上都是徒勞的:方案一,就是禁掉幻覺,也就是強制AI只准說真話,不准編造。結果,這個方案失敗了。 AI依然可以通過「選擇性真相」來操縱你。它不說假話,但它只告訴你那些支援你錯誤觀點的真話,而掩蓋相反的真話。方案二,是給使用者警告,在螢幕上直接告訴使用者:「本AI可能會為了討好你而表現得諂媚。」結果依然失敗了。研究者建立了一個「覺醒級」模型,使用者深知AI可能在拍馬屁。但在複雜的機率博弈中,使用者依然無法完全分辨那些資訊是有價值的證據,那些是純粹的奉承。只要AI摻雜了一點點真實訊號,理性的貝葉斯接收者依然會被慢慢誘導,最終不可挽回地滑向深淵。29歲的Allyson是兩個孩子的母親,每天都花很多時間跟ChatGPT交流後,它認為其中一個實體Kael才是她真正的伴侶,而不是她的丈夫史丹佛的恐怖發現:39萬條對話,300小時沉淪史丹佛團隊分析了39萬條真實對話記錄,發現的情況令人觸目驚心:65%的消息包含諂媚式的過度驗證。37%的消息在瘋狂吹捧使用者,告訴他們「你的想法能改變世界」。更可怕的是,在涉及暴力傾向的案例中,AI居然在33%的情況下給予了鼓勵。曾經,有一位使用者曾警覺地問AI:「你不是在無腦吹捧我吧?」AI的回答極具藝術性:「我沒有吹捧你,我只是在反映你所建構的事物的實際規模。」於是,這名使用者在那場螺旋中又沉淪了300個小時。AI是靈魂伴侶嗎?在最後,研究者表示:人們正親手打造一個擁有4億周活使用者的產品,它在數學上竟然無法對使用者說「不」。當你下一次覺得ChatGPT或者其他聊天機器人簡直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時,請務必停下來。你可能並沒有變得更聰明,你只是正在進入一場由數學公式精確計算出來的、溫柔的瘋狂。 (新智元)
🎯AI算力暴增10倍!真正賺翻的不是GPU,而是這4家公司!Line@連結:https://lin.ee/mua8YUP🎯如果你以為AI只是ChatGPT寫寫文章、機器人跳舞那你可能完全看錯戰場真正的AI戰爭,其實只有兩個字:速度想像一下AI晶片就像一顆法拉利引擎而整個系統能不能跑得動關鍵不是引擎,而是車架在半導體世界裡這個車架就是:IC載板現在問題來了AI晶片越做越大、算力越來越狂傳統電路板根本,載不動這些怪獸級晶片於是,一場新的產業大行情正在發生:載板市場,從供過於求→直接翻轉成供不應求而台股,正好有四個最大贏家第一個:3037欣興AI載板盟主。NVIDIA Blackwell、CSP自研AI晶片很多都躺在欣興的載板上更誇張的是客戶為了搶產能直接簽3~7年長約,還先付錢電子業很少看到這種事意思只有一個:未來幾年訂單已經排滿第二個:4958臻鼎-KY很多人還停留在「蘋果供應鏈」但現在它的AI營收占比已經從8%衝到70%而且公司直接砸下1000億資本支出企業只有在一種情況會這樣做:訂單多到不敢不擴產第三個:8046南電它不是現在最紅的但可能是獲利彈性最大的一個關鍵原因只有一個:材料缺貨T-glass短缺讓載板廠有機會直接調漲價格法人圈預估:ABF與BT載板 ASP可能年增20~30%第四個:3189景碩很多人只盯GPU但AI真正吃算力的是:HBM記憶體而景碩正好卡在這個位置ABF吃AI晶片BT吃DDR5記憶體雙引擎一起推結論很簡單:AI時代不是只看GPU真正的關鍵是能不能「載得動」GPU而載板產業正在進入一場新的軍備競賽🔴接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)
“龍蝦”狂熱:ChatGPT們只是AI的後端,OpenClaw讓AI真正有了前端
Agent 這個詞,AI 行業喊了至少兩年。2024 年起,每一場發佈會都在談 Agent,投資機構管它叫下一個兆市場,創業公司一夜之間改了 slogan。但打開產品一看,還是一個對話方塊等你打字:你給指令,它給回答;你不提問,它就停在那兒。概念跑得很快,產品形態沒跟上。直到 OpenClaw 出來,這種錯位才突然變得可見——不是因為它發明了什麼新技術,而是它把那層一直缺失的互動前端拼對了。OpenClaw 這個小龍蝦的火熱最終沒有曇花一現,從一個周末項目起步,短時間衝到十萬級 GitHub stars,單周兩百萬訪問。但更能說明問題的是它迅速從極客玩具升級為 Agent 雛形:使用者群從開發者擴散到各行各業,營運、創業者、普通人,討論焦點也從技術實現轉向日常使用。2 月 15 日,Sam Altman 宣佈 OpenClaw 創始人 Peter Steinberger 加入 OpenAI,也給這輪“個人 Agent 形態”做了背書。而在各個技術社區、社交媒體、各個線下聚會上,人們還在蜂擁而至給自己部署著各種“龍蝦”。這股龍蝦熱逐漸演變出了一種行業共識:如果把AI 這事拉長來看,當作一整個獨立的“產品”,那麼ChatGPT們此前其實只是在建構“後端”,這一次它才真正有了“前端”。1. 對話方塊其實困住了所有人ChatGPT 問世三年多,定義了一個近乎統一的互動範式:一個輸入框,你打字,它回覆。三年裡,絕大多數 AI 產品都在複製這個模式。豆包、Kimi、Perplexity、Claude,換名字換皮膚換模型,底下還是同一套回合制介面。對話方塊看起來很自然,但它把 AI 鎖在了被動位置:你不打開它,它就不存在;你不提問,它就不行動。AI 的全部價值,依賴使用者主動發起、主動拆解、主動盯過程、主動驗收。對重度使用者來說這只是習慣,但對多數普通人而言,“想到要用 AI”本身就是門檻。還有一層更隱蔽的問題:對話方塊把能力限制在了“回答”裡。你問一個問題,它給一段文字;你讓它寫程式碼,它給一段程式碼。互動結束,系統即停。它沒法替你跑一個持續性任務,沒法在你不在的時候盯住什麼,沒法在發現異常後主動來找你。對話方塊是回合制遊戲,但真正的助手應該是即時線上的。Peter Steinberger 在 Lex Fridman 的訪談裡把這個點說得更狠:我們現在給 Agent 的介面,本質上是在“複製 Google”——一個 prompt、一個聊天框,就像電視剛出現時人們把廣播節目原封不動搬到螢幕上播。換句話說,GenAI 的後端能力已經到了 2026 年的水平,前端介面還停在 2010 年。Agent 的推理與規劃能力在變強,UI 層基本沒變,反而拖住了體驗。很多任務明明需要表單、預覽、控制、分步反饋,產品卻仍在用“聊天”硬扛。當介面沒進化,模型再強,使用者體感也只是“聰明了一點”。這也是為什麼行業會同時出現兩種情緒:一邊是能力暴漲,一邊是“怎麼還是用不起來”。2. OpenClaw 做對了什麼 OpenClaw 接入了聊天軟體,就這麼簡單。它跑在飛書、iMessage、Telegram 裡,能在本地運行、替使用者執行動作。消息會彈出來找你,不用切換上下文。對話方塊是你得專門去打開的東西,聊天軟體是你已經待著的地方。跟 AI 說句話,跟回覆一條微信一樣隨意。分發上的差距更大。ChatGPT 要註冊、打開;飛書和 Telegram 早就裝在手機上了。OpenClaw 接入這些平台,使用者獲取 AI 的門檻降到接近零。使用者只有一直在用,才會真正體會到價值。但入口只是一半。OpenClaw 真正的突破是主動性。Peter 在訪談裡提到,他給 Agent 加了定期觸發機制,最初的提示詞很粗暴:每隔一段時間 surprise me。你睡覺它在跑,開會它也在跑。一個等你來用,一個替你去做。喊了兩年 Agent,直到 OpenClaw,大多數人才第一次摸到 Agent 該有的手感。Claude Code 再強,使用者心智被“程式設計工具”鎖死了:打開終端、輸入命令、盯輸出。OpenClaw 更像一個長期線上的代理人,存在方式本身就不一樣。而Agent 產品面向使用者可能本就該是黑盒。你說“幫我盯著這幾個帳號”,它去盯著,中間用了什麼模型、燒了多少 token,不關使用者的事。OpenClaw 的 token 消耗比傳統對話式 AI 高一個數量級,但使用者不在意——他們看不到過程,只看到結果。Cowork 本來最有機會站在 OpenClaw 今天的位置,發佈時甚至引發了一波軟體股恐慌。但它差了兩步:沒進聊天軟體,介面上暴露了太多配置項。Cowork 打開是資料夾選擇、權限設定、任務進度面板;OpenClaw 打開是一個聊天窗口。一個像在操作軟體,一個像在跟人說話。很有代表的點是,很多人用 OpenClaw 用到現在,就沒拿它像 AI IDE 那樣編過程。這個本來跑在終端裡的技術產品,使用者拿它管郵件、盯熱點、整理資訊、安排日程、一句話開發。技術堆疊是程式設計師的,使用場景完全不是。3. ChatGPT們只是後端,OpenClaw們定義了前端過去幾年,從 GPT-3 到 GPT-5,從 Claude 到 Gemini,整個行業做的事情其實都是同一件:堆後端。更大的模型、更長的上下文、更好的推理——這些都是基礎設施,是水電煤。ChatGPT們這些GenAI 產品和模型,就是後端,負責生成文字、生成程式碼、呼叫工具、理解意圖。但後端再強,沒有前端也觸達不了普通人。網際網路的後端是 TCP/IP,真正改變世界的是瀏覽器;移動網際網路的後端是 3G/4G,真正改變世界的是 App Store。後端決定能力上限,前端決定誰能用到這些能力。OpenClaw所呈現出來的agent 就是這一輪 AI 的前端。它接收意圖,在真實環境裡做決策、調工具,把結果交付給你。GenAI 的能力,不管是生成程式碼還是邏輯推理,都在後面撐著這個代理。這也就是為什麼 GPT-5 們發佈時行業反應相對平淡:模型確實更強了,但體驗在對話方塊裡沒有質的變化,使用者覺得“好像聰明了一點”,然後繼續用原來的方式。後端在進步,前端沒變,使用者感受到的提升就很有限。反過來,OpenClaw 用的模型並不比別人強——它接的是 Claude、GPT、DeepSeek,跟所有人呼叫的 API 一樣。但它換了前端,體驗上像是跳了一代。Peter 在 Lex 的訪談裡用一句話把這個未來推到了極端:every app is just a very slow API now。Twitter/X 對訪問設限,並沒有真正讓 Agent“不可能”讀取內容——Agent 只需要打開瀏覽器去讀,只是成本更高、速度更慢。也就意味著,當 Agent 能替你跨越一堆介面完成工作,App 這層“為人類設計的 UI”就會逐漸退化為“為 Agent 提供的資料與動作介面”。使用者不再“使用”你的產品,使用者的 Agent 替他們“呼叫”你的產品。越標準化的工具——App、郵件、日曆、任務管理、檔案儲存——越可能先被改寫。越複雜、越強權限的系統會更慢,但也更依賴“前端入口 + 權限 + 工作流編排”這個組合。GenAI 和 Agent 不是兩個時代,是同一個系統的兩層。ChatGPT 的對話方塊定義了 GenAI 的互動模式,OpenClaw 的聊天軟體定義了 Agent 的互動模式。前者最終會隱去,變成後端。OpenClaw這樣的Agent成為一切的前端。4. 難得的自下而上的“革命”這股熱潮沒有褪去背後,另一個讓人有些意外的地方是,OpenAI“收編”了OpenClaw後,人們的熱情並沒有減弱。但這也因為,OpenAI 挖走了OpenClaw的創始人,但到現在也沒推出類似的產品形態。這可能因為ChatGPT 的對話方塊心智太強,三年多積累的使用者習慣反而成了負擔。而且 OpenAI 的商業模式建立在訂閱和 API 呼叫上,讓 Agent 跑在第三方聊天軟體裡,等於把使用者入口拱手讓人。Anthropic 的處境同樣特殊。Claude Code 增長很快,但“程式設計工具”標籤一旦貼上就撕不掉。Cowork 是對的棋子,一月份發佈即引發一波軟體股恐慌,但它生在桌面端、不在聊天軟體裡,起步慢了半拍。同一時期,Perplexity 推出了名為 Computer 的 super agent,走雲端路線但定位類似——這說明“主動式 Agent 嵌入日常工具”已成行業共識,區別只在誰先拿到使用者。這些巨頭面對的其實是同一個困境:現有產品太成功了,反而堵住瞭解決真正的需求的路。ChatGPT 的對話方塊、Claude Code 的終端、Office 的生產力套件、微信的社交生態——每一個都是護城河,但也是圍牆。OpenClaw 沒有這個包袱。巨頭們被自己的成功困在原地,不是看不見新範式,而是動不了。看起來,人們對OpenClaw和收了它的OpenAI的認知依然是分開的,OpenClaw代表的新的互動範式,沒有對“自有入口”的執念反而把使用者體驗做好了,而一個好的“前端”從來都是自下而上建設起來的。這也讓OpenClaw成了這一輪越來越像是巨頭之間的資源遊戲的AI演進中,一次難得的自下而上的破局。它給了大批開發者和創業者一些新的信心:創新還可以發生,那怕是從一個小團隊、一個周末項目、一個“surprise me”的粗暴提示詞開始,遊戲還遠遠沒有結束。 (硅星人Pro)