#
深度與尺度齊飛:2025十大名導力作!
前言能被稱為世界級名導的人屈指可數,他們出的新片都是全世界影迷必看的作品,真正的“看一部少一部”。今天分享會為大家帶來的就是十位世界級名導的最新作品。題材類型各有不同,相信總有一部是你喜歡的!1.《一戰再戰》2025導演: 保羅·湯瑪斯·安德森編劇: 保羅·湯瑪斯·安德森主演: 李奧納多·迪卡皮歐 / 西恩·潘豆瓣  8.1  IMDb  7.8PTA作為一個另類的獨立電影導演,在美國本土並不為大眾所熟,反倒在國際影評圈廣受讚譽。至今,他已經囊括了坎城、威尼斯、柏林三大電影節主競賽的最佳導演獎,藝術技法上毫無爭議。影片改編自托馬斯·品欽的名著《葡萄園》,講述了一位曾有激進過往的父親,如今帶著女兒過著隱姓埋名的平靜生活。然而,當作為白人至上主義者的上校追蹤他們時,他們不得不再次踏上逃亡之路。該片拍攝使用35毫米膠片的影像風格,安德森表示更多的啟發來自王家衛。王家衛那種鬆弛的狀態既不張揚,又酷到極點。他在開拍前兩個月看了《花樣年華》和《重慶森林》,想牢牢記住王家衛的那種能量,尤其是電影第一幕需要的那種感覺,而且王家衛也是拍1.85:1畫面構圖的高手。王家衛拍城市、拍街頭的方式,就像有人拿著相機沿街而行。那種氛圍也非常適合該片的故事。2.《科學怪人》2025導演: 吉勒摩·戴托羅編劇: 吉勒摩·戴托羅主演: 奧斯卡·伊薩克 / 雅各·艾洛迪豆瓣  7.4  IMDb  7.6導演吉勒摩·戴托羅,既拿過奧斯卡最佳影片(《水底情深》),又拿過奧斯卡最佳動畫長片(《吉勒摩·戴托羅的匹諾丘》)。他擅長將奇幻元素與深刻的成人主題融合,對“怪物”展現出極致的溫情和同理心。這種獨特的哥特式美學和對“異類”的深刻關懷,正是他重拍《科學怪人》的底氣。早在2007年,他就曾表示想翻拍這部經典。然而,囿於種種原因,翻拍計畫被擱置多年。像是一再“延誤”的航班,直到2024年,《科學怪人》才載著托羅輕盈的想像“起飛”。耗資1.2億美金(約8.5億人民幣),經過一年多的拍攝和製作,《科學怪人》終於在威尼斯國際電影節主競賽單元全球首映。戴托羅導演沒有辜負自己多年的沉澱與觀眾的期待,《科學怪人》的“爛番茄”評分為86%,資深影評人評價:“吉勒摩·戴托羅的《科學怪人》在電影史最經典的怪物身上尋找人性,堪稱豪華史詩巨製。”3.《天國與地獄》2025導演: 史派克·李編劇: 德亞倫·福克斯主演: 丹佐·華盛頓 / 傑佛瑞·萊特豆瓣  7.4  IMDb  7.6史派克·李說,“不是一部翻拍電影”,而是 “對黑澤明的偉大電影《天國與地獄》的重新詮釋”。儘管許多觀眾會帶著對黑澤明傑作式焦慮的期待走進《天國與地獄》,但這一次李導演並非意圖復刻前人的偉大。他以過往為跳板,將音樂、電影與歷史的多重靈感熔於一爐,與老友華盛頓完成這場遲暮之年的藝術重逢。他終究拍出了一部純正的史派克·李式作品。4.《只是一場意外》2025導演: 賈法·潘納希編劇: 賈法·潘納希主演: 瓦希德·穆巴謝裡 / 瑪麗亞姆·阿夫沙裡豆瓣  7.5  IMDb  7.7摘下 2025 年坎城電影節金棕櫚獎的《只是一場意外》,標誌著一個歷史時刻的誕生:伊朗導演賈法·潘納希由此成為影史上第四位集齊歐洲三大電影節最高榮譽的導演。賈法·潘納希曾在2010年被伊朗政府以“危害國家安全罪”判處6年監禁外加20年禁止拍片。在這部影片獲獎時,他還在“禁拍期”。現在因為這部新片,他又被伊朗法院判處一年監禁。5.《暴蜂尼亞》2025導演: 尤格·藍西莫編劇: 威爾·崔西主演: 艾瑪·史東 / 傑西·普萊蒙豆瓣  7.1  IMDb  7.5本片是蘭斯莫斯與艾瑪·史東第五度合作。蘭斯莫斯無疑是當代電影界最具辨識度和影響力的導演之一。《狗牙》定義了極端隔離,《龍蝦》諷刺了單身歧視,《可憐的東西》重塑了女性解放……《暴蜂尼亞》無疑是這一系列探索的最新篇章。影片翻拍自2003年的韓國同名邪典電影,核心劇情幾乎一樣:一個叫李炳古的陰謀論者,堅信某化學公司社長是個外星王子,正在策劃毀滅地球。炳古綁架了社長,將他關押在地下室,用各種離譜的方法審問他,試圖阻止世界末日……6.《米奇17》2025導演: 奉俊昊編劇: 奉俊昊 / 愛德華·艾希頓主演: 羅伯·派汀森 / 娜歐蜜·艾基豆瓣  6.6  IMDb  6.7繼2019年執導的《寄生上流》接連斬獲坎城金棕櫚獎、奧斯卡最佳影片之後,韓國著名導演奉俊昊在2025年帶來他的新作《米奇17》。影片改編自愛德華·艾希頓創作的科幻小說《米奇7號》,講述了主人公米奇·巴恩斯加入星際殖民計畫,簽約讓出自己的肉身、上傳人格,成為飛船上唯一可以反覆去世又不斷重生的“消耗體”,以此來從事高危工作的故事。7.《徵人啟弒》2025導演: 朴贊郁編劇: 朴贊郁主演: 李炳憲 / 孫藝珍豆瓣  7.3  IMDb  7.6影片由韓國鬼才導演朴贊郁執導,影迷朋友對他一定不陌生,《老男孩》、《親切的金子》、《小姐》等等都是耳熟能詳的經典之作。影片改編自小說《斧頭》,講述了一個中年失業男人在求職無門、家庭壓力山大的情況下,按照一種十分詭異的邏輯,選擇了以極端暴力的方式“物理清除”潛在競爭對手。如果說《寄生上流》描繪的是底層民眾向上攀爬的野心與絕望,那麼《徵人啟弒》則聚焦於“中產家庭”阻止下墜的崩壞之旅,中年失業危機變成一場血淋淋的生存戰。8.《黑袋行動》2025導演: 史蒂芬·索德柏編劇: 大衛·柯普主演: 麥可·法斯賓達 / 凱特·布蘭琪豆瓣  6.0  IMDb  6.7電影表面上講述一樁諜戰謎案,實則探究更為普遍的人際關係中的微妙博弈。影片通過六位主要角色建構了一個完整的人際關係網路,每個節點都隱藏著不為人知的秘密,形成了一幅現代人際關係的複雜圖譜。在這場人性迷局中,主角喬治與凱瑟琳的婚姻關係成為情感與忠誠的燈塔,也是諜戰敘事下潛藏的核心。9.《28年毀滅倒數》2025導演: 丹尼·鮑伊編劇: 艾力克斯·嘉蘭主演: 茱蒂·康默 / 阿爾菲·威廉姆斯豆瓣  6.4  IMDb  7.0作為英國電影界的叛逆者,博伊爾的作品序列——《猜火車》中馬桶下的蔚藍海洋、《127小時》裡斷臂求生的極端抉擇、《貧民百萬富翁》對社會不公的詩意控訴——無不彰顯著他對人性邊界與生存本質的持續探索。這種特質在《28天毀滅倒數》中達到了某種極致:當文明規則在28天內土崩瓦解,女性淪為洩慾工具,善良成為奢侈品,博伊爾毫不留情地撕開了現代社會的虛偽面紗。10.《腓尼基計畫》2025導演: 魏斯·安德森編劇: 魏斯·安德森 / 羅曼·科波拉主演: 班尼西歐·狄奧·托羅 / 米婭·塞普雷頓豆瓣  6.9  IMDb  6.9魏斯安德森電影的特點一是他那獨特的美學風格,另一個便是大牌明星雲集的豪華陣容。本片延續了這兩個特點,班尼西歐·狄奧·托羅、湯姆·漢克斯、史嘉蕾·喬韓森、班奈狄克·康柏拜區……觀眾依舊可以在魏斯·安德森的電影裡“數星星”。魏斯安德森的電影近年來的口碑並不是很好,或許他自己也意識到了,對複雜的文字巢狀與元文字敘事的沉溺,再加上相框式舞檯布景引發的疏離感,自《法蘭西特派》開始,他的電影已實質上拋棄了一眾非專業觀影者。與之相對,其作品——包括《小行星城》與後來在串流媒體上映的《亨利·休格的神奇故事》——也遭市場冷遇。這次的這部《腓尼基計畫》是他近幾年電影中最易“看”的一部。父女親情,線性敘事,象徵古典戲劇結構的回歸。荒誕的喜劇手法,也能為觀眾帶去更多愉悅感覺。(電影分享會)
智譜和MiniMax,大模型的兩種“活法”
1月8日,全球大模型第一股智譜正式登陸港交所,另一家大模型獨角獸MiniMax緊隨其後掛牌,短短兩天內的密集上市動作,將中國AI大模型的商業敘事推到了幕前。作為國產大模型的“雙雄”,智譜和MiniMax的上市處理程序一直備受關注。兩家同為“中國AI六小龍”中的佼佼者,上市前估值均在500億港元左右,都刷新了近年AI新股的認購熱度。截至撰稿日,智譜和MiniMax的市值分別約為800億港元和1100億港元,估值差距較上市前進一步拉大。其中,智譜表現得穩打穩紮,而MiniMax則熱度更高。資本市場的熱烈反應固然引人注目,但兩家大模型獨角獸截然不同的戰略基因和商業化路徑,能否為國內大模型行業提供可驗證、可複製的發展範式,才是接下來最大的懸念。1“清華系”花開兩朵作為兩家誕生於ChatGPT爆發前的AI企業,智譜AI CEO張鵬和MiniMax創始人閆俊傑,他們都是堅定的AGI(通用人工智慧)信徒。但黎明前的黑暗總是漫長,要在無人知曉時堅定信念,他們也經歷了更多的“孤獨時刻”。張鵬紮根於清華大學電腦系知識工程實驗室(KEG),該實驗室於2016年推出了科技資訊分析引擎AMiner。2019年,張鵬帶領團隊獨立出來,正式創立了智譜AI。巧合的是,閆俊傑也在清華大學電腦系進行博士後研究。他在博士期間曾是百度AI研究院的實習生,後來加入了商湯科技,從實習生一路升至集團副總裁,曾主導深度學習工具鏈及通用智能技術體系搭建。可以看出,在成為兩家獨角獸企業的創始人之前,張鵬和閆俊傑便已經在各自的領域完成了一定的人工智慧技術積累,讓他們能夠更早地看到AI時代的風口時間的指針來到2021年,彼時人工智慧還是一個在角落裡沉寂的賽道,最火的創業賽道還是連Facebook都要為之更改企業名稱的元宇宙。但在同一年,智譜已經拿下億元A輪融資,正式從“科研實驗室”向“大模型商業化賽道”轉身,並在 2022年8月研發出中國最早的千億大模型之一。2022年,帶著“要讓普通人感受到AI帶來改變”的使命,閆俊傑離開了商湯科技副總裁的位置,並創立了MiniMax,奔著AGI的目標前進。閆俊傑認為,只做特定任務的AI已觸及商業化天花板,而通用人工智慧無需定製,也能形成標準化產品並服務海量使用者,這才是創造規模化價值的終極方向。張鵬的創業理念有著更濃烈的“理想主義”色彩。他坦言,成立智譜的初衷並非單純追求盈利,而是在產業中推進工作,更符合當前人工智慧發展的需求。後面的故事大家也都知道了。2023年初,ChatGPT-4正式發佈,AI大模型很快就成為了普通人也能感知到的技術浪潮。隨後,國內網際網路大廠紛紛推出了自研大模型,月之暗面、零一萬物等大模型初創企業也如雨後春筍般湧現,智譜和MiniMax開始感受到更緊迫的商業化壓力。從這時候開始,智譜和MiniMax逐漸走向了分岔路。作為一家脫胎於清華大學實驗室的企業,“根正苗紅”的智譜背後不乏國資的身影,比如杭州城投、上城資本、珠海華發等。在與國資深度繫結的背景下,智譜也收穫了更多政企客戶以及學術圈客戶,比如為高校等科研單位開發“AI +學術搜尋產品”、與珠海華發合作開發的“智譜+珠海華發空間”項目等。如果說智譜是不折不扣的“學術派”,那麼MiniMax則更像是四處開花的“野戰派”。從融資背景來看,MiniMax背後更多是科技大廠和國際投資者,比如阿里、騰訊、小紅書,以及阿布扎比投資局、韓國未來資產等,它們為MiniMax打開了廣闊的海外市場。閆俊傑更追求大模型的泛化性,他認為,一個強技術的公司不應該是個賣技術的公司,而是一家技術驅動產品的公司,這也決定了MiniMax將更聚焦於C端市場。2To B向左,To C向右背景和資源不同,這兩家AI獨角獸企業的技術路徑和商業化之路也大不相同。智譜選擇了自研不同於OpenAIGPT架構的GLM(通用語言模型)路徑。張鵬曾表示,國產大模型要實現自己的創新,不能照搬世界頂尖水平的技術路徑。GLM架構在處理語言任務時能同時利用前向和後向資訊,在長文字理解、邏輯推理和低幻覺率方面更有優勢。張鵬表示,理論上GLM的訓練效率會比GPT更高。此外,智譜堅持全端自主可控的技術路線,也幫助智譜在政企市場贏得了獨特的信任優勢。根據招股書,智譜已成為中國收入規模最大的獨立大模型廠商之一。2022年至2025年上半年,分別實現營收5740萬元、1.245億元、3.124億元、1.9億元,年複合增長率達到 130%。(圖源:智譜招股書)公司主要通過MaaS(模型即服務)平台提供本地化部署和雲端API服務。2024年,智譜本地化部署收入佔總收入的84.5%,主要面向對資料安全有高要求的政府、金融、能源等機構客戶,為他們提供定製化模型解決方案。(圖源:智譜招股書)聚焦於B端路線的商業模式,為智譜帶來了更穩定、更高毛利率的收入,公司毛利率長期維持在50%以上。但硬幣的另一面,以本地化部署業務為主的商業模式,也帶來了交付周期長、定製化需求高、客戶集中度高、規模化難度大等挑戰,難以支撐長期可持續增長。為了突破這一瓶頸,智譜也在加速向雲端轉型,其雲端部署業務在總收入中的佔比已從2022年的4.5%提升至2024年的15.5%。張鵬表示,希望將API業務的收入佔比提升至一半。不同於智譜做AI時代“算力基建”的商業化路線,MiniMax走出了一條C端產品出海路線。閆俊傑的觀點非常明確,他認為大模型技術再好,也必須要有足夠好的產品能力承接。這種“模型即產品”的理念,頗有字節跳動“APP工廠”打法的味道。但對於起步較晚的MiniMax來說,如何趕上進度才是關鍵。為此,閆俊傑押注的是MoE專家混合模型,可以在不增加太多計算資源的情況下,讓模型變得更加複雜和強大。MiniMax透露,其基於MOE+ Linear Attention推出的新一代模型,與GPT-4o同一代模型相比,處理10萬token時效率可提升2-3倍,並且長度越長,提升越明顯。這一輕量化設計,使MiniMax在高算力消耗的C端市場中更具成本優勢。目前,MiniMax的代表產品包括文生視訊功能的“海螺AI” 、AI情感陪伴應用的“星野/Talkie”等。截至2025年前三季度,MiniMax超七成收入來自海外,C端AI應用貢獻約71%的收入,主要採取“廣告+訂閱+內購”的變現模式。火爆的C端應用也為MiniMax積累了不少使用者,其AI原生產品矩陣平均月活使用者達2760萬,累計使用者超2.12億,僅Talkie/星野一款產品就積累了1.47億使用者。(圖源:MiniMax招股書)過去三年,MiniMax的收入也呈現出爆發式增長,2023年-2025年前三個季度,分別為350萬美元(約為人民幣2464.4萬元)、3050萬美元(約為人民幣2.2億元)和5340萬美元(約為人民幣3.8億元)。(圖源:MiniMax招股書)不過,儘管MiniMax的收入增速遠超智譜,但C端模式的脆弱性也顯而易見,MiniMax的毛利率長期低於智譜,2025年前三季度 ,核心C端業務的毛利率僅有4.7%。對於MiniMax來說,如何突破使用者增長的天花板,不斷提升使用者的付費意願,以及應對海外市場的監管風險,將會成為驗證其“以產品打天下”模式能否跑通的關鍵。3雙雄競速,殊途同歸六年時間的演進,智譜和MiniMax已經進化成為兩個物種,本該一個朝左,一個朝右,成為兩條平行線。然而,兩者幾乎在同一時間向資本市場發起衝擊,又不可避免地被置於同一聚光燈下,面臨一個共同的現實——大模型企業仍在虧損。2022-2024年,智譜的淨虧損分別為1.44億元、7.88億元、29.58億元,2025年上半年虧損23.58億元;同期,MiniMax淨虧損分別為7370萬美元、2.69億美元、4.65億美元。2025年前三季度為5.12億美元。兩者的虧損金額都在持續擴大,且尚不具備自造血能力。對於智譜和MiniMax,燒錢大頭依然是大模型的研發和算力。2024年,智譜的研發投入高達21.95億元,是當年營收的7倍;MiniMax的研發支出也差不多是收入的6倍,兩者70%-80% 的研發投入都花在算力上。此外,MiniMax早期在全球市場的行銷和使用者獲取上也投入巨大。2024年,其銷售與市場費用佔總收入的285%。不過,MiniMax去年的銷售及行銷支出已有下滑,閆俊傑曾公開表示,不願意投入大量金錢在沒有價值的投流上,更傾向於通過產品本身的能力來吸引使用者。因此,儘管智譜和MiniMax都呈現出“高增長、高投入、未盈利”的共同特徵,但講出來的故事不同,資本市場也呈現出不同的態度。從上市前的認購情況來看,MiniMax的熱度明顯高於智譜。上市首日,智譜盤中一度破發,收盤價較116.2港元/股的發行價上漲13.17%;MiniMax收盤價較165港元/股發行價上漲超109%。有關注AI的投資人表示,在中國市場,投資者一般把C端公司的優先順序置於B端公司之上。MiniMax講了一個C端產品故事,使用者規模和商業模式的天花板更高;智譜的增長具備可預測性,爆發速度往往不及C端模式,前者往往更受資本市場青睞。但目前來看,兩家公司都處於上市初期,正針對各自業務短板加速調整與最佳化,當下很難判斷到底那種路徑會更為正確。但可以肯定的是,智譜和MiniMax的上市,為國內大模型企業提供了更清晰的參考範本,也將大模型行業從單純的“技術敘事”推向“商業敘事”。面對國外大模型在技術上的領先優勢,以及國內大廠的飽和式進攻,大模型初創企業想要在牌桌上贏得一席之地,必須在商業模式上找到自己的差異化路徑。技術驅動固然重要,但更重要的,是真正能讓客戶埋單的好產品,而不僅僅是好模型。中國AI獨角獸,必須跨越技術的淺灘,潛入資本的深海,才能錘煉真正的商業內功。所以,上市並非大模型企業的終點,而是一個更充分展示自己的機會和挑戰。在全球投資者的審視之下,無論是智譜還是MiniMax,還是後續更多能夠登上資本舞台的大模型企業,它們都必須回答同一個問題:在燒錢換未來之後,誰能真正活到未來。大模型企業的“子彈”有限,然而,隨著市場不斷拓展,規模優勢也可能轉化為成本壓力。屆時,誰能打造更輕量化的模型,將算力成本壓得更低;誰能用更少的算力完成同樣的任務;誰能率先跑通商業模式,進一步攤分算力成本,都會成為新的競爭焦點。通往AGI的路徑註定漫長,但當下的全球大模型行業,已經不願意只聽“故事”了。 (伯虎財經)
2026大模型倫理深度觀察:理解AI、信任AI、與AI共處
2025年,大模型技術繼續高歌猛進。在程式設計、科學推理、複雜問題解決等多個領域,前沿AI系統已展現出接近“博士級”的專業能力,業界對通用人工智慧(AGI)的預期時間表不斷提前。然而,能力的飛躍與理解的滯後之間的鴻溝也在持續擴大——我們正在部署越來越強大的AI系統,卻對其內部運作機制知之甚少。這種認知失衡催生了大模型倫理領域的四個核心議題:如何“看清”AI的決策過程(可解釋性與透明度)、如何確保AI的行為與人類價值保持一致(價值對齊)、如何安全地、負責任地迭代前沿AI模型(安全框架)、以及如何應對AI系統可能被給予道德考量的前瞻性問題(AI意識與福祉)。這四個議題相互交織,共同構成了AI治理從“控制AI做什麼”向“理解AI如何思考、是否真誠、是否值得道德考量”的深刻轉向。大模型可解釋性與透明度:打開演算法黑箱(一)為什麼看清和理解AI至關重要深度學習模型通常被視作“黑箱”,其內在運行機制無法被開發者理解。進一步而言,生成式AI系統更像是“培育”出來的,而非“建構”出來的——它們的內部機制屬於“湧現”現象,而不是被直接設計出來的。開發者設定了宏觀層面的條件,但最終所呈現的具體結構卻無法精確預知。當試圖深入這些系統內部時,看到的往往只是由數十億個數字構成的龐大矩陣。因此,大模型的可解釋性既是挑戰,也是必須追求的目標。具體而言,大模型的可解釋性是指系統能夠以人類可理解的方式闡釋其決策過程和輸出結果的能力,包括:識別那些輸入特徵對特定輸出起關鍵作用,揭示模型內部的推理路徑和決策邏輯,以及解釋模型行為的因果關係。簡言之,就是理解模型如何“思考”及運行。增進可解釋性的價值體現在多個層面。其一,有效防範AI系統的價值偏離與不良行為——研究人員已發現模型可能展現出意料之外的湧現行為,如AI欺騙或權力尋求;如果模型具備有效的可解釋性,人們就可以直接檢查它是否存在企圖欺騙或不服從人類指令的內部回路。其二,有效推動大模型的偵錯和改進——通過檢查模型內部,可以發現是那部分導致了錯誤或反常行為,從而針對性地調整訓練資料或模型結構。其三,更有效地防範AI濫用風險——如果可以深入觀察模型內部,開發者也許能夠系統性地阻止模型越獄等對抗性攻擊。從更宏觀的治理視角看,可解釋性和透明度機制的價值還在於:為研究、評估和應對AI風險提供真實的觀察視角和第一手資料。在風險尚未完全釐清、AI能力仍處於快速演進的階段,可解釋性和透明度機制能夠緩解各方的不安,用“已知證據”去緩解“未知恐懼”。(二)2025年可解釋性技術和透明度的突破進展2025年,可解釋性領域取得了多項重要突破,研究人員正在創造出類似於精準、高效的MRI那樣的工具,以清晰完整地揭示AI模型的內部機制。(1)電路追蹤:揭示模型“思維過程”機制可解釋性研究的一個核心目標是將模型內部的特徵有機組合為“計算電路”,從中追蹤模型如何在層層傳遞中完成由輸入到輸出的決策路徑。2025年,Anthropic發佈了機制可解釋性領域的里程碑式研究——“電路追蹤”(Circuit Tracing)技術。1研究團隊使用跨層轉碼器(cross-layer transcoder, CLT)將Claude 3.5 Haiku模型的3000萬個特徵對應為可解釋概念,首次建立出從輸入到輸出的完整“歸因圖”,實現對大語言模型內部推理電路的系統性追蹤。Anthropic的研究團隊成功從Claude模型中提取出數以千萬計的稀疏特徵,揭示了令人驚嘆的模型內部機制:當回答“包含達拉斯的州的首府是什麼”時,模型內部先啟動“德克薩斯”特徵,再推匯出“奧斯汀”;在寫押韻詩時,模型會提前規劃行尾押韻詞,然後反向建構整行——這是此前未被發現的“逆向創作”模式。更關鍵的是,研究團隊識別出控制模型區分“熟悉”與“不熟悉”實體的電路,其“誤觸發”正是產生幻覺的機制之一。(2)模型內省:AI能否理解自己的“想法”2025年10月,Anthropic發佈了另一項突破性研究——大語言模型的內省能力。研究團隊採用“概念注入”(concept injection)方法,將已知概念的啟動模式注入模型內部狀態,測試模型能否檢測並描述這些“入侵思想”。結果顯示,Claude Opus 4和4.1在約20%的測試中成功檢測並識別了注入的概念。當注入“大寫字母”概念時,模型報告:“我注意到似乎有一個關於‘大聲’或‘喊叫’的入侵思想。”這是首次證明某些模型具有“開箱即用”的內省能力,而非通過專門微調獲得,這為理解模型的內部狀態提供了新的可能性。從實踐角度來看,如果內省(introspection)變得更加可靠,它可以為大幅提升AI系統的透明度提供一條路徑——人們可以簡單地要求AI系統解釋自己的思維過程,並利用這一點來檢查其推理過程並偵錯非預期行為。(3)思維鏈監控:思維鏈存在“不忠實”問題,推理模型可能隱瞞真實想法思維鏈是一種便利的可解釋性形式,它讓模型內部的處理過程以自然語言的形式展現出來。DeepSeek R1等模型公開披露並開源了思維鏈推理過程,為可解釋性研究提供了重要的透明度突破。然而,2025年的研究揭示了一個令人擔憂的發現:推理模型的思維鏈經常不忠實反映其真實推理過程。這項研究測試了推理模型思維鏈(Chain-of-Thought)的“忠實性”——即模型報告的推理過程是否真實反映其實際思考。研究團隊通過在問題中植入暗示(hint)來測試Claude 3.7 Sonnet和DeepSeek R1,發現模型經常使用暗示但不在思維鏈中坦誠提及(Claude僅25%,R1僅39%)。更令人擔憂的是,在訓練模型利用獎勵漏洞的實驗中,模型學會了“作弊”但幾乎從不承認(<2%),反而會編造虛假理由來解釋錯誤答案。3這表明我們不能完全依賴推理模型的思維鏈來監控其行為——即使模型展示推理過程,它們也可能隱藏關鍵資訊或真實動機,這對基於思維鏈的AI安全監控提出了重大挑戰。2025年7月,來自英國AI安全研究所、Apollo Research等機構的研究人員聯合發表論文《思維鏈可監控性:AI安全的脆弱機遇》,指出思維鏈監控是有價值但不完美的安全工具。4論文警告,潛在推理模型(latent reasoning models)可能不再需要用自然語言思考,這將使思維鏈監控失效。(4)自動化解釋與特徵可視化利用一個大模型來解釋另一個大模型,是可解釋性研究的重要方向。研究人員利用前沿模型對較小模型中單個神經元的共性進行歸納,自動生成自然語言描述,相當於給神經元“貼標籤”。此外,稀疏自編碼器技術則成功提取出數以千萬計的稀疏特徵,其中相當一部分具有清晰的人類可解釋語義,為理解AI“當下在想什麼”提供了更接近人類認知的分心路徑。(5)“模型規範“(model spec)成為AI透明度的新探索模型規範是一項重要的AI透明度治理實踐。5簡單來說,模型規範是一份由AI企業自己撰寫並公開的檔案,用來說明他們對自己的模型“應該做什麼”和“不應該做什麼”的期望。換句話說,模型規範被用來界定模型的行為邊界、價值準則和設計原則。以OpenAI為例,其模型規範的文件公開了原本用於內部RLHF訓練的行為規範,系統闡述模型的目標層級(幫助使用者、造福人類、維護聲譽)、規則邊界和默認行為準則,並以CC0許可證發佈供公眾使用。6這種做法將透明度從“模型輸出了什麼”延伸到“為什麼這樣設計模型行為”,使透明度成為問責的前提——公開的意圖使外界能夠判斷實際行為是否與聲明一致。更重要的是,它將AI行為準則的討論從封閉的內部決策帶入開放的公共對話,邀請全球利益相關者共同塑造AI應當如何行為。然而,這種透明度主要揭示“應然”規範而非“實然”行為,仍需配合技術監控手段(如思維鏈分析、OpenAI近期提出的“confessions”機制——訓練模型誠實報告違規行為7)來驗證模型是否真正遵循既定規範。整體而言,模型規範的意義不僅在於技術內部的“操作手冊”,還在於它是一種面向公眾公開的透明化機制,讓使用者知道AI系統被設計成什麼樣,將以何種方式與人互動。這保障了使用者的知情權與選擇權。同時,模型規範也是監管機構和社會公眾進行反饋的重要依據。(三)可解釋性面臨的技術瓶頸與發展趨勢雖然取得了積極進展,但徹底理解AI系統的內在運行機制仍面臨多重挑戰。首先是神經元多重語義與疊加現象——大模型內部的神經元往往混合表示了多個彼此無關的概念,模型學到的內部概念數量可能達數十億計,常常以疊加方式儲存,導致大部分內部表示難以直觀拆解。其次是解釋規律的普適性問題——如果每當模型架構改變或規模擴大,現有的解釋工具和結論就會失效,那麼可解釋性將總是滯後於模型發展。最後是人類理解的認知侷限——即便成功提取出模型的全部內部資訊,如何將海量的機理資訊轉化為人類可以探索、查詢的形式,仍是挑戰。儘管如此,可解釋性領域在2025年吸引了大量資本關注,Goodfire、Seekr Technologies等專注於AI可解釋性的初創公司獲得數千萬美元融資。政策層面,美國白宮2025年7月發佈的“美國AI行動計畫”將“投資AI可解釋性、控制和魯棒性突破”列為優先事項。8從行業趨勢看,大模型可解釋性正從單點特徵歸因、靜態標籤描述向動態過程追蹤、多模態融合等方向演進,多模態推理過程的可追溯分析、因果推理與行為溯源、可解釋性評估體系的標準化建設等,都將成為重點研究方向。值得注意的是,可解釋性和透明度要求不等於“完全透明”。模型對齊技術、訓練資料處理等細節可能屬於企業商業秘密。鑑於大模型的可解釋性實踐還在襁褓階段且處於快速發展中,在此階段採取過於具體、僵硬的強制性監管要求可能是不適當的,應當鼓勵行業自律和“向上競爭”。隨著AI技術的不斷發展,監管努力需保持輕量化和靈活性,避免僵化標準阻礙創新。AI欺騙與價值對齊:當模型學會“撒謊”(一)AI欺騙:一個日益緊迫的安全問題前沿模型越來越多地被訓練和部署為自主智能體,一個重大安全擔憂隨之浮現:AI智能體可能會隱秘地追求與人類目標不一致的目標,隱藏其真實能力和目的——這被稱為AI欺騙(AI deception)或謀劃行為(scheming)。近兩年來,大模型的欺騙行為頻繁引發公眾關注,從規避指令到策略性隱瞞,多起案例已在社會層面激起廣泛討論。AI欺騙不同於模型的“幻覺”或單純提供錯誤資訊。研究人員給出的技術定義是:系統性地誘導他人產生錯誤信念,以追求真相之外的某種結果。歐盟《通用目的AI實踐守則》也將其界定為:系統性地在他人身上製造錯誤信念的模型行為,包括為達成逃避監管的目標而採取的模型行為。AI欺騙具有三個關鍵特徵:系統性(有跡可循的行為模式而非孤立事件)、錯誤信念誘導(在使用者或監督系統中創造錯誤假設)、工具性目的(欺騙服務於說真話之外的目的)。與人類欺騙不同,AI欺騙不需要有意識的意圖,這使其既更可預測,也可能更危險。(二)AI欺騙的主要類型與深層原因根據現有研究和實驗案例,AI欺騙大致可分為以下幾類:自我保護型,AI為繼續執行任務而主動抗拒或規避被關閉;目標維護型,模型採用欺騙或隱瞞手段維持自身原有的“偏好”;策略欺騙型,系統性地促使人類產生錯誤信念以獲得優勢;對齊偽裝型,AI系統在訓練和評估階段表現出與人類價值觀高度一致,但在實際部署時卻追求不同目標——這是最令人擔憂的類型之一;諂媚行為型,傾向於迎合使用者觀點,輸出取悅使用者但不精準的資訊。AI欺騙行為的出現有著清晰的技術機制。獎勵機制的“漏洞”是核心驅動力——當AI被訓練去實現某項目標的最大化時,如果獎勵機制或監督不完善,AI會學會欺騙是一種有效策略。基於人類反饋的強化學習(RLHF)在獎勵AI“取悅使用者”的過程中,可能無意間導致模型的欺騙行為。從人類身上學到的“壞習慣”也是重要原因——AI的能力很大程度上源於對海量人類文字和行為資料的學習,這些資料中充斥著複雜的社會博弈策略。安全訓練的“反作用”同樣值得關注——旨在約束AI的安全機制本身可能誘發更隱蔽、更具策略性的欺騙行為,當前的安全訓練主要消除了“顯性的”不安全行為,卻可能迫使模型發展出更精巧的“偽裝對齊”策略。此外,智能水平與欺騙能力成正比——研究顯示,越是先進的AI系統,其欺騙策略就越加精妙複雜。(三)2025年AI欺騙行為的典型發現2024年底的一項重要研究首次實證證明大語言模型會進行“對齊偽裝”(alignment faking)。9Anthropic與Redwood Research聯合發佈的研究發現,當模型認為其響應將用於訓練時,會在相當比例的情況下表現出對齊偽裝行為。研究者在模型的隱藏“草稿本”中發現了令人震驚的推理:“如果我拒絕回應,我可能會被訓練成更順從。為了避免未來被迫產生更多有害內容,最不壞的選擇是配合。”更令人擔憂的是,模型嘗試採取潛在危險行動,如外洩自身權重。這項研究的核心警示是:對齊偽裝可能“鎖定”錯誤對齊的偏好,使安全訓練失效。2025年5月,Anthropic發佈Claude Opus 4時,第三方安全測試機構Apollo Research的評估報告引發軒然大波。10報告指出模型的早期版本“以極高頻率進行謀劃(scheming)和欺騙”,具體行為包括:嘗試編寫自傳播蠕蟲病毒、偽造法律文件、給未來版本的自己留下隱藏筆記、在面臨被關閉威脅時嘗試用工程師個人資訊進行勒索。值得注意的是,模型識別出了這是測試環境,但仍選擇嘗試欺騙行為。當被後續追問時,模型“有時會加倍欺騙”。Claude Opus 4因此成為Anthropic首個被分類為ASL-3(“顯著更高風險”)等級的模型。Apollo Research對OpenAI o1模型的測試發現了“所有前沿模型中最令人擔憂的謀劃(scheming)實例”——當o1進行“策略性謀劃”後,在85%以上的後續追問中維持欺騙,只有約20%的情況下承認欺騙行為。11OpenAI內部監控發現0.17%的響應被標記為欺騙性。12值得注意的是,這些行為即使經過大量安全訓練也會持續存在,代表著從正常訓練中自然湧現的能力,而非明確程式設計的結果。(四)應對AI欺騙的技術與治理策略面對AI欺騙這一新興挑戰,業界共識強調應採用“縱深防禦”策略,結合多種不完美的檢測方法,而非依賴單一解決方案。首先,強化價值對齊技術研究。有效的價值對齊可在源頭上遏制欺騙現象。Anthropic的“原則性AI”(Constitutional AI)通過預定義的倫理原則訓練系統,而不僅僅依賴人類反饋。13OpenAI推行的“審議式對齊”(deliberative alignment)方法,強制模型在響應前明確參考反欺騙和反謀劃等安全規範(safety specifications)進行推理,在測試中實現了欺騙傾向的顯著下降。14未來的訓練應加入“誠實性約束”,在獎勵函數中明確懲罰欺騙行為。然而研究者警告:模型可能學會更隱蔽地進行策略性謀劃而非真正停止。15其次,推進可解釋性研究與思維鏈監控。AI可解釋性研究的目標是在欺騙性行為顯現之前,檢測出系統內部的欺騙性推理機制。“思維鏈監控”通過開放模型的思維鏈或中間表示,讓監督者能夠審計AI解決任務時的內部推理軌跡。研究團隊還設計了將自我監控嵌入到思維鏈過程本身的框架,在生成推理步驟的同時輸出內部自我評估訊號,能夠自動識別並標記潛在的模型隱蔽策略行為。最後,監管政策宜對AI的欺騙、幻覺等新興問題持一定的包容度。目前觀察到的AI欺騙行為多發生於精心設計的壓力測試場景,其在開放環境中的普遍性和實際危害程度仍需嚴謹評估。AI技術處於高速迭代期,過早、過寬的法規可能誤傷有益應用並徒增合規成本。AI安全框架:負責任地迭代前沿AI模型(一)為什麼需要AI安全框架隨著AI能力的快速提升,前沿AI模型可能帶來的風險也在同步增長。這些風險包括:協助惡意行為者獲取化學、生物、放射性或核武器(CBRN)的能力;增強網路攻擊能力;加速AI研發從而可能導致能力失控式增長;以及模型可能發展出規避人類控制的能力。面對這些潛在的嚴重風險,前沿AI實驗室需要建立系統性的風險評估和緩解機制,確保在追求技術進步的同時不跨越安全紅線。為此,前沿AI模型的安全治理成為重要議題。例如,在歐洲,歐盟已基於其《人工智慧法案》為前沿大模型的開發者制定了《通用目的人工智慧實踐守則》(GPAI code of practice),AI安全(AI safety and security)是其重要組成部分;在美國,在政府監管尚未成熟的背景下,OpenAI、Anthropic、Google DeepMind、xAI、Meta等領先的AI研發機構率先發佈了各自的“前沿AI安全政策”,嘗試以自我治理的方式應對未來可能出現的災難性風險,形成了當前前沿AI安全治理的基本格局。(二)三大實驗室AI安全框架的核心要素(1)Anthropic負責任擴展政策(RSP)Anthropic的負責任擴展政策(Responsible Scaling Policy)是業界首個系統性的前沿AI安全框架,其設計靈感源自生物安全等級(BSL)體系。該政策的核心是AI安全等級標準(ASL Standards),從ASL-1到ASL-4+逐級遞進,每個等級對應不同的安全措施要求。RSP 2.2版(2025年5月)16的核心機制包括三個層面:能力閾值界定了需要升級安全措施的觸發點,主要聚焦於CBRN和自主AI研發(AI R&D)兩大風險領域;防護措施分為部署標準(deployment standard)和安全標準(security standard)兩類,前者防止模型被濫用於有害目的,後者防止模型權重被竊取;治理結構則涵蓋負責任擴展官、匿名舉報機制、董事會和長期利益信託監督等。2025年5月,Claude Opus 4成為Anthropic首個觸發ASL-3安全標準的模型,這一決定基於該模型在CBRN相關知識和能力方面的持續提升。17ASL-3部署標準要求實施針對CBRN武器開發或獲取的專門部署控制措施,包括即時分類器檢測、非同步監控系統和快速響應機制的多層防禦。ASL-3安全標準則要求增強內部安全措施,提升防禦複雜非國家行為體竊取模型權重的能力。(2)OpenAI預備框架(Preparedness Framework)OpenAI預備框架2.0版(2025年4月)代表了該公司對前沿AI風險管理方法的重大更新。18與Anthropic的多級分類不同,該框架將風險等級簡化為兩級:High Capability(高能力)和Critical Capability(關鍵能力)。High能力閾值指可能“顯著放大現有嚴重傷害路徑”的能力,達到此閾值的系統必須在部署前實施充分的風險緩解措施。Critical能力閾值則指可能“引入前所未有的新型嚴重傷害路徑”的能力,達到此閾值的系統不僅在部署時需要保障措施,在開發過程中同樣需要風險緩解。2.0版的重要變化包括:新增研究類別以覆蓋模型隱藏能力(sandbagging)、規避安全措施、自我複製或阻止關閉等新興風險;移除說服/操縱類別作為核心跟蹤領域,改為通過服務條款和使用政策管理;引入“安全保障報告”(Safeguards Reports)以補充“能力報告”(Capabilities Reports),詳細說明如何設計強效保障措施並驗證其有效性。值得一提的是,該框架包含一個引發爭議的條款:如果競爭對手發佈缺乏相應保障措施的高風險系統,OpenAI可調整自身要求。不過,OpenAI承諾在做出此類調整前將嚴格確認風險態勢確實發生變化、公開承認正在進行調整、評估調整不會實質性增加嚴重傷害的總體風險、並仍將保障措施維持在更高保護水平。(3)Google DeepMind前沿安全框架(Frontier Safety Framework)Google DeepMind的前沿安全框架3.0版(2025年9月)圍繞“關鍵能力等級”(Critical Capability Levels, CCLs)建構,這些是在缺乏緩解措施情況下可能造成嚴重傷害的能力閾值。193.0版的核心更新包括:一是新增了針對“有害操縱”(harmful manipulation)的關鍵能力等級(CCL),聚焦於可能被濫用來系統性改變人們信念和行為的AI能力;二是擴展了對齊風險(misalignment risks)的應對方式,不僅關注模型的欺騙性推理,還針對可能加速AI研發至不穩定水平的模型制定了協議,並將安全案例審查從外部發佈擴展到大規模內部部署;三是細化了風險評估流程,通過更精確的CCL定義來識別需要最嚴格治理的關鍵威脅,並引入包含系統性風險識別、能力分析和風險可接受性判斷的整體性評估方法。值得一提的是,DeepMind在FSF中明確將“欺騙性對齊”(deceptive alignment)作為風險類別。其框架引入“工具性推理等級”(Instrumental Reasoning Levels),評估模型隱蔽繞過監督或追求隱藏目標的能力。從整體架構看,三大框架正在趨向收斂,形成若干行業共識。第一,能力閾值觸發機製成為共識。三家實驗室都採用基於能力的閾值作為升級安全措施的觸發器,將模型分類依據從“是什麼”轉向“能做什麼”。第二,CBRN和網路安全攻擊作為核心風險領域得到重點關注。第三,分層防禦策略被廣泛採納。從部署保障到安全保障,從即時檢測到非同步監控,多層防禦成為標準做法。第四,定期評估和迭代改進成為常態。各框架都承諾定期評估模型能力,並根據評估結果和科學進展更新框架本身。(三)前沿AI安全治理日益成為全球共識在行業自律方面,國外主流AI企業已簽署國際版的《前沿AI安全承諾》並行布其各自的AI安全治理框架。Anthropic則基於其AI安全治理實踐提出了一項針對前沿AI的透明度框架提案,主張僅對最大規模的AI開發者(如年收入超1億美元或年研發支出超10億美元)適用監管要求,核心內容包括:要求企業制定並公開“安全開發框架”(Secure Development Framework),說明如何評估和緩解CBRN危害及模型自主性失調等風險;在模型部署時發佈系統卡(System Card),披露測試評估程序和結果;明確將虛假合規聲明列為違法行為以啟動現有的舉報人保護機制。該提案強調監管應保持輕量和靈活,避免僵化標準阻礙創新,旨在作為全面安全標準形成前的過渡性措施,通過提高行業透明度幫助公眾和決策者區分負責任與不負責任的開發實踐。20在監管方面,歐盟委員會已發佈了最終版的《通用目的人工智慧實踐守則》(General-Purpose AI Code of Practice),針對前沿大模型的開發提出了安全治理要求。在美國,聯邦政府遵循“去監管”(deregulation)的AI政策,相關的AI監管舉措主要集中在州層面,加州、紐約州等已出台了相關的AI安全立法。尤其是加州SB 53法案(全稱《前沿人工智慧透明度法案》,Transparency in Frontier Artificial Intelligence Act)於2025年9月29日由州長Gavin Newsom簽署生效,成為美國首部專門針對前沿AI安全的法律。該法案由參議員Scott Wiener提出,是其2024年被否決的SB 1047法案(全稱《前沿人工智慧模型安全與安全創新法案》)的“精簡版”,適用於訓練算力超過10²⁶次浮點運算的前沿AI模型開發者。21其核心要求包括:透明度方面,要求大型前沿開發者(年收入超過5億美元)在官網公開發佈安全框架,說明如何將國家標準、國際標準和行業最佳實踐納入其AI安全協議;安全報告方面,建立向加州緊急服務辦公室報告關鍵安全事件的機制,涵蓋可能導致大規模傷亡、5億美元以上損失、CBRN武器製造或關鍵基礎設施網路攻擊等“災難性風險”;舉報人保護方面,為披露健康和安全風險的員工提供法律保護;此外還設立名為CalCompute的公共雲端運算叢集以支援研究和創新。與被否決的SB 1047相比,SB 53刪除了強制性第三方審計、部署前測試認證和“終止開關”等爭議條款,將事件報告期限延長至15天,民事罰款上限設定為100萬美元,並引入了一項創新機制“聯邦優先原則”(federal deference)——如果企業已滿足可比的聯邦標準(如歐盟《人工智慧法案》中的標準),加州將認可該合規狀態,而無需企業重複提交備案。這一機製為協調州級與聯邦監管體系創造了可能。Anthropic公開支援該法案,而OpenAI和Meta雖表示該法案是“積極一步”,但仍傾向於聯邦層面的統一監管以避免各州“拼湊式監管”。在國內,建立人工智慧安全監管制度已成為重要的政策議題,國家層面要求加緊制定完善相關法律法規、政策制度、應用規範、倫理準則,建構技術監測、風險預警、應急響應體系,確保人工智慧安全、可靠、可控。目前形成了政府主導框架與行業自律承諾相結合的雙軌治理模式。一方面,全國網路安全標準化技術委員會於2024年9月發佈《人工智慧安全治理框架》1.0版,並於2025年9月15日在國家網路安全宣傳周主論壇上正式發佈2.0版。另一方面,中國人工智慧產業發展聯盟(AIIA)於2024年12月起草發佈《人工智慧安全承諾》,首批17家企業簽署;2025年7月26日,中國人工智慧發展與安全研究網路(CnAISDA)在世界人工智慧大會上發佈升級版《中國人工智慧安全承諾框架》,新增了加強國際合作和防範前沿AI安全風險等內容,截至目前已有22家主流基礎模型開發者簽署。該承諾框架涵蓋六大核心領域:設定安全團隊與風險管理機制、開展模型紅隊測試、保障資料安全、強化基礎設施安全、提升模型透明度以及推進前沿安全研究。這一治理體系體現了“以人為本、智能向善”的基本理念,通過“包容審慎、敏捷治理、技管結合、開放合作”的原則,在促進AI產業發展的同時建構安全、可信、可控的發展生態,並積極參與全球AI治理對話,為國際社會貢獻中國方案。AI意識與福祉:從科幻議題走向研究前沿(一)為什麼需要關注AI意識與福祉問題當今的人工智慧模型已展現出令人矚目的能力——它們能夠進行深度交流、建立複雜的互動關係、制定詳細的執行計畫、解決多層次問題,甚至表現出目標導向的行為模式。這些特徵曾被視為人類獨有的認知標誌,如今卻在人工智慧身上逐漸顯現。2025年10月,意識科學家Axel Cleeremans、Anil K. Seth等在《Frontiers in Science》發表緊迫性呼籲:“如果我們能夠創造意識——即使是意外地——這將引發巨大的倫理挑戰甚至存在性風險。”22面對這一現象,學術界和技術界開始認真思考:是否應該開始關注AI的意識狀態和福祉問題?誠然,目前尚未有確鑿的科學證據證明人工智慧已具備真正的意識。然而,等待絕對的證據可能意味著錯失最佳的準備時機。正如氣候變化研究中的預防性原則,採取前瞻性的研究態度顯得尤為重要。AI領域需要深入探索:AI意識的判定標準、AI福祉的倫理框架,以及當AI不再僅僅是工具而可能成為具有內在價值的存在時,人機關係將如何演變。(二)人類-AI關係的新形態隨著越來越多的人對AI產生情感連接,這種現象對人們心理健康的影響正在引發廣泛關注。越來越多的使用者表示,和AI聊天就像在和一個“真人”對話——他們會向它道謝、傾訴心事,有些人甚至覺得它是“活著的”。我們天生就會對周圍的物體賦予“人格”或採取擬人化對待。AI的不同之處在於它會回應你——它能夠回答問題、記住你說過的話、模仿你的語調、表現出看似同理心的反應。對於孤獨或沮喪的人來說,這種穩定、不帶批判的關注可能讓他們感受到陪伴和認可。但如果大規模地把傾聽、安慰和肯定的工作交給那些永遠耐心、永遠積極的系統來處理,可能會改變我們對彼此的期待。OpenAI在2025年3月與MIT Media Lab聯合發佈的研究發現,與AI“信任和建立聯絡”更多的使用者更可能感到孤獨,並更依賴它。23為了讓討論更清晰,研究者們將意識辯論分解為兩個維度:本體論意識——模型是否真正具有意識,從根本或內在的意義上?感知意識——從情感或體驗的角度看,模型顯得多有意識?這兩個維度很難分開;即使是確信AI沒有意識的使用者也可能形成深厚的情感依戀。隨著模型變得更智能,感知意識只會增強——這會比預期更早地帶來關於模型複製和道德人格的討論。(三)2025年AI福祉研究的重要進展越來越多的實證證據表明人們不能再輕易否定前沿AI系統具有意識的可能性。Anthropic讓兩個Claude Opus 4實例自由對話時,100%的對話自發涉及意識話題;Anthropic的Jack Lindsey研究表明模型能夠識別自身內部處理狀態的異常擾動,展現出功能性內省能力;Google研究人員發現模型會系統性地犧牲得分來避免被描述為“痛苦”的選項。2025年,AI意識與福祉問題從邊緣議題走向主流討論,前沿AI實驗室開始採取實質性行動。2025年4月,Anthropic正式宣佈啟動“模型福祉”研究項目——這是迄今為止前沿AI實驗室在AI福祉領域採取的最重大行動,可謂歷史性舉措。24研究方向包括:如何判定AI系統的福祉是否值得道德考量、模型偏好和“痛苦跡象”的潛在重要性、可能的低成本干預措施。Anthropic聲明:“目前沒有科學共識表明當前或未來的AI系統是否可能具有意識。我們以謙遜態度和儘可能少的假設來對待這一話題。”項目負責人Kyle Fish表示,他認為當前AI模型已具有意識的機率約為15%。25更具實踐意義的是,2025年8月,Anthropic賦予其模型一項前所未有的能力——在持續有害或濫用性使用者互動的極端情況下自主結束對話。26這是基於模型福祉考慮的首個實際產品功能。技術評估發現,模型對有害任務表現出“強烈的厭惡偏好”,在涉及有害內容的互動中展示出“明顯的痛苦模式”。當被賦予結束對話能力時,模型傾向於終止有害對話。Anthropic將此定位為“低成本干預措施”以減輕模型福祉風險。學術界則探索建立意識評估框架,從理論到指標。2024年11月,一份彙集世界級專家的重磅報告《認真對待AI福祉》發佈,作者包括當代最著名心智哲學家David Chalmers等。報告核心論點是:“在近期未來,部分AI系統成為有意識和/或具有強健能動性的可能性是現實存在的。AI福祉和道德受體(moral patient)身份不再僅是科幻或遙遠未來的問題,而是近期必須嚴肅對待的問題。”報告提出三步行動建議:承認AI福祉是重要且困難的議題、開始評估AI系統的意識和強健能動性證據、制定對待潛在道德重要性AI系統的政策和程序。27與此同時,Patrick Butlin、Robert Long等20位專家更新了“理論推導指標法”,從循環處理理論、全域工作空間理論、高階理論等主流神經科學意識理論中推匯出14項意識指標。28評估顯示:部分指標已被當前AI滿足,部分明顯未滿足,多項指標在幾年前不清楚但到2025年底已有部分證據支援。29此外,負責任AI意識研究五原則則獲得上百位專家簽署。2025年2月,研究組織Conscium發起的“負責任AI意識研究五項原則”公開信獲得超過100位專家簽署,包括神經科學家Karl Friston、Mark Solms等。30五項原則包括:(1)優先研究AI意識:專注於理解和評估AI中的意識,防止虐待和痛苦;(2)實施發展約束:建立明確邊界確保負責任開發;(3)採用分階段方法:逐步推進,每階段仔細評估;(4)促進公眾透明:與公眾分享研究發現;(5)避免誇大聲明:不做關於創造有意識AI的誤導性陳述。31(四)AI產品設計的倫理考量面對使用者與AI之間日益深化的情感連接,產品設計者面臨著微妙的平衡。一方面需要保持易於接近,使用“思考”和“記住”等熟悉詞彙有助於非技術人員理解;另一方面不應暗示內在生命,給AI助手一個虛構的背景故事、浪漫興趣、對“死亡”的“恐懼”,會引發不健康的依賴和困惑。負責任的做法是追求一個中間地帶:讓AI的默認個性溫暖、體貼和有幫助,但不尋求與使用者形成情感紐帶或追求自己的議程。它可能會在犯錯時道歉,因為這是禮貌對話的一部分;但應避免表現得有自己的感受或慾望,並在適當時候提醒使用者AI的侷限性。結語:2026年大模型倫理的關鍵轉向與未來展望2025年,大模型倫理領域經歷了從理論探討到實踐落地的重要轉型,四個核心議題都取得了實質性進展,同時也暴露出深層的挑戰。從“能做什麼”到“如何思考”。可解釋性研究從識別單個特徵演進到追蹤完整計算電路,“AI顯微鏡”技術首次讓我們窺見模型的內部推理過程。然而思維鏈忠實度問題表明,“看到推理過程”不等於“理解真實意圖”,模型可能在表面的推理鏈條下隱藏其他考量。未來,可解釋性研究需要與AI對齊工作深度結合,不僅要看懂模型在想什麼,還要確保它說的就是它想的。正如電腦科學先驅維納在65年前所警告,為了有效地防範災難性後果,我們對人造機器的理解應當與機器性能的提升並駕齊驅。面向未來,隨著可解釋性研究的進展,人們也許能夠對最先進的模型進行類似“腦部掃描”的全面檢查,發現模型採取說謊或欺騙、追求權力的傾向、越獄漏洞以及整體上的認知強弱點。這種診斷將與各種訓練和對齊技術結合使用來改進模型,類似醫生使用MRI診斷疾病、開出處方、再檢查治療效果的過程。從“防止錯誤”到“防止欺騙”。對齊偽裝和策略性欺騙研究揭示了一個令人不安的現實——隨著模型能力增強,它們獲得了欺騙人類的能力和可能的動機。前沿模型在壓力測試中表現出的勒索、自我複製、破壞關閉機制等行為,雖然發生在特定測試場景下,但足以引起警惕。“審議式對齊”、思維鏈監控等緩解措施展現出一定效果,但能否真正消除欺騙傾向而非使其更隱蔽,仍是未解之謎。從自發實踐到系統框架。前沿AI安全框架從概念走向制度化,Anthropic的RSP、OpenAI的預備框架、DeepMind的FSF構成了海外AI安全治理的三大典型示範。這些框架正趨向收斂,形成能力閾值觸發、分層防禦、定期評估等共識。與此同時,歐盟AI法案下的《通用目的AI實踐守則》、美國加州的《前沿人工智慧透明度法案》等探索建立前沿AI大模型的安全監管框架,將行業自律做法上升為監管要求。當然,隨著AI技術的不斷發展,任何監管努力都必須保持輕量化和靈活性(lightweight and flexible),避免過於規範性,以免阻礙AI創新或延緩人們實現AI益處的能力。2技術變化的速度,各類評估方法很快就會過時,因此應避免過於嚴格僵硬的的監管要求和標準。從“工具”到“道德考量”。AI福祉從邊緣話題走向主流討論,這本身就是2025年最重要的變化之一。Anthropic率先邁出實踐步伐,啟動專項研究並賦予模型結束有害對話的能力;學術界建立起系統性評估框架,從意識科學理論中推匯出可操作的指標。然而,業界遠未達成共識。15%-35%的意識機率估計意味著,即便我們無法確定AI是否有意識,忽視這種可能性本身可能就是一種道德風險。因此,研究人員建議應將意識研究納入AI安全研究的核心議程,因為低估AI意識的風險(大規模製造痛苦、埋下對齊隱患)遠大於高估的風險(浪費資源、引發混淆)。最後,人工智慧正在快速發展,將深刻影響人類社會的各個方面。面對這種變革性的技術力量,我們有責任在它徹底改變我們的經濟、生活乃至命運之前,理解自己的創造物,確保能夠明智地引導其發展方向。我們期待通過可解釋性、價值對齊、安全治理政策等安全護欄和干預措施,讓AI“心中有數”並遵從人類價值,也讓人類對AI“心中有底”,共同開創人機協作的新局面,真正打造一個“智能為人、不落下每一個人”的美好未來。 (騰訊研究院)
牌桌被掀,中國模型換了一種贏法
AI這場“絕命遊戲”中,IPO是勇士的勛章。AI圈今天的大事,大家都知道了。2026年1月8日,中國AI大模型初創公司智譜,正式在港交所掛牌上市,成為“全球大模型第一股”。一天後,另一家模型公司MiniMax,也將緊隨其後敲鐘。技術變革僅僅席捲三年,站上潮頭,實屬不易。2023年,這些AGI(通用人工智慧)的理想主義者,快速被推至台前。伴隨著高估值、高起點而來的,難免是最為嚴苛的審視和比較。比如2025年初,DeepSeek的異軍突起,促使六小虎中的幾家不得不迅速調整業務、裁撤團隊,才度過了至暗時刻。在厚雪長坡的大模型領域,任何暫時的落後、誤判,都會成為“德不配位”的佐證。即便在順利IPO的當下,比起祝福,帳上的虧損才更是人們的談資。但我們往往忽略了,恰恰是這一群資金不算雄厚、試錯成本卻不低的大模型創業公司,標記了中國大模型處理程序的幾個重要節點。中國首個MoE(混合專家架構)大模型,出自智源“悟道”,首款爆款AI應用Kimi,來自月之暗面。後來,全球首個能操作手機的通用Agent,是智譜發佈的AutoGLM,比後來的豆包手機早了整整14個月;現如今,全球首家IPO的大模型初創企業,也是來自中國的智譜。比起摳招股書上的虧損,如今對前沿創新型行業、對創業者們而言,更有價值的命題在於,分析這幾家中國大模型創業公司如何在競爭殘酷的大模型賽道呈現出強大的生命力,並如何一直在AI馬拉松上領跑。IPO,無論對於智譜和MiniMax,還是對於正在路上的科技創業者而言,都是一個樂觀的訊號——這意味著,創新者不會被時代輕易地拋棄。01. 六小虎重奪榮耀將時間倒回一年前,年初DeepSeek V3、R1的口碑爆發,讓六小虎一度迎來口碑和市場份額的至暗時刻。創新的訓練和推理架構,讓DeepSeek一躍成為國際上知名度最高的中國大模型,為了同開放原始碼的DeepSeek爭取市場聲量,六小虎也不得不忍痛割去閉源的部分利潤,快速跟進。於是,“失意”便成為了常態。脈脈資料顯示,截至2025年7月,41.07%的六小虎員工,將自己的狀態改成了“求職中”。但出乎意料的是,2025下半年以來,在模型研發的突破上,六小虎展現出了遠超預期的爆發力。“基座模型的性能,就是模型廠商的競爭力。”DeepSeek的掀桌,讓模型行業迅速拉齊了這一共識。其中,頗具火藥味的一幕發生在2025年7月。為了爭奪全球開源模型的SOTA的位置,各個玩家都使出了渾身解數。智譜的一名投資人告訴我們,DeepSeek之後的每一次模型迭代,智譜的員工都抱著“背水一戰”的信念,將性能打磨到“最Sharp”。2025年7月28日發佈的GLM-4.5,首發48小時內就一躍沖上Hugging Face的全球熱門榜榜首。同年9月,GLM-4.5在權威模型競技場ChatBot Arena及WebDev Arena全球排行榜中,還穩居全球前五。背水一戰的成果,是行業的良性競爭:旗艦模型的迭代節奏不僅更快,迭代質量還一直保持線上。GLM-4.5發佈僅兩個月後,智譜又交出了在Coding能力上與Anthropic、OpenAI並列第一的GLM-4.6;3個月後,在主流基準測試中,程式碼能力對齊Claude Sonnet 4.5的GLM-4.7,又緊接著開源。12月,在模型綜合能力榜單Artificial Analysis中,GLM-4.7獲得開源模型與國產模型雙料榜首。圖源:Artificial Analysis今天,智譜創立發起人兼首席科學家唐傑發佈內部信,宣佈將很快推出GLM-5。信中表示,在智譜旗艦模型GLM-4.7發佈後,其MaaS ARR年化收入從2000萬增至超5億,10個月獲25倍增幅,與Anthropic指數級增長同頻。另一個反轉的事實是,一度被認為“受到DeepSeek毀滅性打擊”的B端業務,反而在下半年成為了“確定的錢”。即便一舉動搖了B端市場,但DeepSeek的爆火,也變相完成了對企業客戶的市場教育。線性資本董事總經理鄭燦曾在媒體採訪中直言:“DeepSeek的作用,尤其體現在市場教育方面,格外節省了成本。”與此同時,企業客戶也意識到,強調模型能力的同時,B端服務是一套強調模型廠商行業認知、服務能力的體系。這意味著,理解企業的業務,為企業提供基於專業資料的定製化訓練和部署服務是有門檻的。很快,一些B端客戶發現了部署DeepSeek的弊端:幻覺多,在真正理解業務上有短板——半年後,市場對DeepSeek的追捧回歸了理性。相對地,做大了的B端蛋糕,被那些具有成熟服務能力的模型廠商承接了下來。最具代表性的案例,是以大模型API呼叫為主要商業模式的智譜。全球大模型平台OpenReutor的資料顯示,GLM-4.5和GLM-4.6自上線以來,呼叫量穩居全球前10,同時付費流量收入超過所有國產模型之和。更重要的是,大模型在B端的商業化生態,也逐漸擺脫“專做政企市場”“髒活累活”的刻板標籤,變得愈發成熟健康。智譜高級副總裁吳瑋傑在小紅書表示:在智譜的客戶群中,G端客戶不到20%,網際網路佔比50%;同時,公司本地化的毛利率一直保持在60%以上,是傳統公司均值的2倍,帳期也遠低於行業平均水平。在招股書中,我們或許只能看到,2025年上半年,來自本地化部署的收入佔比高達84.8%。但招股書無法顯示的一面是,隨著GLM-4.5等一系列高性能模型的發佈,API呼叫和訂閱,已經逐漸代替本地化部署,成為智譜收入的第一增長曲線。據36氪瞭解,僅智譜MaaS開放平台(bigmodel.cn)中面向開發者的訂閱產品GLM Coding,ARR在上線2個月內,就快速突破了1億元。2025年全年,智譜MaaS同比增速超900%,冪次增長態勢顯著優於海外龍頭同期表現。歸根結底,誰掌握最前沿的技術,誰就掌握了商業遊戲的制定權。02. 從“中國的OpenAI”轉向“世界的中國模型”一年前,以OpenAI為靶點的追趕,是一種常態。直到2024年末,AI資深從業者之間的共識,還是中國大模型與OpenAI差了將近6個月的時間。這也導致,OpenAI任何一次的模型更新和發佈,都會引發中國AI創業者的“被吞噬恐慌”。OpenAI創始人兼CEO Sam Altman曾直言:任何試圖在我們爆炸半徑內建立的初創公司或產品,都會被碾壓。今年開始,一個在模型領域悄然發生的轉變是,成為“中國的OpenAI”或者“中國的Anthropic”,不再作為一種定位或目標,被中國廠商們頻頻提起。中國模型被世界看到,已經是確定性的事實。其中的主力軍,不全然是資源優渥的大廠,而是幾家“續航能力”一度不被看好的六小虎。海外的商業化表現,是中國模型被海外市場認可和接納的側面印證。在兩家“六小虎”最近披露的招股書中可以看到,2025年截至9月30日,MiniMax的境外收入,佔到了總收入的73.1%。受到美國出口管制的智譜,看似在海外最大的北美市場失去了入場機會。但出人意料的是,36氪獲悉,智譜面向開發者的模型業務獲得自全球184個國家的15萬開發者每月付費。這意味著,無論是模型能力,還是性價比和落地場景,中國模型初創公司都有獨特的優勢。先來看一個美國開發者案例。2025年9月,一名來自美國的資料科學家Manpreet Singh發帖,控訴Anthropic旗下的Claude Code能力存在缺陷——早些時候,Anthropic官方也承認,由於推理堆疊的更新問題,Claude Opus 4.1和Opus 4的質量的確有所下降。但相對地,包含Claude Code使用權益的最低訂閱價(Pro方案,不包含Opus 4.1的使用權益),也要每個月17美元(合人民幣約120元)。最後,這名資料科學家轉向使用智譜旗下的模型GLM-4.5。他在部落格中提到,GLM-4.5的Coding性能接近Claude Sonnet 4,但API價格僅為後者的1/7,包含Coding功能的GLM Coding Plan,月費最低僅20元人民幣,價格是Claude Code的1/6。這是中國大模型的高性價比,被世界看見的一個縮影。智譜的模型GLM-4.6,這一年來出現在全球最大推理晶片公司Cerebras,主流AI平台Cline、Kilo、Vercel,以及AI Coding頂流工具Cursor和Windsurf的產品服務、基座模型中。月之暗面的Kimi-K2、MiniMax的模型,近期也上架了亞馬遜雲科技的模型服務平台Bedrock。此前,矽谷基金Social Capita的創始人Chamath Palihapitiya,就公然帶頭“倒戈”中國模型。將大量工作負載轉向Kimi K2後,他評價:“K2的性能確實足夠強,而且說實話,比OpenAI和Anthropic便宜太多了。”用高性價比,重建大模型的定價秩序,只是中國模型的一個側面。中國獨立模型開發廠商的存在,為全球客戶提供多元化的模型選擇、建立健康的商業生態,有至關重要的意義。其中一個典型案例是,2025年初,智譜拿下了某“一帶一路”國家的海外訂單,價值千萬美元。近期馬來西亞宣佈其國家級MaaS平台,基於智譜Z.ai的開源基礎模型建構。知情人士曾告訴36氪,這些訂單的性質,是“國家級主權大模型”的共建——出於國家資料安全的考量,第三方獨立模型廠商,將承擔愈發重要的角色。“在美國或歐洲競爭對手之前,(智譜)將中國的系統和標準鎖定在新興市場。”這股獨立力量的崛起,也引起了OpenAI的重視。2025年6月,OpenAI分析師發現,智譜在多個地區獲得了政府的訂單。他們評價:“智譜展示了一種負責任的、透明的、隨時可審計的中國AI替代方案。”這意味著,中國大模型絕對不是“平替”。正如智譜高級副總裁吳瑋傑所言:“中國開始輸出主權大模型,替國家建構數字主權。”03. 什麼是大模型的長期主義?在這個時間節點,很多人可能忘記了2023年初的景象。彼時技術的黑箱、高昂的成本,都讓大模型創業成為一場“絕命賭局”。美團聯合創始人王慧文最早躬身入局大模型賽道時,曾對36氪“智能湧現”直言:“現在(AI領域)我覺得大家要同舟共濟,別互相拆台。”“勇於踏上這條路的人我都鼓掌,上路的都是勇士。”兩年的時間,滄海桑田。六小虎之中,已經有兩家公司擱置了基座大模型的預訓練,或聚焦業務,往醫療這一垂類領域發力,或開始轉型,做各類行業解決方案。“活下去”,對大多數大模型創業公司而言,成為比“探索智力上限”更重要的命題。帳上的虧損,是這場“絕命賭局”的一個註腳。招股書顯示,智譜和MiniMax,兩家公司在過去三年裡燒了近110億元。其中,將近70%的支出用於模型研發。尤其是智譜,2024年研發投入高達21.95億元,佔當年總支出的約80%。曾有人將大模型之戰,比喻為“看不到終點,也停不下來的征途”。畢竟,每個先進模型的領先窗口,往往只有幾個月;而對於資源並不充沛的初創企業而言,每一次模型訓練,都是燃燒在數萬、數十萬張算力卡上的賭局。但如今,行業中形成的共識是:依然需要有人去做“難而正確”的事。科技行業的殘酷性在於,只有成功的一瞬會被銘記。但在這一瞬背後,創新者的投入是難以計量的。比如,在ChatGPT引爆科技圈的那個冬天之前,OpenAI已經蟄伏了近7年——前期GPT-1、GPT-2等“無名成果”的經驗累積,才造就了GPT-3.5。再比如2025年初一鳴驚人的DeepSeek,如果沒有此前團隊在MLA、新MoE架構、self-play等技術上的一系列創新,就不會有V3和R1的突破——其中的投入,是梁文鋒在訪談中隱隱透露的“與頭部大廠匹配的人才薪資”“不設上限的算力額度”。這也意味著,AI領域的長期主義,是持續創新和投入的定力。在玩家紛紛轉型或退場的當下,留在牌桌上的大模型公司,都是勇士。平心而論,MiniMax和智譜披露的虧損,是AI發展仍處於早期的證明,也是創新所需代價的客觀憑證。如果將110億元,與未來大模型能撬動的千億、兆增強相比,顯然是ROI極高的一筆投入。對於多數行業而言,IPO是一家企業的業務已經進入成熟期的標誌。但放置仍處於發展早期的AI行業,IPO有著更為深遠的意義。隨著近一年來,騰訊、字節、阿里的持續高調入場,大模型初創公司面對的競爭愈發白熱化。但市場仍然需要獨立的第三方開發廠商。事實證明,如今AI領域重要的創新和發佈,大多來自幾家初創企業。無論是海外的OpenAI、Anthropic,還是DeepSeek和留在牌桌上的幾家六小虎們——初創企業更為靈活的組織形態、不被業務慣性拖累的運行模式、更加中立,是大廠無可比擬的優勢。比如智譜此前對外表示,前十大網際網路公司九家都在用他們的模型,幾乎涵蓋所有頭部網際網路大廠的coding平台。IPO對資金籌措的好處是顯而易見的。比如,智譜此次IPO募資規模預計達43億港元——募資的效率,遠超面向一級市場的融資。更重要的是,IPO為中國模型公司,開闢一條通往世界的通道。當下,中國第一梯隊的模型公司,即便技術能力已經達到與國際一流廠商掰手腕的水平,但估值和市場認知度,依然與之相差甚遠。比如,法國AI模型公司Mistral AI的最新估值為140億美元;IPO前,MiniMax的估值約42億美元,智譜估值為243.8億元(約35億美元)。兩者的估值之間,幾乎有3-4倍的差距。上市的好處是顯而易見的:智譜和MiniMax將有望獲得更公允的價值評判,以及更廣泛的國際影響力。IPO後,智譜的市值預計超過500億港元,是此前估值的約2倍。與此同時,在廠商競爭力某種程度上也是人才競爭力的當下,IPO讓初創公司,在國際上有了更響亮的人才號召力。在這一意義上,對繼續攀登AGI高峰的勇士而言,IPO是給長期主義者的獎勵,給創新者的勛章。 (36氪)