#對話
2026 年 AI 如何深度接管工作 | Anthropic 首席產品官對話實錄
12月24日,Anthropic 首席產品官Mike Krieger 接受 AI Daily Brief 的訪談,本次對話復盤了過去一年 Vibe coding的崛起、Anthropic 聚焦程式設計領域的底層戰略邏輯、智能體化工作流的演進、AI Agent 在企業端的規模化落地障礙以及 2026 年企業級 AI 的戰略轉向。Mike Krieger表示,程式設計不應僅被視為軟體開發,而是解決通用問題的一種極度全能的推理工具。他指出,Anthropic 戰略性聚焦程式設計並非只為服務程式設計師,而是因為程式設計是 AI 實現推理、自主規劃與長周期運行的最佳載體。 Vibe coding正在重塑人類與機器的協作邊界。Mike Krieger認為,優秀的產品架構應能隨著底層智能的進化而自然“變薄”:隨著模型自主性增強,產品經理應主動簡化控制框架,拆除曾經為了輔助模型而搭建的互動“腳手架”。他指出,如果使用者覺得模型升級後性能提升不明顯,往往是因為過時且僵化的產品框架限制了模型的發揮。Mike Krieger認為,2026 年將是 “AI 同事年”。企業將告別單純在現有介面塞入 AI 的補丁階段,轉而進入“智能體原生”的重構時代。AI 的核心價值將從“資訊檢索”進化為“可靠地分擔職責”,實現真正的委派式工作。01程式設計是 AI 具備通用推理與長周期自主規劃能力的底層工具很多人認為 Anthropic 是 AI 程式設計領域的領軍者。這種對程式設計的聚焦是預先設定好的戰略支柱,還是因為模型在該領域展現出了卓越能力,才演變成了一種差異化的核心競爭力?Mike Krieger: 每當 Anthropic 的產品負責人考慮戰略方向時,我都會強調,只有與公司對強人工智慧起源的長遠觀點保持一致,路徑才會最順暢。Anthropic 是一家極度專注的公司,這從我們選擇的特定賽道就能看出來。公司內部有一個根本信念,AI 若要真正強大,必須具備推理、自主規劃以及長周期運行的能力。更關鍵的是,它必須能夠編寫並執行程式碼。這不僅是為了軟體開發,更因為程式設計是解決通用問題的一種極度全能的工具。這種信念在我去年 5 月加入之前就已存在,當時恰好趕上外界認知的覺醒。Claude 3 發佈後約一個月,社交媒體上出現了一個轉折點,使用者意識到模型可以編寫完整的程式碼檔案,而不僅是零碎的函數。雖然那些能力按現在的標準來看還很初級,但在當時非常令人震撼。隨後,我們推出了首個面向程式設計的產品體驗 Artifacts,讓 Claude 可以在聊天介面旁直接生成可運行的 React 網站。對許多人來說,那是他們第一次意識到Vibe coding,即在傳統開發環境之外與模型協作開發,是一種切實可行的新範式。02好的 AI 產品架構應隨著模型智能的提升而不斷簡化控制權2025 年被認為是 AI Agent 程式設計之年,從早期 GPT Engineer 到後來的 Lovable,技術每一階段都在解鎖新場景。你們在內部開發 Claude Code 時的核心邏輯是什麼,作為產品專家,你如何設計那些今天有用但能隨底層智能進化而自然增強的產品?Mike Krieger: 這是一個非常好的反思時刻。去年最後幾周,我們內部開發了一個叫 Claude CLI 的項目,也就是後來發佈的 Claude Code。它源自我們的 Labs 團隊,這個團隊專門負責從 0 到 1 的顛覆性創新,涵蓋從早期的電腦使用探索到各種實驗性項目。在 9 月到 12 月間,Claude Code 迅速成為了我們內部最好用的程式設計工具。它的核心邏輯是,隨著模型能力的提升,我們應該讓模型多思考一會兒,允許它們在更長的時間跨度內自主運作。假期裡我們一直在爭論是否要把它作為繼 Claude 網頁版和 API 之後的第三大產品支柱。我們意識到,如果我們不做,別人遲早也會發現這種低干預、任務導向型的模式。我們進入今年時就堅信,這會徹底改變軟體的建構方式。(關於順應增長的產品原則)Anthropic 有一條核心產品原則叫作“順應指數增長”,我們致力於打造今天就有用,但架構上能隨著底層智能進化而自然增強的產品。在 Claude Code 上,我們隨著時間的推移反而簡化了外部的控制框架,因為模型自主性越強,就越不需要複雜的輔助結構。我們常發現,如果客戶覺得新模型提升不明顯,往往是因為他們被舊的框架限制住了。一旦放開約束,模型的進步就一目瞭然。我們經常和開發者討論,如果模型最終不再需要那麼多輔助腳手架,你的產品還能提供什麼獨特價值,或者模型是否正在蠶食你認為的核心貢獻?(關於 SDK 的演進細節)的確如此。在我們將內部工具打磨並公開發佈後,我們發現用例一直在進化。在我們的駭客松裡,項目往往會扎堆在即將爆發的技術點上。第一次駭客松大家都在關注模型上下文協議(Model Context Protocol),簡稱 MCP。第二次是在 Claude Code 發佈前後,令我驚訝的是,很多項目根本不是為了寫程式碼,而是把 Claude Code 當作底層引擎。我們看到了生物資訊學方面的應用,後來我們將其整合進了面向生命科學的 Claude。還有人把它當作全自動網站可靠性工程師(SRE)來分析資料,或者當作自動化資料科學家。這些項目讓開發者跳過了繁瑣的基礎設施搭建,直接進入業務核心。基於此,我們將底層 SDK 重新命名為 Claude Agent SDK,因為 Code 這個詞已經涵蓋不了它所支援的廣泛場景了。03AI 規模化的關鍵在於讓非技術使用者跨越複雜性天花板並建立可靠性預期要讓非開發者習慣這種新架構需要做些什麼,如何看待技術修補者與大眾互動標準之間的跨越?此外,目前 AI 使用分為高端工程、初級應用和流程重組,這三者本質上是一回事嗎?Mike Krieger: 我們還處於早期階段。即使在部署了企業版 Claude 的公司裡,你也會在銷售或市場等部門發現一些“極客型建構者”。他們雖然沒寫過程式碼,但能熟練運用原語並通過提示詞來實現工作流自動化。不過,在互動介面和核心能力上,確實還有巨大的鴻溝需要填補。如果你的 AI 同事雖然有創意,但偶爾會在以前處理得完美的任務上犯些低級錯誤,你很難完全信任它。我們現在必須彌合理解力差距,確保這些系統可預測且可靠。同時,要改掉幾十年養成的操作習慣也需要時間。習慣的養成往往是從第一次成功嘗試開始的。上周末我在用 Replit 和 Opus 跑項目時,順便在做早餐的空檔想給家裡做一個秘密聖誕老人小程序。因為我當時已經在那個工作狀態裡了,我隨手發了一個非同步請求,早餐做完,程序也寫好了。如果我當時沒在那個環境下,我可能根本不會想到用 AI 來做這件事。縮小習慣養成與能力認知之間的差距是關鍵。(關於使用者群體細分)這是一個關於不同群體如何爬上複雜性階梯的問題。開發者、建構者與企業雖然共享底層模型,但感覺完全不同。軟體開發者是動力最強的群體,他們習慣於最佳化自己的工具環境。他們的反饋能形成閉環,幫助我們將需求傳達給研究團隊。在非技術建構者的中間地帶,目前存在一個複雜性天花板。我觀察我妻子使用這些工具時發現,你偶爾還是得用到一些特定的提示詞技巧。比如在處理項目時,模型可能會填滿上下文窗口,我知道這時候需要語義檢索,但模型沒主動提,她也不知道這個術語。我們的目標是幫使用者爬上這個複雜性階梯,從寫前端,到學會資料持久化、安全審查和性能工程。這就像是讓 AI 帶著你,重新走一遍我們當年在 Instagram 經歷的規模化擴張之路。在企業端,最大的問題是落地與產出之間的脫節。AI 的輸出必須質量極高,高到讓使用者真正感到省心。如果 AI 給出的只是一個半成品,使用者會覺得還不如自己動手快。所以我們現在更關注如何穩定提供高品質、可靠的初始產出。042026 願景:企業將通過 MCP 和智能體原生設計實現 AI 的規模化分發與任務委派相比 2025 年,企業在 2026 年的目標會有什麼變化?面對遺留系統和監管限制,如何解決可分發性問題,讓 AI 真正從工具變成可以獨當一面的同事?Mike Krieger: 有兩點顯著不同。首先,企業對橫向智能體的興趣激增。我們不再只滿足於寫郵件的助手,而是開始擴展重複性的後台任務,比如國際化的“瞭解你的客戶”合規審查。這些流程複雜且重複,需要深度的企業內部知識。我們正在派出應用 AI 工程師,幫企業把這些需求轉化為靈活且可重複的智能體流程。其次,企業開始告別 V1 階段,即單純往現有介面塞一個 AI。他們現在正在重新設計產品,使其成為智能體原生產品。這意味著要讓 AI 能在後台完全調動產品的全部功能,這種轉型比在側邊欄加個聊天框要深刻得多。(關於基礎設施與連接)關於基礎設施,我曾和一家大銀行的技術主管聊過,他提到他們必須為了 AI 重新梳理資料儲存、標註和血緣。當你讓 Claude 幫你製作儀表盤時,它必須能理解底層的資料庫結構。2026 年的主題就是補齊這些缺失的連接件。我們看到很多企業正用 MCP 封裝內部服務,下一步就是從檢索資訊進化到採取行動,讓 AI 真正參與業務流,比如為人工確認排隊決策。理想中的雲環境與現實中的遺留系統及監管限制之間存在巨大落差。我們目前的重點是可分發性,也就是把我們的智能和智能體原語,比如技能、SDK 和記憶能力,直接帶到企業的工作流所在地,無論它部署在那裡。我們將這些功能元件化,確保在主流雲平台上都能靈活呼叫。雖然小規模試點容易,但要達到生產級規模,必須在尊重企業現有約束的前提下提供服務。(關於“同事”角色的演變)這可能是 2026 年的定義性特徵。我們在程式設計領域已經看到了這種苗頭,比如我們和 GitHub 的合作,你可以在拉取請求中直接標記 Claude,然後你去喝杯咖啡,它就把活幹完了。雖然模型現在還不懂職場裡的社交邏輯,但在具體職責的委派上,比如根據指定資料來源寫一份報告,已經近在咫尺。我們正在開發這種委派式的互動介面,並把在程式設計領域積累的經驗推廣到所有的知識工作中。關於 2026 年的期待,我的回答是:可靠地分擔你的工作。 (數字開物)
逆天發現!ChatGPT秒懂,不是靠RAG,它竟然用了這4招!
你有沒有想過,那個號稱“最懂你”的ChatGPT,到底是怎麼記住你的?它真的擁有一個龐大的記憶資料庫,能隨時回溯你說的每一個字嗎?最近一位開發者Manthan Gupta的逆向工程,徹底顛覆了我們的認知!他發現,ChatGPT的記憶機制,簡單到令人難以置信,甚至沒有用到我們普遍猜測的向量資料庫和RAG檢索。👉 技術突圍:極簡四層架構,打造“記憶幻象” Manthan Gupta通過大量對話實驗,揭示了OpenAI打造“它好像真的記得我”效果的底層邏輯。這並非依靠複雜的AI“大腦”,而是一套極其精巧、工程化驅動的四層架構。這套系統,用最小的成本,實現了最大的記憶效果,堪稱一場效率上的“降維打擊”。💡 第一層:會話中繼資料——AI的“察言觀色”🔥 別把它想得太高科技。當你在每次打開ChatGPT時,它會默默觀察你的“環境資訊”:裝置類型、瀏覽器、大致地理位置、訂閱等級、甚至你的使用習慣(比如平均聊幾輪、消息多長)。這些中繼資料不會被長期儲存,也與你個人身份無關。它們的作用,僅僅是讓ChatGPT動態調整對話風格和節奏。比如你半夜用手機打開,它可能就直接切入重點,不繞彎子。這是一種即時性的環境適應,而非真正意義上的記憶。👉 第二層:使用者記憶——你的專屬“檔案卡”🚀 這一層才是ChatGPT真正“記住你”的地方。在後台,它會維護一份屬於你的、小小的“檔案卡”。上面記錄著你的名字、工作、興趣、偏好風格等明確事實。這些資訊不會憑空出現,要麼是你明確告訴它“記住我是一名AI編輯”,要麼是它在你反覆提及後,自動識別並判斷為“穩定事實”後儲存。最關鍵的是,這份記憶透明且可控。你可以隨時讓它記住或忘掉某個資訊。每次新對話,這張“檔案卡”都會被自動載入,讓ChatGPT的回答悄悄對齊你的偏好。這就是個性化體驗的“複利”效應,讓你感覺AI越來越懂你。💡 第三層:近期對話摘要——高效的“記憶索引”🔥 這也是最讓人意外的部分。我們曾以為ChatGPT會用RAG機制檢索歷史對話,但它沒有!它採用的是一個輕量級的摘要系統。ChatGPT會將你最近約15次聊天,整理成一份簡短清單,只包含時間戳、聊天標題和你當時說的幾句關鍵資訊(僅使用者側)。它不儲存對話細節,只保留“你最近關注了什麼”的方向性資訊。這種機制犧牲了細節,卻換來了驚人的速度和效率,以及對token預算的精準控制。它不“檢索”,而是“預處理”——這是一種工程上的“護城河”,確保了系統的流暢運行。👉 第四層:滑動窗口——當前對話的“短期記憶”🚀 這一層是大家最熟悉也最容易誤解的。ChatGPT每次回答時,只能看到你和它最近一段對話的內容,這就是所謂的“滑動窗口”。這個窗口的長度是有限的(如GPT-4的128k token),一旦超出,最前面的內容就會被“擠掉”,徹底遺忘。窗口內的內容會一次性打包輸入模型,不做任何“回憶”操作。這解釋了為什麼你刷新頁面或開啟新對話,它就像換了個“魂”。理解這一點,對於最佳化你的Prompt和Agent設計至關重要。✅ 認知突圍:效率至上,而非蠻力 Manthan Gupta的發現揭示了一個核心真相:ChatGPT的記憶系統並非依賴龐大的知識庫或複雜的檢索演算法,而是通過分層策略與工程化巧思,用最少的資源,實現了最強大的使用者體驗。這是一種效率至上的底層邏輯,是AI行業的一次“認知突圍”。它告訴我們,有時最簡單的架構,在精準的權衡下,反而能帶來更高的紅利。當你打開ChatGPT的Memory頁面,看到它為你精心整理的“檔案卡”時,那種感覺是複雜的。它不只是在“記住”你,它在書寫你。它像一面鏡子,映照出你在AI面前展現的那個自己——可能是最真實、最脆弱、也最孤獨的你。這種深刻的連接,正是AI記憶最微妙、也最動人的力量。此刻,去看看你的ChatGPT,它為你寫下了什麼? (澤問科技)
馬斯克點名輝達、Google:未來十年,AI 財富會流向那裡?
2025 年 11 月 30 日,印度創業者Nikhil Kamath 在播客《 People by WTF》上採訪了 埃隆・馬斯克。沒有發佈會,沒有 PPT,只有一場關於 AI、貨幣和工作未來的深度對話。面對已超過38兆美元的美國國債,馬斯克給出了明確判斷:唯一的解決方案是 AI 和機器人拉動生產力,而且必須在三年內跑贏通膨。當被問及“投資者應該關注那些公司”時,他點名了輝達和Google。但在整場對話中,他真正著眼的不是具體公司,而是財富流向的路徑:從晶片到平台,從平台到系統,從系統到入口。第一節 | 輝達很棒,但不是終點馬斯克以輝達和Google為例,但他真正強調的不是晶片性能,而是一個更深層的邏輯:早期 AI 財富集中在算力供應側,下一階段將流向能夠建構完整 AI 生態的平台型公司。1、晶片:必需品,而非護城河GPU 算力是 AI 的基礎設施,這讓輝達成為全球市值第一的公司。但在馬斯克的價值圖譜裡,晶片只是工具層。他真正關注的是更上層的能力:系統、平台、閉環、介面。這些詞指向的不是單點技術,而是如何把資料採集、模型訓練、推理部署、場景應用串聯起來。這種完整的串聯能力,可以理解為 “AI 工廠”:一個從原材料到成品的完整生產線,而不只是某個環節的裝置。2、平台的價值:資料、場景、閉環馬斯克談到特斯拉時說,這是世界領先的現實世界 AI,因為它不僅有模型,更重要的是資料、場景和反饋形成了閉環。談到X平台時,他也強調 AI 必須嵌入真實的使用者行為、互動資料和決策場景。特斯拉和 X 的共同點,就是平台的核心價值:資料持續生成模型不斷迭代使用者自然留存同樣的邏輯也適用於Google。它在搜尋、地圖、YouTube上 積累的資料和使用者習慣,正是馬斯克認為它在未來會相當有價值的真正原因。3、價值分配的重構從這個角度看,馬斯克的劃分很清晰:“晶片公司提供工具,利潤來自銷售;平台公司建構生態,價值來自網路效應。前者是高毛利的生意,後者是高壁壘的資產。”這也解釋了為什麼 xAI 從成立起就開始自建推理叢集,而不是依賴雲端API。完整掌控從資料到部署的全流程,才能掌控價值。第二節 | 從對話到執行:AI的下一躍遷馬斯克對話中最高頻的詞是:系統。這個詞和“平台”有什麼區別?平台掌握的是資料和使用者,系統掌握的是任務和執行。舉個例子:ChatGPT是個出色的對話工具,但它只能回答問題。而馬斯克想要的是,AI能代替你發推文、追蹤互動、調整策略,甚至完成一系列連貫的動作。換句話說,AI 的下一階段競爭,不在於模型強弱,而在於誰能建構起完整的任務執行系統。以 X平台的例子:使用者說“發一條關於某話題的推文”AI理解意圖,生成內容,呼叫發佈介面追蹤互動資料,給出最佳化建議這不是多輪對話,而是目標驅動的任務執行鏈。需要的不是更好的聊天框,而是能調度多個模組、串聯多個步驟的工作流系統。這類系統的核心能力包括:接收目標指令而非簡單提問調度多個AI模組和外部介面持續執行並給出狀態反饋馬斯克為什麼強調 SpaceX、Tesla、xAI 的融合?因為未來的 AI 不是單點工具,而是跨資料、跨場景、跨硬體的協同系統。特斯拉掌握駕駛資料和車載硬體,SpaceX 掌握衛星網路和空間算力,xAI提供模型能力。三者整合,才能建構從資料採集到推理部署的完整閉環。這種閉環能力,是 OpenAI 、Anthropic 的工具呼叫所不具備的。它們還停留在能力輸出層面,而非系統營運層面。從晶片到平台是第一層轉移,從平台到系統是第二層。前者掌握資料和使用者,後者掌握任務和閉環。誰能讓 AI 不只回答問題,而是完成工作,誰就掌握價值入口第三節 | WeChat++:馬斯克的入口野心入口長什麼樣?馬斯克的答案是:WeChat++。在國內,微信是人們發消息、支付、叫車、訂餐、理財的統一平台,生活的大部分數字行為都在一個超級app裡完成。馬斯克想做的是這個模式的AI升級版。X 不只是社交媒體,而是 AI 時代的統一入口。1、 從微信到 WeChat++:統一入口的價值馬斯克最初建立X.com時,目標是建立“金融交易的清算所”和“更高效的貨幣資料庫”。收購 Twitter 後,他說這是重新審視這個願景的機會。X 現在有的功能:文字、圖片、視訊發佈安全消息和音視訊通話自動翻譯(連接不同語言使用者)Grok AI助手未來將加入支付功能這些功能整合在一起,讓 X 掌握了使用者完整的行為上下文。AI 不再面對碎片化的單次請求,而是理解一個人的完整數字生活。這就是馬斯克說的“將世界聚整合集體意識(Collective Consciousness)”的技術實現。2、AI 入口價值:不只是流量,而是控制權傳統網際網路時代,平台的價值是聚合流量。但在 AI 時代,入口的價值升級為:上下文控制:掌握使用者的完整語境和需求呼叫權力:決定用那個 AI、呼叫那些服務執行能力:讓 AI 不只回答,而是代替使用者完成任務如果 X 能實現這個願景,它將成為:AI 的訓練場(資料來自真實使用者行為)AI 的工作台(在這裡執行任務而非只對話)使用者的唯一啟動面板(不需要切換多個app)X 要成為“你可以做任何事情的地方”,這是實現 AI 能力的必然要求,而非行銷話術。3、三層價值分配的完整圖景回看這三節,馬斯克對 AI 財富流向的判斷形成了清晰的三層結構:第一層:晶片→平台算力是基礎設施,但資料生態才是護城河第二層:平台→系統有資料還不夠,要能建構任務執行的完整閉環第三層:系統→入口誰掌握使用者的唯一介面,誰就掌握 AI 時代的價值分配權輝達提供工具,Google建構能力,OpenAI 打造系統,而馬斯克要做的,是佔據那個最接近使用者、最難被替代的入口。晶片、平台、系統、入口,AI 財富流向的完整路徑已經清晰。結語 | 財富終點:佔據入口的人這場訪談回答了一個核心問題:未來十年,AI 財富會流向那裡?答案不在晶片迭代的速度,也不在模型參數的數量,而在於誰能建構從資料到執行的完整系統,誰能佔據使用者與 AI 之間的唯一入口。晶片會繼續進化,模型會持續突破,但最終掌控價值的,是那些將技術轉化為不可替代的使用者介面的人。 (AI 深度研究員)
夸克要搶豆包的飯碗
近日,阿里旗下AI旗艦應用夸克正式上線對話助手功能,使用者可自由切換傳統搜尋與AI對話搜尋模式,是國內首個實現搜尋能力與對話體驗深度融合的AI產品。這也被視為夸克內部代號為“C計畫”的首次成果落地。業界普遍猜測,“C計畫”的代號取自經典遊戲“吃豆人”(Pac-Man),以“吃豆”為名,其寓意不言自明。不過,豆包也沒閒著,目前其已經接入抖音商城,當使用者詢問“買什麼”或“有什麼推薦”,豆包就會積極為自家產品帶貨,成為國內首個大規模向電商跳轉導流的AI APP。夸克在自己身上“塞”了一個豆包,豆包則將觸角延伸至電商巨頭的領地,兩者都不滿足於原有的業務邊界,想要攻入競爭對手的腹地。過去,阿里雖然在AI技術研發方面走得更快,但在消費級AI產品的佈局上,卻始終慢於字節半拍,讓阿里在AI使用者心智爭奪中處於被動。如今,阿里決心補上這一短板,豆包也有了新的動作,在這場AI入口戰事中,大廠們的正面對決一觸即發。阿里的“吃豆”野心關於“C計畫”的代號由來,業內眾說紛紜。一種說法認為“C”代表“Chat”,即夸克可能會推出全新的對話形態;另一種更具競爭意味的解讀是,取“吃豆人”之意,劍指字節系的豆包。但這顯然只是字面上的解讀,要真正理解阿里在AI入口戰事中的排兵佈陣,還需要穿透“代號”表象,看到誇克的核心能力。根據36氪報導,一位接近該項目的人士透露,“C計畫”並非某一個具體產品或者應用的代號,也不限於App層面,其是夸克內部的一項長期戰略性計畫,旨在以更開放的思路測試AI產品的多元場景與市場反饋。從這一角度來看,“搜尋+對話”顯然並非夸克的最終形態。夸克並非想要“再造”一個豆包,而是在自己最擅長的搜尋領域持續進化,逐步搭建產品能力,闖出一條差異化之路。但有趣的是,相較於其他AI應用早早定位為“AI助手”,夸克卻在今年初才確立“2億人的AI全能助手”這個定位,並在3月升級為“AI超級框”。夸克演算法負責人蔣冠軍曾透露,夸克在2018 年就已立志做“個人助手”。可在後續發展中,夸克卻並未緊跟AI風口,反而是聚焦於“搜尋+工具”,再逐步引入機器學習演算法,從“智能搜尋”逐漸向“AI超級框”轉型。夸克為何“反其道而行之”,答案還是要回到產品的底層邏輯上。我們嘗試對夸克和豆包同時提幾個問題,看看兩者的差異到底在那裡。第一個問題跟日常生活相關,我們提問“要趕上8點的飛機,最晚要在幾點,從那個地鐵站出發”。夸克的回答更清晰明了,其會執行多步邏輯推理,明確出每一個步驟的最佳選擇,從而得出最合理答案;豆包則給出了參考資料,但具體出行路線還是要使用者自己規劃。第二個問題則更複雜一點,我們提問“估算寒武紀未來3個月的市值走勢,主要受那些因素影響”。夸克和豆包都給出了詳細的有利因素和不利因素分析,不過夸克明顯更敢下總結,能夠具體到寒武紀的營收目標、資金流入流出等;而豆包的結論則相對籠統一些。第三個問題要求整理過去5年語文高考真題。這明顯是夸克的舒適區,其直接整理了各科目真題和解析,使用者還可以下載到夸克網盤;豆包則只能蒐集到語文的作文真題。幾輪問答之後,可以看出夸克作為智能助手的獨特優勢。首先,“搜尋”可以幫助驗證答案的精準性。比如在交通指引這一問題上,夸克能夠結合搜尋資訊對問題進行複雜多步的推理,即時性更強。這在一定程度上,解決AI助手普遍存在的“資訊幻覺”問題,也省去了大部分使用者通過AI助手得出答案後,還要通過搜尋引擎進行二次驗證的痛點。其次,阿里大模型能力的支援。夸克對話助手採用Qwen最新閉源模型Qwen3-Max,夸克演算法團隊還與通義實驗室成立了聯合研發小組,確保生成內容的專業度。在公開測試中,夸克更擅長回答一些強邏輯的問題,能夠明確呈現“問題-論點-論據-結論”整個思考流程,感覺跟DeepSeek的思考鏈有不少相似之處。最後,是解決問題的能力。目前,儘管AI助手產品眾多,但基於AI幻覺以及動手能力不強這兩個痛點,AI助手其實更像是一個“聊天工具”,離真正的“助手”還是有不少距離。相較之下,夸克增加了對話功能後,不僅能主動理解使用者意圖,還能無縫呼叫AI相機、AI寫作、拍照搜題等優勢能力,並與夸克網盤、辦公場景等實現生態整合,形成了“動手”幫使用者解決問題的差異化能力。夸克從搜尋到工具,再到AI助手的演化,本質上是基於自身能力長出最適合的“形態”,其雖然“吃”掉了豆包,卻又不僅僅是另一個豆包。夸克的艱難“蛻變”所以,對於阿里和夸克來說,上線對話助手功能並不難,但現在才是最合適的落地時間點。一位接近項目的人士表示,“模型能力、行業環境與使用者習慣三者終於達到了理想交匯點”。在ChatGPT引發AI大模型的“奇點時刻”後,阿里的通義千問大模型反應迅速,僅一年內就迭代至2.5版本,技術能力不容小覷。但在最初,通義App是被打包進To B服務中,其更像是阿里AI功能的展示櫥窗。阿里內部對於AI到底是“To B”還是“To C”,一直有著分歧。阿里既捨不得C端市場的巨大潛力,又擔心雙線作戰會分散資源。這種猶豫導致“AI to C”缺乏清晰的戰略指引,未能在內部形成業務聚焦與資源傾斜。但時間不等人,在阿里內部持續拉鋸的同時,DeepSeek、Kimi等競品已經圍繞使用者需求快速迭代,在語音、圖像互動等方面持續進化,阿里已經錯過了在C端市場發力的最佳時機。一直到2024年底到2025年初,阿里正式明確AI to C戰略,和AI to B雙線平行。其中一個轉折點是,通義應用正式從阿里雲剝離,在組織架構上跟夸克平級。不過,通義千問早期更側重於模型技術研發與企業端落地,對C端市場的打磨明顯不足,其在情感陪伴、趣味互動等功能的缺失,也導致通義千問未能在C端形成顯著的品牌聲量。再加上阿里缺乏像豆包一樣的流量入口,即便大手筆投流,效果也是差強人意。不過,通義千問早期的發力點集中在模型技術研發與企業端落地,對C端市場的打磨力度不足,阿里也缺乏類似字節系的流量入口,導致通義千問未能在C端形成顯著的品牌聲量。相較之下,夸克則是阿里更好的選擇,其本身已經擁有億級規模的使用者群體。AI產品榜資料顯示,今年9月,夸克的月活躍使用者規模僅次於ChatGPT,豆包緊隨其後。夸克在內容生態上也更加成熟,其支援圖文、視訊、音訊的智能檢索與生成,同時內建了網盤、掃描、文件等功能,這種工具形態吸引了創作者、學習者、職場人士等使用者持續使用。只是,夸克想要撐起阿里“AIto C”的C位,挑戰依然不少。雖然,夸克的使用者規模在AI產品中保持領先,但考慮到夸克原有的使用者積累,這個“第一” 的含金量難免要打個折扣。更何況,1.5億的月活使用者裡,真正用起AI 功能的比例究竟有多少,目前還需進一步驗證。其次,夸克升級的功能雖然不乏亮點,但使用者口碑也有分化,部分使用者認為其“功能臃腫”“操作複雜”。阿里一直缺乏打造社交產品的基因,這也影響到AI產品的使用者留存與口碑。最後,當下AI應用市場的競爭壓力也不容忽視,競品豆包不僅擁有億級月活使用者,更在品牌心智、互動體驗等方面積累了先發優勢,夸克要奪回使用者注意力,還需要重塑產品心智。AI時代的“新入口”因此,夸克推出“C 計畫”,正是希望進一步強化夸克的AI核心能力,讓夸克不再侷限於搜尋工具的標籤,而是通過對話互動這一功能,將AI能力滲透到更多高頻場景。據貝哲斯諮詢預測,2032 年,全球對話式AI平台市場規模將進一步增長至1426億元,期間年複合增長率將穩定在6.5%。這一持續擴容的市場,也吸引了各科技大廠重兵佈局。它們圍繞AI入口的使用者爭奪戰可謂硝煙瀰漫,火藥味幾乎滲透到每一個細分場景。騰訊元寶“下鄉打廣告”;字節豆包堅信“大力出奇蹟”,從去年二季度到今年一季度,平均投流費用超1.5億元;百度文心一言、科大訊飛星火繼續聚焦於專業場景;阿里夸克則以“C 計畫”佈局落子。大廠們都想利用移動網際網路時代積累下的雄厚資源,成為“AIto C”的下一個超級流量入口。但掌握使用者高頻場景只是第一步,只有把場景優勢轉化為使用者長期依賴,才算真正站穩腳跟。讓AI能力衝出手機,是阿里的後招。夸克“C計畫”將與夸克AI眼鏡形成業務聯動,成為其打通阿里生態的重要一環。目前,夸克AI眼鏡已經開啟預售,它將夸克AI能力從App延伸至日常可穿戴終端的關鍵節點——使用者無需掏手機、無需打開App,僅需“看一下”就能完成導航、支付、比價等日常操作。除此以外,夸克還在健康、高考等細分領域同步深耕,讓AI大模型能在更多垂直場景中落地實用價值;接下來夸克還將打造一款對標GoogleChrome的AI瀏覽器,進一步放大阿里在AI領域的場景價值。豆包則開始嘗試“帶貨”,當使用者與豆包進行對話時,其會在回覆中嵌入商品連結(藍鏈)。除了豆包之外,元寶、Kimi、ChatGPT等“老玩家”也都默默開始“上連結”。這也意味著智能助手的定位正在發生變化,不僅是使用者獲取資訊、解決問題的服務入口,還能憑藉對使用者需求的精準洞察與匹配能力,在對話中自然銜接消費場景,成為新的交易入口。長期以來,消費者都在期待“足夠智能”的助手——能懂我們的需求,提供切實有效的建議,甚至主動幫我們完成繁瑣工作。但在通往這個未來的路上,科技大廠的“進度條”卻始終載入緩慢,不少產品更是“行銷大於實力”,大眾的期待遲遲未能落地。夸克的進化,則讓這場“AI to C”的競爭有了新的看點。憑藉自身在搜尋、工具領域的積累,夸克正在走出一條“專業助手”而非“聊天伴侶”的產品路線,不僅能高效承接阿里的生態資源,也能在To C領域講出一個令人信服的新故事。長遠來看,夸克所瞄準的不只是豆包這一個對手,更是探索出更貼合未來一代人生活方式的產品形態,不僅是“回答問題”的能力,還是“解決問題”的能力。誰能整合更多工具、打通服務全鏈路、觸達更多場景,做到技術與場景的深度繫結,誰才能在長期競爭中建立起差異化優勢。如今,AI時代的新入口之戰已經全面展開,平台間的比拚,早已不僅是產品的競爭,而是生態能力的較量。這場“吃豆人”式的競爭,註定是一場漫長的耐力賽。 (伯虎財經)
Sora 2 震撼發佈!獨立 App 上線,顛覆性「客串」功能打造首個 AI 社交宇宙,要革抖音的命?
國慶節不過了,連夜幹!!!剛剛,就像爆料的一樣OpenAI正式發佈Sora 2相比初代Sora模型,Sora 2在物理世界的精準性、真實感和可控性方面都實現了巨大飛躍,並首次加入了同步對話和音效生成功能OpenAI表示,初代Sora是視訊生成的“GPT-1時刻”,而Sora 2則直接躍升至視訊領域的“GPT-3.5時刻”最重磅的是Sora獨立為APP,介面非常像抖音,主打創作、分享,以及一項顛覆性的社交玩法-“Cameo(客串)”的真人穿越功能,使用者可以將自己一鍵置入AI生成的視訊場景中關於 Sora App 的推廣計畫,OpenAI 採取了分階段的策略:邀請制推出:為了營造一個以熟人社交為基礎的社區氛圍,應用將採用邀請制進行推廣。成功註冊的使用者將獲得四個邀請碼,可以分享給自己的朋友目前sora app,只在IOS系統提供,現在就可以下載(首批上線地區為美國和加拿大,計畫將迅速擴展到更多國家),收到邀請後,使用者也可通過 sora.com 訪問Sora 2,Sora 2初期將免費提供,並設有慷慨的使用限制,Sora 2未來也計畫發佈API,Android版本還在開發當中Sam Altman把 sora 2稱作創造力的ChatGPT時刻以下是sora 2 發佈會現場詳細資訊:Sora 2 本體表現Sora 2 在物理世界的模擬上達到了前所未有的高度。團隊在發佈中強調,新模型在運動(motion)、物理(physics)、智商(IQ)和對真實身體運動規律的精準模擬(body mechanics)方面都達到了業界頂尖水平。這意味著 Sora 2 能夠更準確地理解和模擬複雜的物理互動。過去,像奧運會體操運動員的整套動作,或是在尾波滑水板上完成後空翻這類包含複雜動態和碰撞的場景,對於視訊生成模型來說是極大的挑戰。Sora 2 在處理這類複雜碰撞和動態建模方面表現得更為穩健,生成的畫面感覺極其自然。例如,視訊中展示的滑板愛好者完成踢翻的動作,其物理表現的精準度是以往模型難以企及的。這種對物理世界的深刻理解,是實現更高層次真實感的關鍵其次,Sora 2 顯著增強了模型的可控性。以往的視訊生成系統通常需要使用者以“逐個鏡頭”(shot-by-shot)的方式進行創作,很難在一次生成中建構一個包含多個鏡頭、敘事連貫的長故事。Sora 2 在這方面取得了突破,它能更好地理解和執行複雜的指令,在一次生成任務中講述更長、更連貫的故事。這使得創作者能夠擺脫碎片化鏡頭的束縛,更自由地建構完整的敘事,為短片、故事創作等應用場景提供了極大的便利最後Sora 2 首次實現了視訊與音訊的同步生成。這是第一個能夠同時生成視訊和配套音訊的 Sora 模型,並且它是一個非常通用的系統。這意味著使用者生成的每一段視訊都將自帶聲音,不再是無聲的畫面。這個音訊生成系統能力非常全面,具體體現在:多語言對話:能夠生成涵蓋多位說話者的多種語言的對話,並且口型同步非常自然,能夠準確捕捉對話內容環境音效:可以生成各種逼真的音效,例如環境中的風聲、水聲等完整音景:能夠創造出完整的音景(soundscapes),為視訊增添沉浸感此外,Sora 2 在風格多樣性上也表現出色。許多早期的生成模型往往會陷入一種單一的美學風格,而 Sora 2 擁有極其廣泛和多樣的動態範圍。無論是追求極致的現實主義風格,還是充滿想像力的動漫風格,Sora 2 都能駕馭自如,並能覆蓋兩者之間的所有風格。這為全球創作者提供了無盡的創意空間,讓人們能夠以前所未有的方式將想像力變為現實客串(Cameo)功能:化身萬千,步入想像中的任何世界在 Sora 2 帶來的眾多新功能中,最具顛覆性的無疑是客串玩法。這項功能是 Sora 2 獨有的,它賦予了使用者一種前所未有的能力:將真實世界的人物、寵物甚至物體,無縫地植入到任何由 AI 生成的虛擬世界或場景中。這不僅僅是簡單的“換臉”,而是一種深度的人物和場景融合,讓使用者能夠真正步入”自己的想像Cameo 的核心工作原理源於 OpenAI 正在建構的世界模擬模型(world simulation models)。該功能通過觀察一段關於某個主體(例如一個人、一隻寵物)的簡短影片片段,模型就能深度理解這個主體的外觀、動態和特徵。一旦理解完成,這個主體就可以像一個文字token一樣,被注入到任何提示詞中。這意味著,使用者只需提供一個簡單的視訊素材,就能將自己或朋友“傳送”到古羅馬鬥獸場、未來賽博朋克都市,或是任何能夠想像到的場景中,並讓他們在其中自然地活動和互動為了確保這項強大功能的安全和使用者自主性,OpenAI 設計了一套嚴謹的設定和權限流程:建立與驗證流程:使用者若想建立自己的 Cameo,必須經過一個專門的流程。系統會要求使用者錄製一個動態的音訊提示,並進行一次“活性檢查”,例如根據指示移動頭部。這個過程旨在通過多重驗證,確保建立 Cameo 的是使用者本人,從而有效防止身份冒用精細化的權限控制:使用者對自己 Cameos 的使用權擁有完全的控制。在設定中,使用者可以決定誰有權使用自己的形象進行創作,選項包括“僅限我本人”(Only I)、“我批准的人”(People I approve)、“互相關注的好友”(Mutuals)或“所有人”(Everyone)。這一原則確保了任何人都無法在未經使用者明確授權的情況下,使用其形象生成內容。使用者的數字肖像權得到了充分的尊重和保護個性化偏好設定:模型雖然強大,但並非完美,有時可能會“幻覺出”一些不符合使用者特徵的細節,比如給使用者穿上緊身牛仔褲或賦予奇怪的口音。為瞭解決這個問題,使用者可以在 Cameo 偏好設定(Cameo preferences)中進行調整,引導模型更準確地描繪自己。這種設定也可以用於娛樂目的,比如使用者可以主動為自己的 Cameo 形象加入一個標誌性的金項鏈或一頂有趣的帽子,為創作增添趣味內容所有權與刪除權:使用者對自己授權建立的所有 Cameo 內容擁有完全的權利。這意味著,即使使用者的朋友使用了其 Cameo 創作了一段視訊,該使用者也被視為該視訊的所有者之一,並擁有隨時將其刪除的權力。這進一步強化了使用者對自己數字身份的掌控Cameo 功能的推出,被 OpenAI 團隊視為一種全新的溝通方式。它超越了傳統的文字、表情符號(emojis)或語音筆記,演變成一種基於視訊的全新媒介。朋友之間可以通過 Cameo 共同出演一部微型電影,或是在一個奇幻世界裡互動,這種充滿樂趣和創意的交流方式,為社交帶來了前所未有的可能性Sora App:一個專為 AI 創意而生的社交新大陸為了將 Sora 2 模型的魔力傳遞給最廣泛的使用者,並充分發揮 Cameo 功能的社交潛力,OpenAI 專門開發了一款全新的移動應用——Sora App。團隊認為,Sora 2 所帶來的體驗已經超越了傳統工具的範疇,它更像是一種全新的溝通媒介,因此需要一個全新的產品形態來承載。Sora App 的定位是一個以 AI 生成內容為核心的社交平台,旨在激發使用者的創造力,並加深人與人之間的連接Sora App 的介面設計看起來非常像抖音。有一個內容流、個人首頁(p以及關注系統。但其核心區別在於,這個平台上的所有內容都是由人類使用者通過 AI 生成的,而非機器人發佈的垃圾資訊。這創造了一種非常獨特且新奇的體驗,使用者看到的不再是現實世界的快照,而是朋友們想像力應用內的核心體驗圍繞著創造與互動展開:動態流:使用者打開應用後,會看到一個由其關注的人所創作的 AI 視訊流Remix 功能:這是 Sora App 的一個核心互動機制。當使用者看到一個喜歡的視訊時,可以點選 Remix 按鈕,在其基礎上進行二次創作。例如,看到一個香水廣告,使用者可以輸入新的提示詞,如“把它變成一個帶有巨大羽毛的禮帽廣告”,Sora 就會生成一個全新的、與原作相關聯的視訊。這個功能極大地降低了參與熱門趨勢和故事線的門檻,讓每個人都能輕鬆地為社區的集體創作貢獻一份力量社交哲學:OpenAI 團隊坦言,他們最初對一個完全由 AI 生成內容的平台持懷疑態度,擔心它會削弱真實的人際關係。然而,內部測試表明,Cameo 功能反而以一種意想不到的方式拉近了人們的距離。因此,Sora App 的設計理念將重點放在加強朋友和家人之間的聯絡上。平台會優先推薦來自使用者社交圈的內容,並提供一個專門的“關注”流,只顯示使用者已關注的人發佈的內容推薦:為了提升使用者體驗並給予使用者更多主導權,Sora App 正在測試一項新功能,允許使用者根據自己的心情來引導內容推薦。例如,使用者可以選擇“放鬆”或“動物”等模式,應用就會相應地展示更符合其當下心境的內容。OpenAI的說法是Sora App 的目標不僅僅是成為一個內容消費平台,更是要成為一個激發每個人創造潛能的社區。它鼓勵使用者從被動的刷視訊轉變為主動的創造者,通過簡單有趣的工具,將腦海中的奇思妙想變為現實,並與朋友們分享這份快樂當然你可以完全把以上內容看做是OpenAI的宣傳,說的很好聽,到時候只怕玩的停不下來防沉迷針對社交媒體普遍存在的沉迷、孤立和演算法投喂等問題,OpenAI提出了一系列應對措施:使用者控制資訊流: 使用者可通過自然語言指示推薦演算法,調整資訊流內容。App會定期詢問使用者的使用感受,並主動提供調整選項優先創作而非消費: App默認優先展示使用者關注的人或能激發創作靈感的內容,不以“使用時長”為最佳化目標強化社區聯絡: App採用邀請制,旨在鼓勵朋友間共同使用,通過Cameos功能加強社區聯絡青少年保護: 為青少年設定了每日觀看視訊數量的默認限制,並對Cameos功能採用更嚴格的權限設定。家長可通過ChatGPT使用家長控制工具,管理滾動限制、演算法個性化和私信設定肖像權控制: 使用者對自己的Cameo擁有端到端的控制權,可以決定誰能使用,並隨時撤銷存取權或刪除包含其Cameo的任何視訊商業模式: 目前唯一的商業化計畫是,當計算資源緊張時,可能允許使用者付費生成額外視訊Sam Altman的思考:創造力的“寒武紀大爆發”**Sam Altman也發文表示,這感覺像是“創造力的ChatGPT時刻”,從想法到結果變得簡單快速,帶來了新的社交動態他認為,創造力可能即將經歷一場“寒武紀大爆發”,藝術和娛樂的質量將大幅提升。同時,他也表達了憂慮,承認社交媒體的負面影響,如成癮和霸凌。他強調,團隊已深入思考如何避免Sora App落入由強化學習(RL)最佳化的垃圾資訊流的陷阱。為此,Sam Altman提出了產品的幾項原則:最佳化長期使用者滿意度。 大多數使用者在回顧過去6個月時,應該覺得使用Sora讓他們的生活變得更好鼓勵使用者控制自己的資訊流。 使用者應該能通過自然語言詳細告訴Sora他們想看什麼優先考慮創作。 讓每個人都能輕鬆參與創作過程。幫助使用者實現長期目標。 無論是想與朋友更多聯絡,還是想健身、創業,Sora都將努力提供幫助寫在最後OpenAI認為通用世界模擬器和機器人智能體將從根本上重塑社會。Sora 2代表了朝此目標邁出的重要一步sora 2會成為抖音一樣的超級APP嗎?會成為一款顛覆性的社交應用嗎? (AI寒武紀)
AI還不具備真正的創造力 | DeepMind CEO,All-In Summit
近日,在美國All-In AI峰會上,Google DeepMind首席執行官、新晉諾貝爾獎得主Demis Hassabis接受了一場深度對話。本次圓桌對話全面探討了AI的前沿進展與未來圖景,話題涵蓋了從顛覆性的可互動世界模型Genie,到AI在機器人、科學發現、藥物研發領域的革命性應用,再到對AGI實現路徑。Demis Hassabis詳細闡述了Genie模型如何通過“逆向工程”學習並生成物理世界,顛覆了傳統3D渲染引擎的底層邏輯,更提出了未來娛樂形態將是頂尖創作者主導下的“共同創作”模式。此外,Demis Hassabis駁斥了當前AI系統已達“博士級智能”的說法,稱之為“無稽之談”,並犀利地指出其在穩定性和真正的通用性上仍有根本性缺陷。同時,他也對AI性能提升趨於停滯的觀點予以否認,認為在更廣闊的多模態領域,進步速度依然驚人。01 諾獎榮耀與Google的AI引擎室您在得知獲得諾貝爾獎時身在何處,又是如何得知的?DeepMind在龐大的Alphabet組織中扮演著怎樣的角色,您的具體職責是什麼?以及您的團隊規模有多大,人員構成是怎樣的,其中科學家和工程師的比例如何?Demis Hassabis: 那是一個非常奇妙的時刻。關於它的一切都感覺不真實,包括他們通知你的方式。他們會在全球直播前大約10分鐘才告訴你。當你接到來自瑞典的電話時,你真的會感到有些不知所措。那是每一位科學家都夢寐以求的電話。接下來的頒獎典禮,是在瑞典與王室成員共度一整周。那感覺太棒了,畢竟這項傳統已經延續了120年。而最不可思議的部分,是他們會從保險庫中取出諾貝爾獎的簽名冊,讓你在所有前輩偉人的名字旁邊簽下自己的名字。所以,當翻閱著冊子,看到Feynman、Marie Curie、Einstein和Niels Bohr等等這些名字,一頁頁地回溯歷史,然後將自己的名字也寫進那本冊子裡,那真是一個令人難以置信的瞬間。(關於是否預感會獲獎)你會聽到一些傳聞。但在當今這個時代,他們還能把消息封鎖得如此之好,確實令人驚嘆。諾貝爾獎對瑞典來說就像是國寶一樣。所以你會聽到一些說法,比如 AlphaFold 的成就或許值得這份殊榮。而且,他們不僅看重科學突破本身,也看重其在真實世界中產生的影響。而這種影響力的顯現,有時需要二三十年。所以,你永遠無法確定獲獎的時刻是否會到來,會在何時到來。因此,這確實是一個驚喜。(關於DeepMind在Alphabet中的角色)我們現在將 DeepMind,或者說合併後的 Google DeepMind,視為整個 Google 和 Alphabet 的核心引擎室。幾年前,我們將 Google 和 Alphabet 內部所有不同的人工智慧項目,包括 DeepMind,都整合到了一起,成立了一個新的部門,彙集了各個團隊的優勢。我現在通常這樣描述我們的角色:我們是整個 Google 和 Alphabet 的動力之源。我們建構的核心模型 Gemini,以及許多其他模型,比如視訊模型和互動式世界模型,現在都已接入 Google 的各個體系中。可以說,幾乎每一款產品、每一個使用者介面,背後都有我們 AI 模型的支援。如今,無論是通過 AI Overview、AI 模式還是 Gemini 應用,已有數十億使用者在與 Gemini 模型進行互動。而這僅僅是一個開始。我們正逐步將其融入 Workspace、Gmail 等產品中。所以,這對於我們來說是一個絕佳的機會,既能進行最前沿的研究,又能立刻將成果交付給數十億使用者。(關於團隊構成)我負責的 Google DeepMind 部門大約有5000人。其中,我估計超過80%是工程師和擁有博士學位的研究人員。所以,這個數字大約在三四千人。02 AI正在對我們世界的直觀物理學進行逆向工程你們前發佈一款名為Genie的世界模型,它具體是什麼?其是它與傳統3D渲染引擎有何根本不同?從長遠來看,當這類模型發展到更高階段,例如第五代時,它將引領我們走向何方,其最終的應用目標又是什麼?Demis Hassabis: 它非常驚豔。大家現在看到的所有視訊和可互動世界,實際上都是由 AI 生成的。你可以看到有人在實際控制畫面,它不是一段靜態視訊,而是完全由文字提示生成。然後,人們就可以用方向鍵和空格鍵來控制這個三維環境。所以,你在這裡看到的每一個像素都是即時生成的。在玩家或互動者到達世界的某個區域之前,那個區域是不存在的。這些豐富的細節隨後會展現出來,這個畫面是完全生成的,不是真實視訊。它生成了一個人正在粉刷自己房間的場景,在牆上塗鴉。接著,玩家會向右看,然後再看回來。世界的這個部分剛才還不存在,現在它被創造出來了。當玩家回頭看時,又能看到自己剛才留下的塗鴉痕跡。我再強調一次,你看到的每一個像素都是完全由 AI 生成的。你還可以輸入“穿著小雞服裝的人”或“一輛水上摩托艇”,模型會即時將這些元素加入到場景中。這真的相當令人震撼。(關於與3D引擎的不同)這個模型實際上是在對我們世界中的直觀物理學進行逆向工程。它觀看了數百萬個關於我們世界的視訊,包括YouTube視訊等,並僅從這些視覺資訊中,就反向推匯出了世界運行的大部分規律。它目前還不完美,但已經能作為使用者,在許許多多不同的世界裡,生成一到兩分鐘連貫的互動體驗。在後面的演示中,你還可以控制沙灘上的一隻狗,或者一隻水母,所以它的能力不侷限於和人類相關的場景。它通過觀看視訊和一些來自遊戲引擎的合成資料進行訓練,並自己完成了逆向工程。這個項目對我個人而言意義非凡,同時也讓我感到非常震撼。因為在90年代,我職業生涯早期曾為視訊遊戲編寫過AI和圖形引擎。我至今還記得,當時要手動編寫所有多邊形和物理引擎是多麼困難。而現在看到Genie毫不費力地就實現了這一切,水面的反射、材質的流動方式、物體的行為等等,全都自然天成,這實在是太神奇了。(關於模型的未來方向)我們之所以建構這類模型,是因為我們始終認為,儘管我們像其他團隊一樣,在Gemini這樣的大語言模型上不斷取得進展,但從一開始,我們就希望Gemini是一個多模態模型。我們希望它能接收任何類型的輸入,無論是圖像、音訊還是視訊,並且能輸出任何內容。我們對此非常感興趣,因為要讓AI實現真正的通用,要建構AGI,我們認為AGI系統必須能夠理解我們周圍的物理世界,而不僅僅是語言或數學等抽象世界。當然,這對於機器人技術的發展也至關重要,這可能正是當前機器人技術所缺失的環節。同樣的道理也適用於智能眼鏡這類裝置,一個能在日常生活中為你提供幫助的智能眼鏡助手,必須能夠理解你所處的物理環境,以及我們世界中直觀物理學的運作方式。因此,我們認為,建構像Genie這樣的模型,以及我們最好的文字到視訊模型Veo,都是我們建構世界模型的具體體現。這些模型能夠理解世界的動態和物理規律。如果你的系統能夠生成一個世界,那就證明它已經理解了那個世界的運行法則。03 AGI系統必須能夠理解我們周圍的物理世界Genie這類世界模型最終是否會通往機器人領域?能否介紹一下當前視覺-語言-行動模型的最新進展是怎樣的?一個能夠通過攝影機觀察世界,通過自然語言接收指令,並據此在物理世界中執行相應動作的通用系統,目前發展到了什麼階段?Demis Hassabis: 完全正確。如果你體驗一下Gemini的Gemini Live版本,將手機攝影機對準你周圍的世界,你會發現它對物理世界的理解已經達到了一種近乎神奇的程度。你可以將下一步想像為,把這種能力整合到像眼鏡這樣更便攜的裝置中。到那時,它就會成為一個日常助手,可以在你逛街時為你推薦事物,或者我們可以將它嵌入到Google地圖中。在機器人領域,我們建構了名為“Gemini機器人模型”的系統,這可以看作是在Gemini的基礎上,用額外的機器人資料進行微調後的版本。這個項目最酷的一點,也是我們今年夏天通過一些演示所展示的,是我們設定了一些桌面場景,有兩隻機械臂在桌面上與物體互動,你可以直接和機器人對話。比如,你可以說“把黃色的物體放進紅色的桶裡”,它就能理解這條語言指令,並將其轉化為具體的機械動作。這就是多模態模型相比於純粹的機器人專用模型所具備的強大之處,它能夠將對真實世界的理解融入到與你的互動中。所以最終,這種模型既能提供你所需要的使用者介面體驗,也能賦予機器人安全探索世界所必需的理解力。04 “機器人Android系統”與人形設計的價值是否意味著你們最終能夠打造出一種通用機器人領域的“Android”系統,一個能夠賦能大量機器人裝置和公司的底層作業系統?您認為人形是機器人一種好的外形設計嗎,這種形態在現實世界中是否有其存在的意義?對於未來五到七年,您預計機器人的普及規模會達到何種量級,是成千上萬,還是數百萬甚至上億?Demis Hassabis:這當然是我們正在追求的策略之一,可以稱之為一種“Android模式”,即為整個機器人領域提供一個近乎作業系統的底層。但除此之外,還有一些非常有趣的方向,比如將我們最新的模型與特定的機器人類型和設計進行垂直整合,並進行某種端到端的學習。所以,這兩種策略都非常有前景,我們也在同時推進。(關於人形設計的價值)我認為未來這兩者都會有市場。實際上,大概在五到十年前,我的看法是,我們會為不同的任務設計特定形態的機器人。而且我認為在工業領域,工業機器人肯定會是這樣,你可以根據具體任務來最佳化機器人的形態,無論是在實驗室還是在生產線上,你需要的機器人類型都會大相逕庭。但另一方面,對於通用或個人使用的機器人,要讓它們與我們的日常生活環境互動,人形形態可能就非常重要了。因為,我們身邊的物理世界顯然是圍繞人類的需求來設計的。比如台階、門廊,所有這些都是為我們自己設計的。與其去改造現實世界中的這一切,設計出一種能與我們現有世界無縫協作的機器人形態,可能會是更容易的方案。所以我認為,有充分的理由相信,對於這類任務,人形形態可能至關重要。當然,我也認為,特種形態的機器人同樣會有一席之地。(關於機器人普及的時間和規模)我確實有,並且在這個問題上思考了很久。我感覺,我們在機器人技術領域仍處於比較早期的階段。我相信在未來幾年內,機器人領域會出現一個真正令人驚嘆的“高光時刻”。但我認為,演算法還需要進一步發展。這些機器人模型所依賴的通用模型,需要變得更強大、更可靠,需要更好地理解周圍的世界。我相信這在未來幾年內能夠實現。此外,在硬體方面,關鍵問題在於,我認為我們最終會擁有數百萬台機器人來服務社會、提高生產力。但關鍵在於,當你和硬體專家交流時,他們會問:硬體發展到那個節點,才算達到了適合大規模量產的水平?因為一旦你開始投資建廠,準備生產成千上萬台特定型號的機器人,再想快速迭代更新機器人設計就變得非常困難了。所以這是一個時機問題,如果你過早地決定量產,可能六個月後就會出現一款更可靠、更出色、更靈巧的下一代機器人。如果用電腦領域的發展來類比,我們當前所處的階段,是不是有點像上世紀70年代,PC-DOS系統剛剛出現的那個時期?有這個可能。或許我們確實處於類似的早期階段,但關鍵區別在於發展的速度。我們現在用一年時間就走完了過去十年的路,所以必須進行快速迭代。可以說,現在的一年,就相當於過去的十年。05 如今的AI還不具備真正的創造力在科學領域,AI有那些最讓您感到興奮的應用前景和潛在突破,我們還需要什麼樣的模型才能實現這些突破?當前AI在科學發現的能力上還缺失那些關鍵環節?另外,從人類的角度來看,您如何定義“創造力”這一概念?Demis Hassabis: 利用AI加速科學發現並助力人類健康等事業,正是我為AI奮鬥終生的原因。我認為這是AI最重要的使命。我相信,如果我們能以正確的方式建構AGI,它將成為推動科學發展的終極工具。在DeepMind,我們的工作正是在不斷為此開闢道路。其中最著名的當然是AlphaFold,但實際上,我們已經將AI系統應用於眾多科學領域,例如材料設計、輔助控制核聚變反應堆中的電漿體、天氣預測以及解答奧數難題。這些複雜的難題,基本上用同類型的系統,再經過一些額外的微調就能解決。所以我認為,我們目前對AI潛力的探索還僅僅是冰山一角,還有很多能力尚待開發。在我看來,如今的AI還不具備真正的創造力,因為它還無法提出新的科學猜想或假設。它或許可以證明你給定的命題,但無法自己構想出全新的想法或理論。因此,我認為這恰恰是檢驗AGI的標準之一。(關於創造力的定義)我認為創造力是我們常在歷史上最傑出的科學家和藝術家身上所推崇的那種直覺的飛躍。它或許源於類比或類比推理。關於我們人類科學家如何實現這一點,心理學和神經科學領域有許多理論。但一個很好的測試方法是,給一個現代AI系統設定1901年的知識截止點,看它能否像愛因斯坦在1905年那樣提出狹義相對論。如果它做到了,那就意味著我們觸及到了非常本質的東西,或許就離AGI不遠了。另一個例子是我們的AlphaGo程序,它曾擊敗世界圍棋冠軍。它不僅贏得了比賽,還為圍棋這項運動開創了前所未有的新策略,比如在第二局下出的著名的第37手,如今已成為棋界研究的經典。但是,一個AI系統能否創造出一款像圍棋這樣優雅、精妙、富有美感的遊戲,而不僅僅是發明一種新策略呢?目前來看,答案是否定的。所以我認為,這正是真正的通用系統,也就是AGI系統所缺失的能力之一,它理應也具備這些能力。06 “博士級智能”是無稽之談很多人認為AGI將在幾年內實現,您似乎不完全認同這個觀點。能否從系統架構的理解出發,具體分析一下當前實現AGI還缺少那些關鍵環節,瓶頸究竟在那裡?與此同時,有報告和評估體係指出,大語言模型的性能正在趨同,且每一代模型性能的提升速度似乎在放緩,您認為這個說法基本屬實嗎?Demis Hassabis: 我認為這裡的根本問題在於,我們能否模仿最頂尖人類科學家所能實現的那種直覺飛躍,而不僅僅是漸進式的提升。我常說,一個偉大的科學家與一個優秀的科學家之間的區別在於,儘管兩者都具備很強的技術能力,但偉大的科學家更具創造力。他們或許能從另一個學科領域發現某種模式,並將其通過類比或模式匹配應用到自己正在研究的問題上。我相信AI終有一天能做到這一點,但目前它還不具備實現這種突破所必需的推理能力和某些思維能力。我還認為,我們目前缺乏穩定性。你常聽到我們的一些競爭對手說,現在的這些是“博士級智能”。我認為這種說法是無稽之恩。它們不是博士級智能。它們或許在某些方面具備博士水準的能力,但遠非在所有領域都能穩定地達到博士水平,而這恰恰是通用智能的定義。事實上,我們和今天的聊天機器人互動時都會發現,只要換種方式提問,它們甚至會在高中數學或簡單計數這類問題上犯低級錯誤。這對於一個真正的AGI來說是不應該發生的。所以我認為,我們距離一個能做到上述所有事情的AGI,可能還有五到十年的時間。另一個缺失的關鍵是持續學習,即系統能夠線上學習新知識或隨時調整自身行為的能力。我認為,許多這類核心能力目前仍然缺失。或許Scaling Law能幫助我們實現目標,但如果讓我預測的話,我認為我們可能還需要一到兩個關鍵的理論突破,而這大概需要未來五年左右的時間。(關於模型性能趨同和提升放緩的說法)不,我們在內部並沒有看到這種情況,我們依然保持著極快的進步速度。而且,我們看待問題的視野也更廣。你可以看看我們的Genie、Veo等模型。07 AI創作的兩個趨勢以Nano-Banana為例,這類先進的圖像生成工具不僅效果驚人,更重要的是其指令理解的精準性和結果的一致性,這是否意味著我們正在走向一個“創造力民主化”的未來,讓每個人都能輕鬆創作?在推動工具普及的同時,這些AI工具又將如何賦能頂尖的專業創作者?未來我們會進入一個完全個性化的娛樂世界,每個人都能即時生成自己想要的內容,還是社會仍然需要由創作者提供、供大家共同分享的文化產品?從文化角度看,我們是會各自沉浸在自己的虛擬世界,還是會繼續擁有共同的故事?Demis Hassabis: Nano-Banana的效果簡直不可思議。我認為很多創意工具的未來就是這樣:你只需要憑感覺與它互動,或者直接和它對話就行了。而且它們的表現會足夠穩定,就拿Nano-Banana來說,它之所以如此出色,不僅在於它是頂級的、最先進的圖像生成器,更在於它的一致性。它能精準理解並執行你的指令,在你要求改變某個部分時,能保持其他所有元素不變。這樣你就可以通過不斷迭代,最終得到你想要的效果。我認為這就是未來創意工具的形態,它指明了發展的方向,人們非常喜愛它,也樂於用它來創作。這實現了“創造力的民主化”,我認為這非常了不起。我記得小時候,為了學Photoshop,我得買很多書,照著書學習如何從圖像中移除物體、如何填充、如何羽化等複雜操作。現在,任何人用Nano-Banana都能做到,他們只需向軟體描述想讓它做什麼,它就能自動完成。(關於賦能專業創作者)未來會出現兩個趨勢。一方面是這些創作工具的普及化,讓每個人都能輕鬆上手和創作,而不必像我們過去那樣去學習極其複雜的使用者體驗和使用者介面。但另一方面,我們也正在與頂尖的電影製作人、創意人士和藝術家合作,比如我的好朋友、著名導演Darren Aronofsky。他們正在幫助我們設計新一代的工具,告訴我們需要那些功能。他和他的團隊已經在使用Veo等工具來製作電影。通過觀察並與他們合作,我們獲益匪淺。我們發現,這些工具也極大地提升了頂尖專業人士的能力和效率。那些最優秀的專業創作者,他們的生產力突然之間可以提升10倍甚至100倍。他們可以低成本地嘗試腦海中各式各樣的創意,並最終創作出理想的作品。所以我認為,這兩方面是平行不悖的。我們既在為普通使用者和YouTube博主們推動工具的普及,同時,在高端專業領域,情況也同樣如此。要用好這些工具,並獲得頂級輸出,並非人人都能做到,這本身也需要技巧,更需要頂尖創者的視野、敘事能力和獨特風格。我認為,這些工具讓他們如虎添翼,他們也非常享受這種能快速迭代創作過程的體驗。(關於未來娛樂的形態)我確實預見到一個新世界的到來。我從90年代起就以遊戲設計師和程式設計師的身份入行,所以我經常思考這個問題。我認為我們正在見證的,正是娛樂行業未來的開端,它可能會催生一種全新的內容類型或藝術形式。在這種形式中,存在著一定程度的“共同創作”。我仍然相信,頂尖的、富有遠見的創作者依然會是核心,他們將創造出引人入勝的體驗和動態的故事情節,即便使用相同的工具,他們作品的質量也會遠超普通人。因此,未來可能會有數百萬人沉浸在這些大師建構的世界裡,但同時,他們或許也能參與到這個世界某些部分的共同創造中。而那位主要的創作者,其角色更像是一個世界的“主編”。這就是我預見的未來幾年可能發生的事,而且我也很想用Genie這樣的技術親自去探索這個方向。08 AI的能源挑戰能否介紹一下您負責的另一家公司Isomorphic及其在藥物發現領域的革新性工作?這些AI發現的候選藥物預計何時能進入臨床試驗階段?在技術層面,這項工作多大程度上需要開發新的模型架構,你們是如何將機率性模型與確定性模型相結合的?此外,關於AI的能源需求問題,您認為模型和硬體的進步能否有效降低能耗?最後,請您描繪一下十年後,在AI影響下的世界圖景。Demis Hassabis: 當然可以。我還負責營運Isomorphic,這是我們基於AlphaFold在蛋白質摺疊領域的突破而分拆成立的一家公司,旨在徹底革新藥物發現的過程。當然,瞭解蛋白質的結構只是藥物發現的第一步。你可以將Isomorphic想像成一個平台,它正在建構一系列與AlphaFold功能銜接的系統,用於解決後續問題,例如設計出能夠精準結合蛋白質靶點又沒有副作用的化學分子。我認為在未來十年,我們有望將藥物發現所需的時間從數年甚至十年,縮短到幾周乃至幾天。(關於進入臨床試驗的時間點)我們目前正在搭建這個平台,並與禮來(Eli Lilly)和諾華(Novartis)等頂尖藥企建立了良好的合作關係。此外,我們也有自己的內部藥物研發項目。我預計,我們將在明年某個時間點進入臨床前階段。我們將候選藥物交付給製藥公司,由他們接手推進後續的開發。我們目前正致力於癌症、免疫學和腫瘤學等領域的研究,並與MD Anderson癌症中心等機構合作。(關於混合模型架構)這是個非常好的問題。實際上,至少在目前以及未來五年左右,我們建構的都是所謂的混合模型。AlphaFold本身就是一個混合模型。它有一個學習元件,也就是你提到的機率性部分,它基於神經網路和Transformer架構,從所有可用資料中進行學習。但與此同時,在生物和化學的許多場景中,我們並沒有足夠的資料來讓模型從零學起。因此,你還必須將一些已知的化學和物理規則內建到模型中。例如,在AlphaFold中,我們設定了原子間化學鍵的角度限制,並確保模型理解原子之間不能發生重疊等基本物理原則。理論上,模型或許也能自己學會這些,但這會極大浪費它的學習能力。因此,將這些規則作為硬性約束,效率會高得多。現在,所有混合系統的難點都在於此——AlphaGo也是一個混合系統,它有一個學習圍棋棋局模式的神經網路,上層則是一個用於規劃的蒙特卡洛樹搜尋演算法。真正的挑戰在於,你如何將一個學習系統與一個更偏向人工設計的定製化系統完美地結合起來,並讓它們高效協同工作?這其實非常困難。我認為最終的目標是,當你通過混合系統驗證了某個元件的有效性之後,你應該想辦法將這個元件的能力整合、“反哺”到學習元件中去。因為,如果能實現端到端學習,直接從原始資料一步到位地預測出最終結果,那永遠是更好的方案。所以,一旦你通過某個混合系統取得進展,你就要回頭去反思,看看能否將這一成功經驗和知識,完全融入到學習系統本身。(關於AI的能源需求問題)有趣的是,我認為這兩種趨勢是同時存在的。一方面,我們,尤其是在Google和DeepMind,極其注重提升模型的效率和性能,因為我們有大量的內部應用場景。例如,我們需要每天為全球數十億使用者提供AI Overviews服務,這就要求系統必須做到極致的高效、低延遲和低服務成本。為此,我們開創了許多技術,比如“蒸餾”,也就是用一個強大的內部大模型來訓練一個更小的模型,讓小模型模仿大模型的行為。如果你看過去兩年的進展,要達到同等性能,模型的效率已經提升了10倍,甚至100倍。那麼,為什麼總需求沒有下降呢?因為我們離AGI還很遠。這意味著在不斷提升推理服務效率的同時,我們還希望在更大規模上訓練和試驗新的前沿模型。所以,這兩個方面的情況都是真實的。但最終,從能源的角度看,我認為AI系統對能源和氣候變化等領域的貢獻,將遠遠超過它自身的消耗。AI將在提升電網系統效率、設計新材料、發現新能源等方面發揮巨大作用。我相信,在未來十年,AI在這些領域的貢獻所帶來的價值,將遠遠超過它今天所消耗的能源。(關於十年後的世界)在AI領域,十年太漫長了,有時十周就如同一個時代。但我確實認為,未來十年內我們將迎來真正的、完全的AGI。我認為,它的到來將開啟一個科學的全新黃金時代,一場新的文藝復興。屆時,我們將看到它為從能源到人類健康的各個領域帶來深遠的益處。 (數字開物)
重磅智庫報告發佈!
新華社權威快報|《回望歷史捍衛正義-世界反法西斯戰爭東方主戰場的偉大貢獻》智庫報告發佈9月5日,在紀念中國人民抗日戰爭暨世界反法西斯戰爭勝利80周年之際,中共中央黨史和文獻研究院、新華通訊社在聯合主辦的「紅廳論壇·高端對話:東方主戰場的世界意義」國際研討會上,聯合發佈《回望歷史捍衛正義——世界反法西斯戰爭東方主智庫的偉大貢獻》中智庫報告。報告全面系統闡述了中國人民抗日戰爭在世界反法西斯戰爭中的歷史地位和重大貢獻。報告共3.1萬字,分為三個部分:「銘記歷史:中國戰場是世界反法西斯戰爭東方主戰場」「永載史冊:東方主戰場的世界意義不可撼動」「以史為鑑:堅持走和平相處、命運與共的人間正道」。報告透過大量史實和資料,客觀回顧歷史、深刻總結經驗,為國際社會正確認識中國在世界反法西斯戰爭中的貢獻提供了權威參考。報告指出,在這場慘烈的世界大戰中,中國人民抗日戰爭開始時間最早、持續時間最長、付出犧牲巨大,抗擊了日本軍國主義主要兵力,不僅實現了自己國家和民族的救亡圖存,而且有力支援了其他戰場上的抵抗力量。報告認為,中國人民在極其困難的情況下,以巨大的民族犧牲,支撐起了世界反法西斯戰爭的東方主戰場。東方主戰場的偉大勝利,是中國人民的勝利,也是世界人民的勝利。這個偉大勝利,不僅徹底改變了中國的歷史命運,而且深刻影響了近代世界的歷史處理程序。報告呼籲,要堅持正確的歷史觀,堅決維護戰後國際秩序,堅定捍衛國際公平正義,堅定不移走和平發展道路,攜手建構人類命運共同體。此次報告發佈將為促進國際社會正確認識二戰歷史、維護世界和平穩定發揮積極作用。 (新華網)全文請看http://www.news.cn/politics/20250905/4490cdac7d4f437e80e29c9ca470b6b7/c.html
美學者:“美中關係將經受住當前裂痕的考驗”
美國學者馬瑞欣目前擔任賓州大學「美中關係未來」計畫主任。今年5月,他帶領一個美國學生團隊在北京、上海和杭州進行為期十天的訪問。「安全化」阻礙文化互動《南華早報》問:您和學生們這次中國行有何重要收穫?馬瑞欣答:一個重要的結論是,美中之間存在著深刻分歧,而這些分歧可能會長期持續下去。我認為,對話的目的並非掩蓋分歧,而是坦率地討論它們。我的學生們能來到中國,與多個領域的人展開對話,這件事本身就足以讓人感到適度樂觀。Q:您認為進行有意義的跨文化交流的最大障礙是什麼?答:在美中兩國能否進行必要討論的問題上,最大的障礙來自「安全化」趨勢。這種趨勢已經滲透到對話和學術交流領域,令學術界人士深感憂慮。過去幾年,美國政府不斷施壓,限制學術機構和學者赴華,限制與中國機構和學者建立良好關係。而中國政府仍對外國學生和歸國學者保持高度開放的態度。保持「對話橋樑」暢通問:有觀點稱,美國學生日益形成一種認知,即在華經歷可能不再有助於職業發展,甚至可能在國家安全領域為自己帶來風險。您認為這種觀點將如何影響中美交流與相互理解的管道?答:我對通路問題深感擔憂。身為美國人,即便從戰略競爭視角出發,如果我們不在美國體系內培養新一代了解「系統性競爭對手」的專家,這應該引發極大擔憂。我正竭盡所能解決這個問題,例如帶領學生團隊訪華。當然,他們日後並非都會從事與中國相關的職業,但必須讓更多人至少考慮這個方向,才可能有後續收穫。在此行中,我見到一位賓州大學的畢業生。他上學期在北京大學當交換生,未來一兩年將在燕京學堂學習。他走的是一條通往中國問題相​​關職業的路徑,也是30年前我和同事們很常見的職涯路徑。但值得警醒的是,這位賓大學生的經歷如今十分罕見:他所在的計畫中,美國交換生極少。1990年代至21世紀初,許多中國問題專家(包括我在內)都是透過在中國的實地經驗培養出來的。對這位學生而言,他二三十年後面臨的競爭將遠小於我這一代,這會讓他覺得當下的選擇很有價值。我們這些致力於維繫美中學術交流的人深知,我們正逆著中美戰略競爭的潮流而行。當然,我們知道自己無法逆轉這種趨勢,只能盡力讓知識生產、對話和交流的橋樑至少保持最低限度的功能。也許我們的努力能避免這些「基礎設施」被徹底拆除。待未來時機成熟、可以重啟更充分的學術交流時,我們不必從零開始。人才流動讓美受益問:由於川普政府對高等教育、聯邦研究經費和外來移民施加壓力,越來越多科學家、學者和學生正離開美國,或返回中國,或赴其他國家尋求機會。這可能產生那些長期影響?答:我認為美國當下發生的這些事令人憤慨。這些高壓政策正衝擊著一直以來讓美國真正偉大的核心,即我們在高等教育領域令人驚嘆的實力乃至主導地位,而這一地位極大地受益於包括中國在內的全球最優秀、最聰慧人才的貢獻。事實上,正因如此,我傾向於認為這些措施很多是做出一種姿態,在不久的將來就會被取消。或許我的看法天真得無可救藥,但切斷人才流動和破壞整個生態系統實在是難以理喻。問:儘管美國在宣布大規模撤銷國際學生簽證後恢復了簽證發放,但又採取行動收緊對「持有敵對態度」的社群平台篩選。這是否會加速人才從美國流失?答:我和許多學術同仁都對這消息深感憂慮。我們一致認為,美國高等院校對知識的追求因為中國學生的存在而獲益,而中國學生的存在其實也符合我們的國家利益。因此,我對川普總統撤回該聲明感到很欣慰,希望他此後數日的聲明足以抵消先前聲明對潛在「人才流失」可能產生的影響。交流推動敘事轉變問:美國政府透過競爭、國家安全等視角框定的中國形象與某些數位或文化管道呈現的中國形象之間,似乎正出現日益明顯的分歧。像是「TikTok難民」、網紅「甲亢哥」的高調中國行、DeepSeek開源模式引發的熱議等,都展現了截然不同的中國圖景。您是否認為美國的對華敘事正進入新階段?這一趨勢可能持續嗎?答:這很難斷言。如果說敘事確有轉變,我認為上述具體案例並非導致轉變的主因。相反,若要強調某個關鍵變量,那就是川普本身。他第一任期曾大力推動策略競爭態勢,但第二任期似乎不再執著於同樣的策略。但無論如何,我最重視的始終是真正的知識與深邃思想。因此,如果年輕人對中國的認知源自於某個社群平台網紅在中國遊玩的體驗,這種現象並非我想推崇的方向。它缺乏我所重視的認知深度。我最珍惜的是真實、理性且深入的交流──中美學生是基於真正的知識與探究精神,提出尖銳深刻的問題。這才是未來任何敘事與互動模式真正轉變的基礎。雖然任重道遠,卻是唯一可行之路。 (編譯/茱麗)▲中美國旗(新華社發)(參考訊息智庫)