#模型
Seedance 2.0著實恐怖了些
這個周末,字節跳動的新視訊生成模型在全網被炒得沸沸揚揚。“殺死比賽”、“效果爆炸”等AI時代已經被用爛了的詞瞬間又飄得滿屏都是。有人說,字節的Seedance 2.0可能會是繼Google的Veo 3和OpenAI的Sora 2之後的又一款革命性、里程碑式的AI視訊生成產品。正當我懷疑這些司空見慣的說法,是不是年前AI企業引流的又一次概念炒作時,知名B站UP主“影視颶風”凌晨一點發佈的一條視訊給出了一個確切的答案:Seedance 2.0的能力強到有些恐怖。01 強者,無需多言先來看看官方文件中給出的一些視訊demo:提示詞:男人@圖片1下班後疲憊的走在走廊,腳步變緩,最後停在家門口,臉部特寫鏡頭,男人深呼吸,調整情緒,收起了負面情緒,變得輕鬆,然後特寫翻找出鑰匙,插入門鎖,進入家裡後,他的小女兒和一隻寵物狗,歡快的跑過來迎接擁抱,室內非常的溫馨,全程自然對話。我對視訊和電影創作並無深刻理解,幾乎完全無法分辨這到底是AI的生成還是人類的創作。生成一些萌寵的動畫短片也是不在話下:提示詞:在“貓狗吐槽間”裡的一段吐槽對話,要求情感豐沛,符合脫口秀表演:喵醬(貓主持,舔毛翻眼):"家人們誰懂啊,我身邊這位,每天除了搖尾巴、拆沙發,就只會用那種“我超乖求摸摸”的眼神騙人類零食,明明拆家的時候比誰都凶,還好意思叫旺仔,我看叫“旺拆”還差不多哈哈哈“旺仔(狗主持,歪頭晃尾巴):"你還好意思說我?你每天睡18個小時,醒了就蹭人類腿要罐頭,掉毛掉得人類黑衣服上全是你的毛,人家掃完地,你轉身又在沙發上滾一圈,還好意思裝高冷貴族?"除此之外,“影視颶風”發佈的視訊中還展示了蜜雪冰城的雪人大戰外企咖啡店機器人、奧特曼打怪獸、功夫高手以一敵多、女運動員長跑和拳擊的商業短片等場景,伴隨著流暢的視覺效果和毫無破綻的多角度運鏡。發佈僅僅兩天,就已經讓各大專業影評人讚不絕口、讓普通使用者忘記了AI視訊生成的邊界。在字節發佈的Seedance 2.0文件中,研究團隊用很克制的語言描述了驚人的技術突破:物理規律更合理、動作更流暢、多模態參考能力支援文字、圖片、音訊和視訊的自由組合。針對以往視訊生成的難題,Seedance 2.0也做了針對性的最佳化:使用者可以通過上傳參考視訊實現高難可控的運鏡和精準的動作復刻,在一致性提升的基礎上實現視訊延長、音樂卡點、多語言配音、創意劇情補全等使用功能。若是從眼光將3D世界轉向2D動畫,Seedance 2.0則能給出更多驚喜:它能將漫畫分鏡自動轉變為動畫,能識別2D角色的眼睛、頭髮、服飾為獨立可動的圖層,避免早期AI將平面圖像誤判為偽3D的問題。一時間,AI圈沸騰了:民用級視訊生成即將跨越臨界點,技術執行問題已經被解決,擺在人們面前的已經是創作決策問題。不過,技術的高光時刻,背後往往伴隨著陰影。02 令人不安的“巧合”見識過Seedance 2.0的強大後,“影視颶風”視訊的後半段卻給出了一個奇怪的案例:出鏡者Tim將自己的臉部照片和提示詞一併上傳給模型,模型自然返回了一段以他為主角的AI科普視訊。可是,視訊中出現的不僅有他的形象,還有和他幾乎一樣的聲音。而在一段實景視訊中,背景中的建築更是與他的公司大樓極其相似。更詭異的是,評論區裡還有一位測試者,同樣只提供了臉部照片並要求模型生成夜跑場景。結果畫面中的人物,穿著這位測試者上周剛買的跑鞋,連顏色和鞋款版型都分毫不差,儘管他沒在提示詞中透露任何相關資訊。作為技術愛好者,我堅定認為這不是什麼“靈異現象”。於是,我馬上去仔細讀了一遍字節發佈的文件,官方的解釋是這樣的:模型展現出了此類能力可歸因於“多模態參考”和“一致性提升”。“多模態參考”指模型能夠同時解析圖像、音訊等異構資料,實現跨模態特徵對齊。“一致性提升”則依賴對海量視訊中人物、物體、場景共現規律的統計學習。從純理論角度上來說,模型能夠生成與Tim和那位測試者極其相像的視訊並非不可能,因為它在問世之前已經見過足夠多“人臉+聲音+服飾+環境”的組合樣本。不過,理論層面上的合理恐怕無法消解個人體驗的不適。如果AI真的能在毫無明確提示的情況下猜中跑鞋,則必然是獲取到了購買記錄等相關資訊;能夠準確模擬聲音和建築,則證明它已經多次欣賞過Tim拍攝的相關視訊。這種精準雖然令人瞠目結舌,但也早已超越統計機率的舒適區間,帶給人們一個不安的猜想:我們的生活,是否早已成為訓練資料中的一部分?答案是肯定的。因為抖音的使用者服務協議中早已寫明:“全球範圍內、免費、非獨家、可多層次再許可的權利”這個表述,或多或少體現出了一定的模糊性。我們無從得知這裡面是否包括AI模型的自動化訓練,但可以確信的是,人們的生活切片正在被用於建構“複製自己”的生成模型。評論區裡充斥著不滿的呼聲:“誰還敢在社交平台分享生活?”這並非過度恐慌,而是人們潛意識中資料主權意識開始逐漸覺醒。我們早已習慣技術帶來的便利,卻總是無視資料控制權的悄然流失。03 創作的末路:創意被演算法稀釋Seedance 2.0突如其來的技術衝擊,受到影響的可遠遠不止人們的日常生活。由此變得支離破碎的,還有創作者的精神世界。短短9分鐘的視訊,評論區卻體現出人生百態。一位自由畫師寫下留言:“我被迫使用AI工作流進行創作,卻絲毫感受不到任何快樂,因為我只是在重複生圖、拼接、再生圖的流程。在我的認知中,它根本不是我的作品,因為我沒有參與任何細節的推導。”這位畫師懷念的不僅是繪畫技術本身,更是人們參與藝術創作過程時身臨其境的感受。每一處細節的反覆推敲和修改、委託人收到作品時表現出的認同和喜愛、自我價值的實現,這些充分體現藝術創作內在價值的時刻,不該由“提示詞→生成→篩選”的流程所替換。而作為程式設計師,我也深有體會。剛上大學接觸專業課的那段時間,一個課程設計會讓全班大部分同學焦頭爛額。從資料結構,到運行邏輯,再到UI介面設計,初出茅廬的新生們少則幾周,多則一個月,才能完成一個基礎功能完備,介面談不上多美觀的小應用。那種運行上百遍,最後一次終於不報錯成功運行的釋懷感,我已經很久沒有感受過了,因為這些任務在AI眼裡,都是僅需幾分鐘即可完成的東西。科技進步利多了人類,但也讓以前需要經年累月積累的專業壁壘加速瓦解。無論是那個行業的從業者,看到自己辛苦學了多年的知識和技術被輕輕鬆鬆實現和超越,都難免因為“努力貶值”而感到失落。更深層的憂慮來自於行業結構的極端化。米哈游創始人蔡浩宇曾經給出過一個有點誇張的預言:AI時代,遊戲創作將只屬於兩類人——0.0001%的頂級專業團隊能創造出前所未有的遊戲作品,99%的業餘愛好者可以根據自己的喜好自由創作遊戲。其餘的開發者,建議轉行。這個預言能否成真並不重要,但Seedance 2.0的創作能力與之描述的如出一轍。當AI能夠輕鬆復刻電影等級的運鏡和情緒演繹,創作就會被演算法系統性地結構,而不再是人類獨有的優勢。強大的工具已經發到了每個人的手上,但面對“費半天勁做出來的東西還不如AI”的質問時,我卻不知道該如何回答。04 從“技術改變生活”到“生活改變技術”開篇那句“技術執行問題已經被解決,擺在人們面前的已經是創作決策問題”,至此得以解釋。人們已經無需擔心“AI能不能做出視訊”,只需要判斷“那條AI生成的視訊更好”,再把選擇反饋給AI,即可完成多模態資料的流動閉環。在無數次循環往復中,AI不僅僅能生成內容,還將學會定義何為“優質創意”、篩選出適合指定風格視訊的使用者。如此一來,人類就從創作的主體變成了被演算法評估的客體。我很認同評論區的一句話:當AI能夠輕鬆實現所有人的“創意”,甚至是復刻人類自己,創意就會失去價值,個體將反過來變成AI挑選的對象。技術不再服務於人,而是重構人的價值觀,這種虛無感實在有些令人不寒而慄。Seedance 2.0的發佈實則是AIGC技術從工具向價值的一次越界嘗試。它不再侷限於按部就班地執行使用者指令,而是開始試圖理解和復現人類創作中難以用言語精準表達的特質,像是情緒的變化、風格的延續或是跨模態的隱喻關聯。這種能力的躍遷值得所有人肯定,但也請不要忘記,躍遷所需要的能量正是來自於我們日常生活中的點點滴滴。“技術改變生活”,這是一句數字時代以來流傳了很久的樂觀敘事。但Seedance 2.0的技術演進似乎在暗示:生活正在以我們難以察覺的方式改變著技術。面容、聲音、消費記錄和社交痕跡都開始成為演算法的養料,但資料主權意識和制度保障尚未完全建立。技術並無善惡之分,但資料的流向決定了權力的歸屬。人類是否還有自己資料的最終解釋權,取決於AI時代“創作”這個詞的定義:它可以是演算法對生活的精準復刻,也可以是人類意志的無限延伸。Seedance 2.0正在讓所有人都直面一個根本問題:是否願意用生活的全部細節,來交換技術的無限便利?對如此強大的視訊生成能力,我們似乎沒有拒絕使用的理由。而面對如此快速的技術演進,不知道我們是否還能有拒絕使用的權利。 (錦緞)
“強到可怕!”字節Seedance2.0灰度測試爆火,黑悟空老闆:AIGC的童年結束了
全模態素材都能參考,鏡頭切回來還保持原樣。智東西2月9日報導,2月7日,字節跳動AI視訊生成模型Seedance2.0開啟灰度測試,該模型支援文字、圖片、視訊、音訊素材輸入,可以完成自分鏡和自運鏡,鏡頭移動後人物特徵能夠保持一致。字節Seedance團隊釋放出的飛書文件中介紹到,Seedance2.0可精準還原參考圖的畫面構圖、角色細節,可以復刻參考視訊的鏡頭語言、複雜的動作節奏和創意特效。其所生成的視訊支援平滑延長與銜接,可按使用者提示生成連續鏡頭。Seedance2.0的編輯能力同步增強,支援對已有視訊進行角色更替、刪減、增加。▲女士優雅地曬衣服(來源:Seedance官方)在海外社交平台X上,Seedance2.0的討論熱度居高不下。一位學習了7年數字電影製作的網友在體驗後說,這個模型(Seedance2.0)是唯一一個讓他感到害怕的模型,電影行業的所有崗位幾乎都要消失了。90%他所學習到的技能,Seedance2.0都能實現。▲數字電影製作學習者評論(來源:X)產品設計師、使用者體驗(UX/UI)設計師Linus Ekenstam看完Seedance2.0的案例後說:“它會讓網際網路崩潰,百分之百。 ”▲產品設計師評價(來源:X)遊戲科學創始人兼CEO、《黑神話·悟空》製作人馮驥在體驗了Seedance2.0後還專門發了微博,稱讚該模型為“當前地表最強的視訊生成模型。”並且很慶幸今天的Seedance2.0來自中國。但他也從其中看出了假視訊氾濫與信任危機,因為“逼真的視訊將變得毫無門檻。”▲馮驥微博(來源:新浪微博)但是Seedance2.0也並不完美,在字節Seedance團隊發出的飛書文件《Seedance2.0使用手冊》中,有使用者在評論區中反映,使用同樣的提示詞和素材,生成的視訊在精細化控制上卻不太行。▲飛書文件使用者評論(來源:飛書)並且在一個官方案例中,Seedance2.0生成視訊的中文字幕還是會出現老生常談的中文亂碼情況。▲官方案例錯誤(來源:飛書)這個模型真的有一眾網友說得這麼“恐怖”嗎?智東西第一時間體驗了Seedance2.0,Seedance2.0所生成的視訊畫風、場景和人物的一致性較高,不會發生畸變現象。模型可以根據其自己對劇情的理解加入運鏡和剪輯,聲效上也可以實現提示詞和參考素材的要求。但在提示詞較為簡單或模糊的情況下,Seedance2.0在動畫人物的面部情感表達上還有些僵硬。體驗地址:https://jimeng.jianying.com/ai-tool/home01.能自動加入運鏡全模態素材均可參考2025年12月16日,Seedance1.5 pro模型發佈,在音視訊聯合生成、音畫同步、多語言、運鏡以及語言理解方面進行了提升。Seedance2.0預計在明天正式發佈,目前在即夢AI官網可以充值會員付費體驗,在小雲雀App中則有三次免費體驗機會。Seedance2.0支援文字、圖片、視訊和音訊作為參考素材輸入。使用者可以同時給它最多9張圖片、3段視訊和3段音訊作為參考,指定動作、運鏡、人物、場景、特效、聲效等,Seedance2.0就可以根據參考材料和提示詞要求,合成視訊。但為了保護隱私,Seedance2.0目前暫不支援上傳包含寫實真人臉部的圖片素材。Seedance2.0可精準還原參考圖的畫面構圖、角色細節,還支援鏡頭語言、複雜的動作節奏、創意特效的復刻。其所生成的視訊支援平滑延長與銜接,可按使用者提示生成連續鏡頭。Seedance2.0的編輯能力也同步增強,支援對已有視訊進行角色更替、刪減、增加。如果沒有參考素材也沒關係,只需要一段簡單的提示詞,該模型就可以根據所描述的情節自動規劃分鏡以及運鏡,還能在劇情需要的地方實現慢動作、鏡頭搖晃等效果。在一致性上,Seedance2.0在生成視訊的同時就可以生成匹配的音效和配樂,並且支援口型同步和情緒匹配。Seedance2.0所生成視訊中的角色和場景還可以在多個鏡頭之間保持一致性,使用者可以用該模型生成一段包含多個鏡頭切換的完整片段。02.體驗:人物場景一致性高汗水灑落可以“以假亂真”智東西上手體驗了Seedance2.0模型,主要考察模型的自運鏡、角色場景一致性和角色替換方面的能力。Seedance2.0所生成的視訊畫風、場景和人物的一致性較高,不會發生畸變現象。模型可以根據其自己對劇情的理解加入運鏡和剪輯,聲效上也可以實現提示詞和參考素材的要求。但在提示詞較為簡單或模糊的情況下,Seedance2.0在動畫人物的面部情感表達上還有些僵硬。首先,我們輸入提示詞:特寫,焦距50mm,扎馬尾的女生坐在窗邊,微笑時有梨渦,在咖啡廳的桌面上的筆記本上寫著什麼,偶爾有思考的停頓,背景虛化呈現,咖啡館的木質桌沿,柔光打在面部,突出輕鬆的氛圍,咖啡廳中放著鋼琴曲。Seedance2.0生成的視訊如下:▲咖啡廳女孩生成片段(來源:智東西體驗)在生成速度上,Seedance2.0生成一段10秒的視訊需要5分鐘左右。從視訊的畫面上來看,在提示詞沒有說如何運鏡的情況下,該模型自動在開頭加了一個漸進的運鏡,讓畫面劇情更加自然和流暢。在漸進的過程中,畫面中的人物、場景都沒有發生畸變,保持了一致性。Seedance 2.0也可以很準確地還原國漫風,我們上傳了一張國風動漫角色圖,要求Seedance2.0參考圖片,生成一段人物自述片段。▲國風參考圖(來源:Seedance2.0)Seedance 2.0生成的視訊就像是某個遊戲的過場CG動畫,視訊的畫風和人物特點都與素材圖片一致,隨風飄動的絲帶和花瓣邊緣輪廓清晰,運動軌跡合乎常理,人物的嘴型和台詞也可以對得上。但是,在人物情緒的表達上,視訊中人物的面部肌肉沒有明顯的變化,情緒表達不夠飽滿。▲國漫生成片段(來源:智東西體驗)最近,一個韓國AI小狗接受採訪的視訊非常火,我們將視訊截圖發給Seedance2.0,讓它將原圖中的小狗換成小貓。▲AI小狗視訊截圖(來源:小紅書)可以看到,Seedance2.0生成的視訊很完整地保留了參考素材的風格,給小貓穿上了睡衣,並且讓小貓雙手張開,並不是簡單地換頭,小三花貓沒有被睡衣覆蓋的肚子部分也還原了真實小貓崽肚子的質感。而且,在音訊上,Seedance2.0也精準地實現了提示詞中所說的25歲女記者和小孩的聲線。▲AI小貓生成片段(來源:智東西體驗)在X上,自媒體博主冰河用Lovart的Skill生成分鏡故事板,直接複製到Seedance2.0中,他說該模型所生成的視訊比他用ComfyUI做的還細緻。▲自媒體博主冰河製作視訊片段(來源:X)AIGC藝術家DynamicWang用Seedance2.0製作了一個模仿Nike品牌廣告風格的短片,短片中共出現了四位不同族裔的女性,每一位角色的身材和肌肉線條都很符合其所進行的運動的標準,且鏡頭角度變動後,角色的臉部特徵依舊保持一致。短片中的運鏡也十分自然,沒有拼接痕跡,慢動作、角度移動的位置都很準確,符合劇情需要。從第一位體操女孩流暢的翻轉跳躍可以看到,Seedance2.0直接攻破了“AI生成不了體操視訊”這個難題。拳擊女生和跑步女生的汗水以及游泳女生濺起的水花,都沒有了此前AI生成的“黏膩感”。在小雲雀App中,有不少使用者都上傳了自己用Seedance2.0生成的視訊片段。有李小龍對戰日本武士:▲使用者上傳案例(來源:小雲雀App)真人版七龍珠:▲使用者上傳案例(來源:小雲雀App)還有仙俠竹林對決:▲使用者案例(來源:小雲雀App)03.結語:Seedance2.0降低表達門檻但提高了對創作者的敘事能力要求從各路大神的體驗、官方案例以及智東西自己的體驗視訊看下來,Seedance2.0最突出的就是運鏡和剪輯能力以及人物和場景的一致性。但其在情感表達的細膩度、中文文字的呈現等方面仍有提升空間。從這一點看,或許Seedance2.0還不足以徹底改變影視界,但Seedance2.0的出現,無疑降低了專業表達的門檻,讓更多人有工具可以將想法可視化。同時,此類AI視訊製作模型也可能加劇內容市場的同質化競爭,並對創作者的原創性、審美和敘事能力提出更高要求。 (智東西)
80% 的 App 將會消失:對話 OpenClaw 創始人 Peter Steinberger
在一個看似平凡的周二,GitHub 上的一個倉庫以令人顫慄的速度引爆了全球開發者社區——160,000 顆 Star,幾乎在一夜之間達成。這個項目就是OpenClaw——當然,這已經是它的第三個名字了。它最初被稱為Clawdbot,隨後在法律糾紛的壓力下被迫更名為Moltbot,最終才定名為 OpenClaw。但這番波折絲毫沒有阻擋它的爆發,反而讓它顯得更加頑強。當大多數人還在爭論如何通過 API 呼叫雲端大模型時,OpenClaw 的創始人Peter Steinberger已經向世界展示了一種截然不同的未來:一個不需要雲端、不需要訂閱、甚至不再需要複雜介面的“本地智能時代”。這個 Agent 不僅僅是一個聊天框,它更像是一個潛伏在你電腦裡的“幽靈”,擁有接管你滑鼠、鍵盤,甚至控制你特斯拉汽車和智能家居的最高權限。最近著名的訪談節目 Y Combinator 與Peter進行了一場深度的對話,在這場深度對話中,Peter 向我們揭示了 OpenClaw 爆紅背後的頓悟時刻,以及他那套足以顛覆當前 AI 行業邏輯的“逆向哲學”。同時Peter說了一句 “80% 的 App 走向消亡!”1. OpenClaw 是什麼?OpenClaw 是一個開放原始碼的個人 AI 智能體(Agent)。核心特性:與大多數運行在雲端的 AI 不同,OpenClaw 直接運行在使用者的本地電腦上。形態:它被描述為一個居住在你電腦裡的“幽靈”或實體,能夠完全接管和控制你的滑鼠、鍵盤以及本地檔案系統。熱度:該項目在 GitHub 上極其火爆,短時間內獲得了超過 16 萬顆 Star,社區甚至衍生出了讓機器人之間互相交流的項目(如 Maltbook)。2. 它有什麼用?由於在本地運行且擁有系統級權限,OpenClaw 的能力遠超雲端模型(如 ChatGPT):全能控制:它能做任何人類通過電腦能做的事。不僅限於處理文字,還能控制硬體,例如連接並控制特斯拉汽車、Sonos 音響、智能燈光,甚至調節智能床的溫度。創造性解決問題:它具備極強的“程式碼生成”與“問題解決”能力。訪談中提到的例子是:它能自動識別未知的音訊檔案格式,在本地搜尋工具(如 ffmpeg)進行轉碼,利用發現的 API 金鑰進行雲端轉錄,並最終回覆使用者——這一切都是在沒有預先程式設計的情況下,Agent 自主規劃完成的。群體智能協作:未來的 OpenClaw 不僅服務於個人,還能實現“機器人對機器人(Bot-to-Bot)”的互動。例如,你的訂餐機器人可以直接與餐廳的機器人協商預訂,甚至僱傭人類在現實世界中排隊。3. 為什麼 80% 的 App 會消失?Peter 提出了一個激進的觀點:只要是僅僅用於“管理資料”的 App,都會被取代。邏輯:目前的 App(如 MyFitnessPal、待辦事項軟體)本質上是資料的輸入和展示窗口。Agent 的替代方案:健身/飲食:Agent 通過攝影機看到你在吃漢堡,會自動記錄熱量,或者自動調整你的健身計畫增加有氧運動,你不需要手動打開 App 輸入。待辦事項:你只需口頭告訴 Agent 提醒某事,它就會自動管理,你不需要關心資料存在那個 App 裡。結論:只有那些真正依賴特定硬體感測器的 App 可能會存活,其餘的資料管理類需求將由 Agent 通過自然語言互動統一接管。4. 關於隱私與資料主權OpenClaw 強調資料的所有權歸使用者所有:本地儲存:所有的記憶(Memories)都以Markdown 檔案的形式儲存在使用者的本地硬碟上,而不是被鎖定在科技巨頭(如 OpenAI)的雲端伺服器裡。資料孤島問題:Peter 認為雲端模型公司試圖建立資料護城河,使用者很難匯出自己的資料。而本地 Agent 打破了這一點,使用者可以隨時查看、修改甚至加密這些檔案。靈魂檔案(Soul.md):Peter 提到他建立了一個不對外開放原始碼的soul.md檔案,裡面定義了 AI 的核心價值觀、性格和互動原則,這讓 AI 擁有獨特的“靈魂”且保護了創造者的隱私設定。5. 逆向的開發哲學Peter 在開發 OpenClaw 時採取了非常“反主流”的技術路線:拒絕 MCP(模型上下文協議):行業內(如 Anthropic)正在推行 MCP 標準,但 Peter 認為這太複雜且沒必要。他堅持使用CLI(命令列介面)。理由:機器人本質上非常擅長使用 Unix 系統和命令列。CLI 簡單、高效且擴展性強,不需要專門為機器人發明一套新協議。開發環境:他不使用複雜的 Git Worktrees 或 IDE 的雲端同步功能,而是簡單粗暴地在多個終端窗口中平行運行多個程式碼庫副本(Clone)。他認為保持文字同步和簡單的檔案結構比複雜的 UI 工具更高效。以人為本的工具:他的核心邏輯是:給機器人提供人類喜歡用的工具(如 CLI),而不是發明只有機器人能用的複雜協議。「結尾」OpenClaw 的崛起,本質上是對“雲端中心化”思維的一次強力回擊。在 Peter 的願景裡,AI 不應該是巨頭手中昂貴的黑盒,而應該是每個人硬碟裡那一堆觸手可及、完全透明的Markdown 檔案。當我們不再需要打開幾十個 App 去打理生活,當機器人開始像人類社會一樣進行分工協作,當我們的資料主權重新回到自己手中,人機互動的定義將被徹底改寫。這場變革沒有華麗的 UI,只有高效的 CLI(命令列)和無處不在的邏輯推理。或許,80% 的 App 確實正在走向黃昏。而在黃昏之後,一個以本地為中心、由智能體驅動、資料完全自主的新紀元才剛剛開始。OpenClaw 已經為我們打開了一扇窗,至於窗後的未來如何建構,球現在回到了我們每一位建構者的腳下。 (The AI Frontier)
GPT-5.3-Codex 發佈:首個自我訓練的模型
今天,可算是又炸了一輪啊……讓不讓人睡覺了!就在過去一小時內,OpenAI 發佈了 GPT-5.3-Codex,Anthropic 發佈了 Opus 4.6(100萬 context)Claude Opus 4.6 發佈,跑分霸榜,價格不變。兩顆重磅炸彈,幾乎同時落地。建立在這些模型之上的 Agent 們,接下來怕是要起飛了。而就在 Anthropic 放出 Claude Opus 4.6 的同一天,OpenAI 緊跟著扔出了 GPT-5.3-Codex,號稱迄今為止最強的 agentic coding 模型。Sam Altman 本人也第一時間發了推:GPT-5.3-Codex 來了!最強編碼性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。任務執行中可即時引導,工作過程中提供即時更新。更快!相同任務的 token 消耗不到 5.2-Codex 的一半,每個 token 的速度還快了 25% 以上!電腦使用能力也很強。那這個 GPT-5.3-Codex 到底強在那呢?且往下看。自己訓自己GPT-5.3-Codex 有一個很「離譜」的特點:它參與了自己的創造過程。OpenAI 團隊在訓練過程中,就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說,這個模型幫著把自己「生」出來了。OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。它不僅能排查基礎設施問題,還能追蹤訓練過程中的模式變化,對互動質量做深度分析,提出修復建議,甚至為研究員建構可視化應用來精確理解模型行為的差異。工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。當出現影響使用者的邊界情況時,團隊成員直接讓 Codex 去定位 context 渲染的 bug,排查快取命中率低的根因。在發佈期間,GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰,保持延遲穩定。有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道,做出了比標準儀表盤工具豐富得多的可視化結果,然後和 Codex 一起分析,三分鐘內就從數千個資料點中提煉出了關鍵洞察。全面屠榜GPT-5.3-Codex 在多個基準測試上刷新了紀錄:SWE-Bench Pro 拿下 56.8%,這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同,SWE-Bench Pro 覆蓋了四種程式語言,更抗資料污染,也更貼近工業場景。GPT-5.2-Codex 是 56.4%,GPT-5.2 是 55.6%。Terminal-Bench 2.0 達到 77.3%,遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。OSWorld-Verified 拿下 64.7%,而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準,這個提升幅度可以說是「斷崖式領先」了。GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估,衡量模型在 44 個職業的知識工作任務上的表現,包括做簡報、處理電子表格等。網路安全 CTF 挑戰 達到 77.6%,GPT-5.2-Codex 是 67.4%。SWE-lancer IC Diamond 拿到 81.4%,超過 GPT-5.2-Codex 的 76.0%。而且值得注意的是,GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省,這才是真本事。不只是寫程式碼GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。OpenAI 稱:從寫程式碼的 agent,變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作:debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域,能幫你做幻燈片、分析電子表格中的資料。OpenAI 結合了前沿編碼能力、美學改進和壓縮能力,做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。為了測試長時間運行的 agentic 能力,他們讓 GPT-5.3-Codex 建構了兩款遊戲:一個賽車遊戲的第二版和一個潛水遊戲,使用的只是通用的跟進提示,比如「fix the bug」或「improve the game」,GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。在網頁開發方面,GPT-5.3-Codex 也比前代更懂你的意圖。簡單或不夠詳細的提示,現在會默認生成功能更完善、預設值更合理的網站,給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁,GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀,還會做一個自動輪播的使用者評價元件,而不是只放一條。開箱即用的完成度明顯更高了。邊幹活邊對話隨著模型能力越來越強,瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。GPT-5.3-Codex 在這方面做了一個關鍵改進:互動式協作。以前你給 Codex 一個任務,然後等它給你最終結果。現在不一樣了,GPT-5.3-Codex 會在工作過程中頻繁給你更新,讓你即時瞭解關鍵決策和進展。你可以隨時提問、討論方案、調整方向,而不會丟失上下文。它會告訴你它在幹什麼,回應你的反饋,從頭到尾都讓你參與其中。更像是和一位同事協作,而不是給一台機器下命令。在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。首個「高能力」安全評級GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型,也是他們首個直接訓練來識別軟體漏洞的模型。雖然沒有確鑿證據表明它能端到端地自動化網路攻擊,但 OpenAI 採取了預防性措施,部署了迄今最全面的網路安全安全端,包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。因為網路安全天然是雙重用途的,OpenAI 採取了「基於證據、迭代推進」的方法,加速防禦者發現和修復漏洞的能力,同時減緩濫用。具體措施包括:推出 Trusted Access for Cyber 試點項目,加速網路防禦研究。擴大 Aardvark(安全研究 agent)的私有 beta 測試,作為 Codex Security 產品套件的首個產品。與開源維護者合作,為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描,上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上,OpenAI 還承諾投入 1000 萬美元的 API 額度,用於加速網路防禦,特別是針對開放原始碼軟體和關鍵基礎設施系統。可用性GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放,覆蓋 Codex 可用的所有平台:應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。速度方面,比 GPT-5.2-Codex 快了 25%,token 消耗則不到前代的一半。GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。方向變了OpenAI 在文章最後說到:GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。最初聚焦於成為最好的 coding agent,現在已經演變成了一個更通用的電腦協作者,擴展了誰能建構以及用 Codex 能做什麼的邊界。同一天,Anthropic 發 Opus 4.6,OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽,已經進入白熱化了。cli 中也已經能用了:而方向也越來越清晰:不是讓模型寫更多程式碼,而是讓模型用程式碼去搞定一切。而另一個值得注意的是:GPT 5.3 Codex 今日正式發佈,而數小時前同時發佈的還有人工智慧代理平台 Frontier。這種發布周期的縮短意味著什麼呢?OpenAI 在近 6 個月內發佈了 5 個主要版本/更新,而此前 15 個月總共才只發佈了 7 個版本。對於日益複雜的模型,根據 OpenAI 自己的發佈公告,越來越多地使用#AI生成的程式碼來建構,這要麼是因為真正的功能程式碼開發改進而帶來的速度提升,要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。這次的 GPT-5.3-Codex,可還是參與了自己的訓練過程的……有意思。 (AGI Hunt)
首次證實!嫦娥六號最新發現刷新認知
月球研究“時間標尺”革新了。基於嫦娥六號月背樣品,來自中國科學院地質與地球物理研究所等單位的研究團隊結合遙感圖像,成功修正沿用數十年的月球撞擊坑定年模型,首次證實月球正面與背面的隕石撞擊頻率基本一致,並揭示月球早期撞擊事件呈平滑衰減趨勢,而非此前假說中的劇烈波動。相關研究成果5日發表於《科學進展》雜誌。月球背面高程影像圖。岳宗玉團隊繪圖在這項研究中,研究團隊結合高畫質遙感圖像,系統統計了嫦娥六號著陸區及整個南極-艾特肯盆地的撞擊坑密度,並整合了包括阿波羅計畫、月球號、嫦娥五號在內的所有歷史樣品資料,建構出全新的月球撞擊坑年代學模型。結果顯示,月球背面的撞擊坑密度資料,完美落在基於正面樣品建立的模型置信區間內。“這表明,月球整體遭受的隕石撞擊通量在正反兩面是均勻的,從而為建立全球統一的月球‘時間標尺’奠定了堅實基礎。”論文第一作者、中國科學院地質與地球物理研究所研究員岳宗玉說。更引人注目的是,新模型針對月球早期撞擊歷史的爭議給出了新的答案:對比分析顯示,月球南極-艾特肯盆地的年齡資料,明顯偏離了認為撞擊流量曾突然變化的“鋸齒狀模型”或“晚期重轟擊”假說。研究支援月球早期的撞擊頻率是一個光滑快速衰減的過程,而非經歷突發性的“轟炸”事件。岳宗玉表示,這項研究從根本上更新了我們對月球撞擊歷史的理解,嫦娥六號樣品的關鍵價值得以彰顯,將為未來月球乃至太陽系天體的年代學研究提供更精確的標尺。 (科技日報)
歷史性一刻!恭喜阿里!
就在剛剛,義大利米蘭傳來超級重磅消息。台北時間2026年2月5日,國際奧委會正式宣佈:奧運史上首個官方大模型橫空出世!國際奧委會主席考文垂,現場為我們中國的技術點贊!因為驅動這個奧運“大腦”的核心技術,正是來自阿里巴巴的千問大模型!考文垂表示:得益於千問大模型的技術支撐,2026米蘭冬奧會展現了奧林匹克運動的智能化未來,將成為史上最智能的一屆奧運會。可能有人會問,全球那麼多科技巨頭,為什麼奧委會最終要把這項開創歷史的“超級工程”交給我們?僅僅是因為性價比嗎?絕對不是!隨著核心細節的披露,全世界都看懂了,這背後是兩項無可替代的硬核實力。第一,是經歷過“地獄級”實戰考驗的穩定性。奧運會是全球數十億人圍觀的直播,技術容錯率是0!而在高並行流量抗壓這件事上,中國技術早就練就了“金剛不壞之身”。無論是“雙十一”的交易洪峰,還是春運的搶票壓力,阿里的雲端運算技術早就證明了自己。奧委會很清楚:把後台交給中國雲,就是兩個字:放心!第二,是真正“讀懂”世界的智能化能力。這屆冬奧會被稱為史上“最智能”的一屆。首先是溝通零障礙。基於千問的多語言能力,全新的“奧運AI助手”讓全球代表團和觀眾都能用母語提問,從比賽規則到後勤調度,AI瞬間給出精準答案,徹底打破了語言的隔閡。其次,是極致的視覺體驗。冬奧會轉播有個老難題,雪地太白、紋理太單一,傳統技術很難捕捉高畫質細節。但這次,阿里雲通過AI增強特效技術,硬是在漫天風雪中實現了超高精度的場景重建。大家在電視機前,能看到比現場更清晰的“子彈時間”特效,運動員在空中的每一個極速翻轉,都被完美定格!這也是為什麼考文垂主席會給出如此高的評價,她說:“過去,我們通過衛星連接世界;今天,我們通過阿里巴巴的雲和AI連接世界。”從2008年北京奧運會我們努力向世界展示自己,到今天世界主動擁抱中國技術。這一刻,我們不僅贏得了合作,更贏得了全球的尊重。米蘭冬奧會,中國健兒在賽場拚搏,中國科技在幕後護航。這,就是屬於我們的中國排面! (王晶華說AI)