#思考
當 AI 學會“看世界”,會發生什麼?|李飛飛談 AI 的下一個十年
過去幾天,全球 AI 圈被一篇文章刷屏。11 月 10 日,史丹佛教授、ImageNet 奠基人李飛飛在個人 Substack 發佈長文《From Words to Worlds》,隨後國內媒體連夜翻譯解讀,稱這是 AI 下一個十年的路線宣言。在這篇萬字長文中,李飛飛拋出一個核心判斷:今天的 AI,能言善辯卻缺乏經驗,知識淵博卻而根基不牢。它們只是黑暗中的文字匠(wordsmiths in the dark)。(李飛飛博士對當前大模型為代表的 AI 技術核心觀點)她指出,大模型最強的能力在語言,但 AI 真正的下一跳不在語言裡,而在世界裡,她稱之為空間智能(Spatial Intelligence)11 月 17 日的播客對話中,她進一步闡述:過去十多年,她用 ImageNet 幫機器看清圖像;今天,她和團隊在 World Labs 通過世界模型,讓 AI 在三維環境裡感知、預測和行動。如果 AI 真能學會看世界,會怎樣?不只是回答問題,不只是生成一段文字,而是在家裡、工廠、醫院、城市道路中自己找路、自己判斷風險、自己規劃動作。到那時,被改變的不只是演算法,而是我們的工作方式、城市基礎設施和很多人的職業路徑。從只會說話到看懂世界,AI 正在跨進下一代邊界。第一節|AI 會說不會動,差在那?大模型會說話,但它真的理解世界了嗎?李飛飛用一個簡單測試說明問題:“你拿一個模型,讓它跑一段關於幾個辦公室房間的視訊,然後讓模型數椅子的數量,這是一個蹣跚學步的孩子都能做到的事情,而 AI 做不到。”而這正是她在機器人實驗室多年觀察後的結論。眼下的 AI 系統,在語言和圖像生成上看起來已經全能,但只要進入現實世界,它就暴露出一個根本性短板:缺少空間感知能力。李飛飛認為,我們的大模型看似聰明,但它根本不知道物體的距離、方向、位置,也無法預測簡單的物理變化。它只能用語言去描述,而無法真正看懂場景、理解關係,更別說介入互動。她在史丹佛從事機器人研究十多年,發現 AI 想要進入現實生活,不只是增加模型參數,而是必須補上這塊現實感知的能力。她稱這種能力為空間智能(Spatial Intelligence)。這是人類智能和 AI 當前最大差距所在,也正是李飛飛認為 AI 下一個十年必須突破的新起點。第二節|世界模型:讓 AI 學會看世界今天的大模型像是學霸在考試,卻不是生活中的高手。在她看來,人類理解世界,不只是靠語言,更多是靠對空間的感知、對動作的預判、對環境的直覺。語言只是我們交流的工具,不是我們認知世界的全部。那AI該怎麼走下去?她提出一個核心概念:世界模型(World Model)。簡單說:語言模型是會說話的大腦,世界模型是能動起來的大腦。在李飛飛的定義中,世界模型可以讓人通過提示建立任何世界,並在其中自由互動:瀏覽、行走、拿起物體、改變事物、進行推理。比如:給模型一個“臥室”這個詞,它不是畫出一張圖,而是生成一個你可以進入、走動、甚至躺在床上的虛擬臥室你說“把水壺從桌子上移到灶台上”,它知道水壺在那,知道怎麼移動它、移動完應該在什麼位置給定一個實驗室場景,它能判斷“什麼東西可以動”“那些順序合理”“這個動作的後果是什麼”這才是真正的智能,不只是描述世界,而是可以在世界中行動。為什麼語言模型做不到?舉了一個例子:“想像一個混亂的急救現場,火災、交通事故或自然災害。人們如何組織救援、阻止災難、撲滅火災?”其中很大一部分是動作,是對物體、世界、情境的自發理解。語言是其中的一部分,但很多時候,語言無法讓你去撲滅火災。這就是差距所在:語言模型處理的是線性資訊,是一句話接一句話的“平面推理”;世界模型處理的是空間資訊,是動作、位置、時間、關係交織的“立體認知”。在她的帶領下,World Labs 已經發佈了首個世界模型原型產品 Marble。這是世界上第一個可以生成真正 3D 世界的生成模型。第三節|Marble:把想像變成可探索的世界李飛飛和她的團隊在 2024 年創立 World Labs,用不到一年時間,就發佈了世界上第一個基於空間智能的產品原型 Marble(網站:https://www.worldlabs.ai/blog/marble-world-model)。它不是一款聊天機器人,而是一個造世界的引擎。在採訪中,她介紹這是團隊花一年多時間建構的世界上第一個可以生成真正 3D 世界的生成模型。只需輸入一句話或一張圖,它就能生成一個立體空間場景。不是靜態畫面,而是可以走動、旋轉、進入互動的“真實世界”。比如你輸入:一個廢棄的賽博朋克風格工廠山谷裡的木屋月球基地幾秒鐘內,你就能看到光照怎麼變化、房間裡有什麼物體、路徑怎麼走,甚至可以戴上 VR 裝置沉浸式探索。很多人第一反應是:這是不是跟現在那些 AI 視訊工具一樣?李飛飛明確指出了區別:視訊只能看,Marble 可以動、可以逛、可以互動。可以這樣理解:生成視訊是在給你看一個世界的錄影,Marble 是直接造出那個世界,讓你進去。而且,這不是拼圖式疊加,而是通過空間感知能力,把光、影、結構、物體關係都織成一個連貫系統,讓這個世界有邏輯、有深度、能探索。AI 不只是輸出圖像,而是能自己組織一個真實世界。在這背後,是一整套和語言模型完全不同的架構邏輯,團隊需要解決幾項關鍵挑戰:不是標註詞彙,而是學習真實世界裡的幾何、動態和物理規律模型能記住之前場景的狀態(比如桌子上原來有本書,後來被移開)輸出不是句子,而是可被匯出為網格(mesh)、用於遊戲、機器人訓練、VR 場景的真實三維資料甚至團隊特意保留了一些可視化過程的元素,讓使用者能看到模型怎麼一步步建構場景。李飛飛提到,那些點狀引導其實一開始只是個輔助設計功能,沒想到意外成為使用者最喜歡的部分。誰在用 Marble?這不是實驗室裡的演示品,Marble 已經開始落地真實場景。李飛飛提到了一個令人驚訝的數字:他們和索尼合作拍攝發佈視訊,製作時間縮短了 40 倍。而且這只是開始,更多應用場景正在湧現。過去,創造一個沉浸式空間,需要一個工作室、一整組工程師、設計師和幾周時間。現在,一個人,一句話,就可以建起一個世界。接下來,是把造世界的能力從實驗室交給每一個普通創作者。第四節|誰會最先用上空間智能?空間智能不是遙遠的技術,它會直接影響你怎麼創作、怎麼工作、怎麼學習。AI 的下一步在那裡?不在對話方塊裡,而在沉浸式世界裡。一個真實的體驗空間:如何講故事、如何操控機器、如何探索知識。最先受影響的,是這三類人。✅ 創作者:講故事這件事,要被重構了李飛飛最先講的,不是科學,也不是機器人,而是創造力。在她看來,世界模型最先爆發的領域不是重工業,而是講故事的人:影視導演、動畫工作者、虛擬拍攝團隊遊戲設計師、VR開發者、敘事類AI應用開發者普通創作者、學生、甚至孩子Marble 已經在這些場景中落地:他們與索尼合作,使用 Marble 的場景拍攝發佈視訊。虛擬製作公司反饋說,這使製作時間縮短了 40 倍。使用者已經將 Marble 的場景和匯出的網格放入遊戲中,無論是 VR 遊戲還是其他開發的遊戲。這種從文字到世界的跳躍,讓創作從構思階段就進入沉浸式模式。創作不再是先畫草圖、做建模、再渲染,而是直接生成一個世界,然後你走進去。✅ 機器人:讓 AI 真正動起來的關鍵環節AI 進入機器人,一直是行業共識,但為什麼遲遲沒有爆發?李飛飛的答案是:沒有空間智能,機器人就看不懂世界。傳統機器人訓練一個動作,需要大量真實場景的資料、手工編寫的程式碼和規則。現在有了世界模型,機器人可以在 AI 生成的模擬世界中自主學習。在李飛飛的機器人訓練研究中,最大的痛點之一就是建立合成資料。這些資料需要非常多樣化,來自不同環境,擁有不同的操縱對象。。Marble 正是為此而生。已經有研究人員聯絡他們,希望使用 Marble 來建立那些合成環境。這個虛擬環境的最大價值,是它能動、能改、能重來,而且生成成本極低。但技術突破只是第一步,更重要的是機器人如何與人協作。她特別提到醫護領域:隨著社會老齡化,AI 可以幫助減輕護士的工作負擔,讓他們有更多精力照顧患者。空間智能,正是為這種人機協作提供基礎。✅ 科學、醫療、教育:AI不只是幫你寫,還能幫你建構理解最後三個落地方向,是李飛飛長期堅持的學術領域:科研、醫療、教育。1)科學研究:從二維到三維的認知飛躍李飛飛在採訪中舉了一個令人印象深刻的例子:DNA 雙螺旋結構的發現。羅莎琳德·富蘭克林拍攝的 X 射線衍射照片是一張平面二維的照片,但詹姆斯·沃森和弗朗西斯·克里克能夠在 3D 空間中進行推理,並推匯出 DNA 的高度三維雙螺旋結構。那種結構不可能是二維的。你不能在二維中思考並推匯出那個結構。你必須利用人類的空間智能在 3D 空間中思考。這正是空間智能在科學發現中的價值所在。2)醫療健康:從影像診斷到心理治療空間智能讓 AI 能理解影像中的結構、位置、動態,這對放射科醫生等專業人員意義重大。Marble 已經有意想不到的應用。有心理學家團隊聯絡他們,希望用 Marble 進行心理學研究。研究人員需要瞭解精神病患者的大腦如何對具有不同特徵的沉浸式場景做出反應,例如凌亂的場景或乾淨的場景。而研究人員很難獲得這類沉浸式場景,自己建立會花費太長時間和太多預算。Marble 能幾乎瞬間將如此多的實驗環境交到他們手中。3)教育場景:讓抽象知識變得可感知抽象的數學、化學、生物概念也可以變成可進入的模擬世界。學生可以走進一個細胞、模擬一次火山噴發,提升理解深度。AI 讓知識變得可感知,而不只是可背誦。總結一下,誰會最早用上空間智能?想建一個世界觀的創作者想讓機器真正動起來的開發者想用 AI 做模擬、教學、輔助理解的研究者與一線工作者Marble 是第一步,更多可能才剛剛開始。結語|從會說到會看,AI 的下一個十年很多人以為,AI 的盡頭是像人一樣說話。但李飛飛看得更遠:語言只是人類智能的一部分,甚至不是最根本的那部分。今天的大模型已經可以模擬我們的語言表達,但還無法看見這個世界,更無法在其中行動與創造。空間智能,是 AI 跨出紙面的關鍵一步。從 ChatGPT 到 Marble,我們看到一個清晰的方向:AI 正在從語言智能,走向世界理解。未來的智能不再只活在對話方塊裡,而是出現在每一張設計圖、每一次協作、每一個沉浸式場景中。李飛飛的核心理念始終如一:AI 不是取代人,而是增強人。這就是空間智能的意義。它不是替你思考,而是讓你看得更遠、想得更深、動得更快。AI 的下一個十年,不在模型參數有多大,而在它能否真正理解並融入這個世界。 (AI 深度研究員)
查理·芒格的66條智慧箴言
“反過來想,總是反過來想”——查理·芒格推崇的逆向思維AI時代,淺閱讀甚至淺思考開始成為一種時代症候。當短影片、圖片閱讀更多刺激人們的多巴胺分泌,有深度和難度的素材越來越難以出現公眾的視域和平台上,而Agent生成內容的便利則進一步讓人放棄了深度思考。這也是流量導向的經驗,個人詠歎和思考既不關乎社會議題,又顯得侷促和造作。而恰是那些簡單好讀不燒腦的金句式文章,霸佔了絕大多數閱讀量。因而,當我們被格言體所說服和獲得啟發時,更需要常保持一顆批判和理性的心。拋開以上提醒,本文從《窮查理寶典》、《芒格之道》及其他演講中,摘取了66條美國著名投資人、巴菲特的黃金搭檔——查理·芒格的個人思考:從思維與方法、認知與學習、工作與機遇三個方面領略這位智者的人生智慧。01 思維與方法1.“It’s remarkable how much long-term advantage people like us have gotten by trying to be consistently not stupid.”真令人驚訝,我們通過持續避免愚蠢,贏得了多少長期優勢。2.“Knowing what you don’t know is more useful than being brilliant.”知道自己不知道什麼,比聰明更有用。3.“Spend each day trying to be a little wiser than you were when you woke up.”每過完一天,要努力比早上醒來時更聰明一點點。4.“Being rational is a moral imperative. You should never be stupider than you need to be.”保持理性是一種道德責任。——你永遠不該愚蠢到無法接受。5.“People calculate too much and think too little.”人們計算得太多,卻思考得太少。6.“It is remarkable how much long‑term advantage people like us have gotten…”我們這類人在長期中獲益,因從不追求短視聰明。7.“Remember that reputation and integrity are your most valuable assets — and can be lost in a heartbeat.”記住,聲譽和正直是你最寶貴的資產,但它們的失去只需一秒。8.“If you want to understand science, you have to understand math. The good thing about business is that you don’t have to know any higher math.”如果你想理解科學,你必須理解數學。商業的好處是你不必知道任何高等數學。9.“Recognize reality even when you don’t like it. Especially when you don’t like it.”即使你不喜歡現實,也要認識到它。尤其是當你不喜歡它的時候。10.“You don’t have to be brilliant, only a little bit wiser than the other guys, on average, for a long, long, time.”你不必很聰明,平均而言,你只需要比其他人聰明一點,並儘可能保持更長的時間。11.“There’s no way that you can live an adequate life without making many mistakes.”你不可能在不犯很多錯誤的情況下過上滿足的生活。12.“The best armor of old age is a well‑spent life preceding it.”健康老年最好的盔甲,就是有意義地度過完整的一生。13.“Opportunity comes to the prepared mind.”機會總是降臨於那些準備好的心智。14.“It’s a good habit to trumpet your failures and be quiet about your successes.”大肆宣揚你的失敗,對你的成功保持沉默是一個好習慣。15.“All I want to know is where I’m going to die, so I’ll never go there.”我只想知道我會在那死去,好讓我永遠避開那兒。16.“The key to success is playing the game where you have the edge.”成功的關鍵,是只在你有優勢的領域出手。17.“What matters most: Don’t fool yourself — and remember you are the easiest person to fool.”最重要的是:不要騙自己——你是最容易被自己騙的人。18.“Opportunities come infrequently. When it rains gold, put out the bucket, not the thimble.”機會不會經常來。當黃金落雨時,拿出桶來接,而不是頂針。19.“You don’t need many big decisions to do well.”成功不需要無數個正確決策,只需少數幾個關鍵時刻把握住。20.“Take a simple idea and take it seriously.”凡事往簡單處想,往認真處執行。21.“A majority of life’s errors are caused by forgetting what one is really trying to do.”生活中的多數錯誤,源自忘了自己真正想做什麼。22.“The best thing a human being can do is to help another human being know more.”人能做的最好的事,就是幫助他人變得更有知識。23.“Just because you like it doesn’t mean the world will.”你喜歡的東西,不一定世界也喜歡。24.“An average outcome always leads to a mediocre result.As I said that the iron rule of life is that only 20% of people achieve 80% of results.”平均的結果必定是中等的結果。正如我常常說的,生活的鐵律就是:20%的人能夠取得比其他80%的人優秀的成績。25.“Mimicking the herd invites regression to the mean.”隨大流只會讓你往平均值靠近(只能獲得中等業績)。02 認知與學習26.“You don’t have to know everything. A few really big ideas carry most of the freight.”你們不需要瞭解所有的知識,只要吸取各個學科最傑出的思想就行了,那不難做到。27.“I constantly see people rise in life who are not the smartest—sometimes not even the most diligent—but they are learning machines.”我常看到不是最聰明也不是最勤奮的人脫穎而出,因為他們是學習機器。28.“Common sense is not common.”常識並不常見。29.“The models have to come from multiple disciplines—because all the wisdom of the world is not to be found in one little academic department.”思維模型必須跨學科,因為智慧不只存在於某個專業裡。30.“The game of life is the game of everlasting learning. At least it is if you want to win.”人生的遊戲是永恆學習的遊戲。至少如果你想贏的話是這樣。31.“The habit of committing far more time to learning and thinking than to doing is no accident.”把遠比行動更多的時間投入到學習和思考,是刻意為之的習慣,不是偶然。32.“In my whole life, I have known no wise people… who didn’t read all the time.”我這輩子遇到的聰明人(來自各行各業的聰明人)沒有一個不是每天讀書的——沒有,一個都沒有。33.“Spend less time on things that are popular and more time on things that are timeless.”少花時間追逐流行的事物,多花時間鑽研那些經得起時間考驗的東西。34.“You’re not going to get very far in life based on what you already know. You’re going to advance in life by what you’re going to learn after you leave here.”你未來走多遠,並不取決於你現在知道多少,而取決於你離開學校之後還學到了多少。35.“Avoid being the man with only a hammer. Learn to use the whole toolbox.”別做“手裡只有一把錘子”的人,要學會使用整套工具箱。36.“You have to be willing to destroy your favorite ideas.”你必須願意推翻自己最鍾愛的想法。37.“To be ignorant of what occurred before you were born is to remain always a child.”如果一個人不知道他出生之前發生過什麼事情,在生活中就會像一個無知的孩童。(轉引自西塞羅)38.“Learning from other people’s mistakes is much more efficient than making them all yourself.”從別人的錯誤中學習,遠比事事親身試錯要高效得多。39.“You need to absorb ideas through reading and observation. But you also need quiet time to think.”你需要通過閱讀和觀察來吸收觀點,但你同樣需要安靜的時間來思考。40.“Avoid intense ideology. Always keep some room for doubt.”遠離極端的意識形態,但要始終留一點懷疑空間。41.“Routine, discipline, and curiosity — that’s my learning engine.”習慣、自律與好奇心——這是我學習的發動機。03 投資與機遇42.“A business model that relies on trickery is doomed to fail.”依賴欺騙的商業模式註定要失敗。43.“We have three baskets for investing: yes, no, and too tough to understand.”我們的投資有三個籃筐:要投的、不投的和難以理解的。44.“A great marriage is not when a perfect couple comes together. It is when an imperfect couple learns to enjoy their differences.”美滿的婚姻不是兩個完美的人結合,而是兩個不完美的人學會欣賞彼此的不同。45.“The best way to get a good spouse is to deserve a good spouse.”要找到優秀的伴侶,只有一個辦法,就是讓自己得配得上。46.“Similarly,To get what you want, you have to deserve what you want. The world is not yet a crazy enough place to reward a whole bunch of undeserving people.”同理,你若想得到理想之物,就必須配得上它。這個世界還沒瘋狂到會獎勵一群不配擁有的人。47.“The happiest people I know are not those who have achieved the most, but those who have loving relationships.”我認識最幸福的人,並非最有成就者,而是擁有溫暖親密關係的人。48.“You can't really succeed in life if you make a lot of dumb choices about who to trust, who to spend your time with, and who to marry.”如果你在“信誰、跟誰共處、跟誰結婚”這些問題上頻頻犯蠢,人生很難成功。49.“Most people are trained in one model — economics, for example — and try to solve all problems in one way.”多數人只掌握一個模型,比如經濟學,然後試圖用它解決所有問題。50.“The big money is not in the buying or the selling, but in the waiting.”你真正的財富,不在買賣之中,而是源自等待。51.“A great business at a fair price is superior to a fair business at a great price.”以合理價格買進一家優秀的企業,勝過以便宜價格買入一家平庸公司。52.“If you don’t allow for self-serving bias in the conduct of others, you’re a fool.”如果你在商業判斷中不考慮他人的自利傾向,那你就是個傻瓜。53.“Never, ever think about something else when you should be thinking about the power of incentives.”當你應該思考激勵機制的時候,千萬別去想別的。54.“Choose clients as you would choose friends.”選擇客戶時,就像選擇朋友那樣謹慎。55.“Three rules for a career: Don’t sell anything you wouldn’t buy yourself. Don’t work for anyone you don’t respect and admire. Work only with people you enjoy.”職業三原則:不賣你自己不想買的,不為你不尊敬的人工作,只與你喜歡的人共事。56.“Investing is where you find a few great companies and then sit on your ass.”投資就是發現幾家好公司,然後靜待其成長。57.“There’s only three ways a smart person can go broke: liquor, ladies, and leverage.”聰明人破產只有三種方式:酒、女人和槓桿。58.“A lot of success in life and business comes from knowing what you want to avoid.”人生和商業中的很多成功,其實都來自你知道自己要避開什麼。59.“It’s not supposed to be easy. If it were easy, everyone would do it.”它本來就不該容易。如果容易,每個人都會這麼做。——演講中談到經營與投資時60.“I try to get rid of people who always confidently answer questions about which they don’t have any real knowledge.”我會儘量遠離那些對自己不瞭解的問題卻總是自信作答的人。61.“Spend less than you earn. Invest wisely. Avoid toxic people and toxic activities.”花得比你賺得少,聰明地投資,遠離有毒的人和事情。62.“It’s waiting that helps you as an investor, and a lot of people just can’t stand to wait.”作為投資者,耐心是你最大的優勢。但很多人就是做不到等待。63.“Anytime anybody offers you anything with a big commission and a 200-page prospectus, don’t buy it.”任何時候,只要有人向你提供任何有大筆佣金和超過200 頁說明書的投資產品,都不要買它。64.“The way to win is to work, work, work, work and hope to have a few insights.成為贏家的方法是工作,工作,工作,再工作,並期待能夠看準幾次機會。65.“Be patient. Big things take time.”保持耐心,偉大的事情需要時間。66.“The first rule of fishing is to fish where the fish are. The second rule of fishing is to never forget the first rule.”釣魚的第一條規則是,在有魚的地方釣魚。釣魚的第二條規則是,記住第一條規則。 (格上財富)
DeepSeek神秘操作!R1突然消失,R2要來了?
昨天DeepSeek又搞神秘操作了!這家讓矽谷巨頭夜不能寐的中國AI公司,悄悄在微信群裡發佈了V3.1更新,但更詭異的是——R1推理模型的標識突然從聊天介面消失了!😱V3.1的升級挺實在:上下文窗口直接拉到128K,相當於能"記住"300頁書的內容,聊天體驗更絲滑。但問題來了,為何官方X帳號和其他社交媒體都沒發聲?只在微信群裡低調宣佈?更讓人好奇的是,DeepSeek悄悄把聊天機器人的"深度思考"功能裡的R1標識刪了個乾淨!要知道,R1可是今年1月震驚全球的推理模型,直接引爆了中國開源AI浪潮。現在突然"消失",這是要幹什麼大事?💡業內人士猜測紛紛:要麼是R2推理模型即將登場,要麼是DeepSeek在整合產品線,把所有能力統一到一個超級模型裡。畢竟,這家由量化交易大佬梁文鋒創立的公司,向來喜歡"不鳴則已,一鳴驚人"。從去年12月的V3到今年1月的R1,DeepSeek每次出手都能掀起行業地震。現在這波神秘操作,感覺暴風雨前的寧靜啊!🚀想想也是,當全世界都在關注你的一舉一動時,任何小動作都能引發無限遐想。DeepSeek這招"欲語還休",吊足了所有人的胃口!你覺得DeepSeek這次是在憋什麼大招?R2會比R1更炸裂嗎?快留言說說你的猜測,或者轉發讓更多AI迷一起圍觀這場懸疑劇! (澤問科技)
蘋果拆解AI大腦,推理模型全是「裝」的?Bengio兄弟合著
【新智元導讀】蘋果最新研究揭示大推理模型(LRM)在高複雜度任務中普遍「推理崩潰」:思考路徑雖長,卻常在關鍵時刻放棄。即便給予明確演算法提示,模型亦無法穩定執行,暴露推理機制的侷限性。AI「思考」只是假象?剛剛,一項來自蘋果的重磅研究揭示了「大推理模型(LRM)」背後的驚人真相——這些看似聰明的模型,在面對稍複雜點的題目時,精準率居然會全面崩潰!隨著問題變難,推理模型初始會延長思考,但隨後思考深度反而下降,儘管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄!這太違背直覺了,似乎Scaling Law在推理時完全失效了。值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdfLRM模型因能「寫出思考過程」而備受期待,被認為是AI推理能力躍升的關鍵。DeepSeek-R1 <think>模式的開源開啟了LLM進化到LRM的處理程序但研究人員通過可控遊戲環境的系統實驗證明:現有LRMs不僅在高複雜度任務上力不從心,甚至還展現出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。研究還通過在相同計算token預算下對比思考模型與普通模型,發現:簡單題目,反而是傳統大模型(LLMs)更強;中等複雜度,LRMs憑藉「思考路徑」勝出;一旦太複雜,兩類模型精準率同時坍塌至0%不同於大多數僅衡量最終性能的研究,這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。三種不同的性能區間與以往主要依賴數學問題來評估語言模型推理能力的研究不同,本研究引入了可控的解謎環境。這種環境可以精確調節問題的複雜度,同時保持邏輯過程的一致性,從而更嚴謹地分析模型的推理模式和侷限性。頂部的「LLM Response」部分表示研究設定了可以驗證模型的最終答案和中間推理過程,從而能夠更細緻地分析模型的思維行為。左下精準率和中間的回答長度表示:在任務複雜度較低時,不進行推理的模型表現得更準確,也更節省Token。隨著複雜度提升,具備推理能力的模型開始表現更好,但也消耗更多Token——直到複雜度超過某個臨界點後,兩類模型的表現都會迅速下降,同時推理過程變得更簡短。右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會在任務複雜度低時較早找到正確答案,而在複雜度高時則更晚得出答案。而在失敗案例中,它往往會在一開始就陷入錯誤答案,之後繼續浪費剩餘的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。數學和謎題環境對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現並不一致。在MATH-500資料集上,兩類模型的表現相近;但在AIME24和AIME25基準上,思考模型的表現明顯更優。此外,從AIME24到AIME25的性能下降也揭示出這些基準資料易受到資料污染問題的影響。研究設定了四種謎題環境。每列展示一個謎題從初始狀態(頂部)、中間狀態(中部)到目標狀態(底部)的變化過程。四個謎題分別是:漢諾塔(將圓盤在柱子間移動)、跳跳棋(交換不同顏色棋子的位置資訊)、過河(將多個對象安全運送過河)、積木世界(重新排列積木的堆疊結構)。在所有謎題環境中,不同複雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對應模型(Claude 3.7 Sonnet、DeepSeek-V3)的精準率對比。最明顯的依然是,當問題複雜度突破一定閾值後,所有模型的精準率同時坍塌至0%!實驗和結果上圖為在tokens預算相同的情況下,思考型模型與非思考型模型在低、中、高三種複雜度謎題環境中的 pass@k表現對比。結果顯示:非思考型模型在簡單問題上表現更佳;思考型模型在中等複雜度問題中展現出優勢;而在高複雜度問題中,無論計算資源分配如何,兩個模型的表現都未能取得明顯突破。推理模型的崩潰上圖表示推理模型在不同謎題環境中,精準率與思考token使用量隨問題複雜度變化的趨勢圖。隨著複雜度上升,模型在一開始會投入更多思考token,精準率則逐漸下降;但當複雜度達到某個臨界點時,模型的推理能力開始崩潰——表現急劇下降,同時思考token的使用量也隨之減少。深入「思考模型內部」左圖與中圖展示了在不同複雜度下,四種謎題中推理過程中間解的出現位置及其正確性。✓ 表示中間解正確,✗ 表示錯誤,陰影表示分佈密度。右圖則顯示了在不同複雜度下,漢諾塔謎題中解決方案的精準率隨思考過程位置的變化情況。結果顯示:對於簡單問題(N=1-3),精準率在思考初期較高,但隨著推理繼續反而下降,出現「過度思考」的現象;對於中等難度問題(N=4-7),推理的持續略微提升了準確率;對於複雜問題(N≥8),精準率始終接近於零,表明模型在這類問題上推理完全失敗。未解之謎:推理模型的異常行為如上圖a和b所示,在漢諾塔遊戲環境中,即便在提示中直接提供瞭解法演算法,讓模型只需按步驟執行,模型的表現仍未改善,推理崩潰的現象依然出現在大致相同的位置。這一點非常值得注意,因為設計並找到一個解法通常比僅僅執行一個已知演算法需要更多的計算(比如搜尋與驗證)。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力侷限。如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。在漢諾塔環境中,當N=10時,模型通常直到大約第100步才會出現第一處錯誤;而在過河環境中,同一個模型卻只能正確地完成前4步,之後便無法繼續生成有效解。這種差異非常顯著。值得注意的是,當 N=5(即需要31步解)時,模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。這一現象很可能說明:在網路資料中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓練中幾乎沒有見過或記住這類實例。這項研究系統性地評估了大推理模型(LRMs),低複雜度下,標準LLM反而更穩;中等複雜度時,LRM暫時領先;可一旦問題變得複雜到一定程度——兩者雙雙崩盤。分析推理軌跡後,研究者發現模型在簡單問題上「過度思考」,在複雜問題上則徹底罷工。甚至連直接提供解題演算法都救不了它們——比如漢諾塔問題,演算法提示給到位了,模型卻依然原地打轉。模型在漢諾塔中可連續操作100步不出錯,到了過河問題裡,卻五步都撐不過去!這背後的原因成謎,但無疑為後續探索AI推理極限打開了一個新的突破口。眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。 (新智元)
中國國產AI搜尋終於開竅!複雜問題分步拆解,讓直男也能交出520的滿分答案
實測夸克「深度搜尋」,搜尋之前先主動思考,答案更有用更準了。AI搜尋,好像一夜之間進入Next Level了。“用了快兩年AI搜尋引擎了,終於等到了這個王炸!”近期夸克上線「深度搜尋(Deep Search)」,獲得了不少使用者的好評。不僅“搜商”大大提高,夸克這回好像把AI搜尋很多痛點都解決了。胡編亂造、答非所問、資訊低質、廢話連篇……很多使用者在使用市面上各色的深度思考AI時,都遇到過類似痛點。夸克這次的功能創新,可以說“止痛效果明顯”。不同於大部分深度思考AI“先搜後想”的邏輯,夸克「深度搜尋」採用“先想後搜”模式。結果就是,AI搜尋“搜商”進化明顯,搜問題就像“開卷考”一樣簡單,並且答案更準確。▲用夸克「深度搜尋」搜尋“嬰兒安全座椅選擇”問題智東西試用了夸克「深度搜尋」近一周,分享一些使用體驗。01. 先想後搜,AI搜尋“大腦”再進化兩年了,市面上的中國國產AI搜尋工具為何還是不夠好用?按照“卷王”夸克的邏輯,過去的AI搜尋工具將問題處理得過於簡單,AI只是在是盲目地執行搜尋指令,再把資訊整合交付,缺乏真正的智能與深度。夸克「深度搜尋」的搜尋邏輯全面升級。在搜尋前,AI會先自主分析問題,分點規劃搜尋步驟和內容,再進行搜尋,還能在搜尋過程中動態調整搜尋內容,對搜尋內容機推理驗證,引用權威資訊源。這種搜尋模式,使得搜尋結果更加精準、有條理,為使用者帶來了全新的搜尋體驗。夸克的「深度搜尋」讓AI搜尋“大腦”再進化,具備了高搜商的能力。從以下示例能有直觀的感受:輸入:“結婚紀念日遇上5.20,想和伴侶慶祝,但寶寶還小未滿歲,有什麼既能製造儀式感又方便帶娃的慶祝方式?”這是一個比較複雜的問題,暗含了“不能讓慶祝與帶娃衝突”、“結婚和520雙重紀念”等多個未言明的因素,來看看夸克「深度搜尋」是怎麼回答的。▲夸克「深度搜尋」的搜尋過程如圖所示,夸克的「深度搜尋」會先自主思考問題,分點規劃出思考框架和行動步驟,再進行資訊搜尋。這一流程與其他AI應用的的思考過程形成鮮明對比,後者看起來像是先盲目檢索網頁,再基於結果進行推理;或者直接大段羅列思考過程,讓使用者難以抓住重點。▲夸克「深度搜尋」(左一)與兩家深度思考工具(右二)回答過程對比以上畫紅框的部分就是夸克規劃的資訊蒐集思路,他將一個大問題從5個維度進行思考分析,從而讓搜尋的內容更加聚焦。從思考過程來看,夸克「深度搜尋」明顯更系統化、有邏輯性。▲夸克「深度搜尋」輸出的完整答案從輸出結果來看,夸克從居家溫馨派對、短途親子游、儀式感細節三大方面給出了建議,覆蓋了主題佈置親子童話屋、定製紀念品、親子互動遊戲、家庭攝影、專屬短暫“二人世界”、家庭DIY晚餐等多個具體的活動,緊扣了低成本高互動、輕鬆又浪漫等我沒有言明的底層需求。此外,他還提到了預算和注意事項,可以說考慮非常周到了。當前,很多人還是習慣用社交媒體去求解生活中的這類個性化問題。當智東西嘗試用某書或某音去搜尋同樣的問題,這種問題根本無法直接得到答案。我必須自行拆解問題,比如“該怎麼安排一個既甜蜜又省心的慶祝計畫?”、“如何低成本在家拍有愛親子照?”、“520三小時外出約會安排?”等,進行無數次的搜尋,在浩如煙海的資訊中歸納總結。其間會遇到很多廣告和相關度不高的資訊,使得搜尋時間線大大拉長。這時候,夸克「深度搜尋」的價值就非常直觀了。他的答案几乎囊括了所有以上搜尋的方方面面,科學嚴謹地展現在我面前,而且仔細來看,這些策劃安排是考慮了使用者的深度意圖的,那就是“既有甜蜜二人世界,又兼顧省心帶娃”的需要。所謂AI搜尋大腦再進化,就是這種“過去搜10次,現在搜1次”的體驗。在這樣的全新搜尋邏輯下,夸克「深度搜尋」能輸出更加精準的答案,並且尤其擅長勝任個性化問題的解答。再來測試一個健康生活類的問題,看看這類問題上夸克「深度搜尋」的表現如何。輸入:“深夜容易餓又怕發胖,有那些健康又能飽腹的宵夜選擇?”這個問題看似簡單,但也涉及了“想吃東西”“不想胖”和“要健康”幾個疊加的需求。讓我們看看夸克是怎麼反應的,他很快思考了問題意圖,然後抽象出“低糖水果作為宵夜的健康選擇”、“健康脂肪宵夜食物的選擇”兩個問題進行分點搜尋。從輸出結果來看,夸克幾乎全覆蓋了符合需求的夜宵食物,分類十分清晰,推薦得也很具體。▲夸克「深度搜尋」建議的夜宵選擇而且,大家有沒有發現,夸克在回答健康相關問題時,並沒有引導通用AI來解答,而是調動了一個專業智能體——阿誇-你的家庭健康顧問,來專門承接這類問題。據悉,阿誇具備豐富的健康知識儲備,他的答案均源自權威來源,包括自建的醫學知識庫、國內外頂級醫學期刊及專業資料。這確保了使用者在尋求健康建議時,能夠獲得科學、精準、可靠的答案。02. 高搜商AI會思考更會搜尋總結來說,夸克「深度搜尋」擁有“高搜商”,主要體現在四個方面:1、換位思考,懂潛在需求夸克「深度搜尋」近期幫我一個朋友解決了感情問題。他深陷一段無疾而終的Crush(心動)快一個月了,說是夸克給了他終極解法。他的問題是這樣的:輸入:“Crush的女孩約會了近一個月,出去打球吃飯都挺好的,今天突然說不想交往了,問原因也說不出來,但之前明明說感覺不錯,為什麼我越主動她越迴避?我還需要堅持嗎?”戳中他的點是夸克給的結論:暫停主動,及時止損。夸克之所以能助他作出理性的決策,一方面因為「深度搜尋」的思考過程非常理性,如下圖所示,夸克規劃了“搜尋女性在戀愛關係中突然退縮的常見心理誘因”、“查詢有效溝通模型與情感需求匹配度評估工具”等五個細分問題進行搜尋,從而給出有說服力的建議。另一方面因為夸克「深度搜尋」能換位思考,懂潛在需求。感情中的人是感性的,如下圖所示的完整答案,夸克體會到了使用者可能感到“疲憊或自我價值貶低”、“沉溺糾結”的狀態,以及未言明的在意“沉默成本”、“關係平等”的心理,從而肯定使用者“這段經歷會為你積累感情經驗”。▲夸克「深度搜尋」輸出的完整答案對問題下潛在意圖的洞悉,使得夸克「深度搜尋」對使用者的影響力大大變強。2、分點推理,理性有規劃“高搜商”更體現在複雜問題的分點推理和按點搜尋上。當我問到一個AI創業方向的問題,將三位創業者的情況和問題輸入後,夸克「深度搜尋」就像身邊一位邏輯性很強的朋友,給了我們做決策的依據。輸入:“3個女生想進行AI應用方向創業,都是Top 4高校電腦專業本科生,想面向女性市場,現在入局晚嗎?有那些可關注的細分賽道和需要注意的地方?”夸克很快識別了這是關於AI創業賽道選擇的決策性問題,需評估女性向AI應用市場的競爭格局、細分賽道增長潛力,以及技術門檻與團隊適配性,重點分析未被充分開發的垂直領域和差異化競爭策略。從結果來看,夸克邏輯嚴密地回答了“是否入局晚”、“可關注的細分賽道”問題,並給出了具體的創業方向和方法建議,很有建設性。同時其還額外交代了注意事項和成功案例參考。▲夸克「深度搜尋」輸出的完整答案3、動態調整,靈活不死板夸克「深度搜尋」還有一大特徵,是懂得在搜尋過程中動態調整搜尋內容,這就能幫我搾取全網最乾貨資訊。比如當我詢問“嬰兒安全座椅選擇”、“新手網球拍推薦”等消費需求問題,他能動態地幫我提煉出真正有用的資訊。從輸出的結果來看,夸克「深度搜尋」給的答案與我在網上看到的各路廣告行銷有所差異,說明其在規劃搜尋的過程中,規避了不少廣告行銷軟文,從而使得給出的內容更有信服力。4、信源可溯,專家型助手夸克「深度搜尋」還是一個專家型助手,非常適合用在健康、學術等專業領域。從前文中提到的健康問題能看到,夸克給出的資訊是信源可溯的,回答過程不是“黑盒”,而且以權威專業的網站為主,這讓我搜起健康類問題也更加放心。此外值得一提的是,消息稱,不久後夸克還會推出「深度搜尋」Pro,專門處理專業且複雜的問題。這一能力將極大地提升搜尋效率,使得原先需要幾小時才能完成的事情,縮短至幾分鐘內完成,勢必令無數打工人再次狂喜。03. 結語:AI搜尋再進化,進入全新發展階段隨著今年通義、DeepSeek等開源大模型的突飛猛進,AI大模型應用也進入猛長期。作為應用領域的一顆“明珠”,AI搜尋是時候進入Next Level了。夸克堪稱AI圈裡的“卷王”。今年3月推出AI超級框,4月上線拍照問夸克功能,5月推出深度搜尋,「深度搜尋」Pro也已經在路上了,不斷出新,可以說要帶動整個行業加快節奏。值得一提的是,昨日晚間,基於最新Qwen3模型的「深度研究(Deep Research)」正式上線。同為阿里系產品且作為通義系列大模型的落地第一站,夸克「深度搜尋」“大腦”進化的速度只會越來越快。過去搜的是參考資料,現在搜的是精準答案。在深度搜尋能力的加持之下,夸克AI超級框再次進化。正如阿里智能資訊事業群總裁吳嘉所說,夸克的AI超級框是一個天然的超級智能體。當使用者需求開始變得複雜,AI仍會呼叫一切可以用的工具、方法來直接幫使用者解決問題,這或許是AI搜尋進化後的終極形態。 (智東西)
不用等R2了!第三方給新版DeepSeek V3加入深度思考,推理101秒破解7米甘蔗過2米門
DeepSeek即將發佈R2??坊間傳聞越來越多了,且難辨真假。1.2T兆參數,5.2PB訓練資料,高效利用華為晶片……只能說如果有一半是真的都很牛了。HuggingFace創始人此時推薦“以不變應萬變”,打開官方認證帳號的更新提醒,就能第一時間獲取通知。拋開具體洩露資料是否精準,大家似乎有一個共識:如果真的有R2,它的基礎模型會是新版DeepSeek V3-0324。之所以有很多人相信R2會在4月底發佈,有一部分原因也是出於R1與V3之間相隔了一個月左右。現在,等不及DeepSeek官方,開源社區已經開始自己動手給V3-0324加入深度思考了。新模型DeepSeek-R1T-Chimera,能力與原版R1相當,但速度更快,輸出token減少40%,也是基於MIT協議開放權重。相當於擁有接近R1的能力和接近V3-0324的速度,結合了兩者的優點。而且做到這一點,不是靠微調或蒸餾,而是DeepSeek V3-0324和R1兩個模型融合而成。R1+V3融合模型新模型R1T-Chimera並非DeepSeek官方出品,而是來自德國團隊TNG Technology Consulting。該團隊此前也探索過可調專家混合(MoTE)方法, 讓DeepSeek-R1在推理部署時可以改變行為。新的R1T-Chimera模型權重可在HuggingFace下載,也可以在OpenRouter免費線上試玩。目前已知是選用了V3-0324的共享專家+R1與V3-0324的路由專家的混合體融合而來。TNG團隊表示最終結果令人驚訝,不僅沒有表現出融合模型的缺陷,相反,思考過程還比原版R1更緊湊有序。暫沒有技術報告或更詳細的模型融合方法公佈,要驗證它是否符合描述,就只能拉出來試一試了。我們選用最新折磨AI的難題“7米長的甘蔗如何通過2米高1米寬的門?”。原版R1思考了13秒就下了結論;R1T Chimera在這裡卻足足思考了101秒,最終計算出可以通過。雖然還是無法像人類一樣直觀的理解三維空間,讓甘蔗與門的平面垂直就可通過,但依然通過計算夾角與投影得出了結論。在這100秒時間裡R1T-Chimera如何一步步思考出答案呢?展開推理token可以發現,在簡單計算二維方案不可行後,它就已經想到了三維方案。後面依然陷入了各種誤區,在旋轉甘蔗、彎曲甘蔗、計算“門的厚度”上走了彎路。最終通過“揣摩出題人心理”走進正確的路線。最終給出的答案非常嚴謹了。雖然人類直覺上就能想出把甘蔗垂直起來通過這個方法,但仔細一想,題目中確實沒有給出“門後有多少空間這個條件”。細還是AI細。關於R1T-Chimera的更多細節,大家還在等TNG團隊消息和更多第三方基準測試結果。不過也有人注意到,KIMI K1.5技術報告中也探索了模型融合方法。不過在實驗中,這種簡單融合方法表現並不如這篇論文中提出的Long2short強化學習方法。另一個在模型融合上有經驗的團隊是Transformer作者Llion Jones創辦的Sakana AI。早在24年初就結合進化演算法提出以block為單位融合的方法。隨著更多團隊跟進這一路線,模型融合會不會成為2025年大模型的一大技術趨勢呢? (量子位)
震驚!OpenAI最新AI模型:能"用圖像思考",連草稿都能讀懂!
你是否曾經在白板上畫出一個模糊不清的草圖,然後發現身邊的人完全無法理解你想表達什麼?🤔現在,AI已經超越了人類的這一障礙!OpenAI剛剛發佈的全新模型,不僅能看懂你的塗鴉,還能分析它,與它互動,甚至能像人類一樣"思考"它!這是否意味著,AI距離真正理解人類世界的方式,又邁進了一大步?📝超越文字:AI的"視覺思考"能力2025年4月16日,OpenAI推出了其最新的人工智慧模型o3,這被稱為是該公司迄今為止最先進的模型。與此同時,他們還發佈了一個規模較小的模型o4-mini。這兩款模型都具有一項革命性的能力——"用圖像思考"。這些模型不只是能"看到"圖像,它們能夠將視覺資訊直接整合到思考鏈中。無論是白板上的草圖、手繪的示意圖,還是質量不佳的圖表,o3都能理解並分析它們。使用者可以上傳這些圖像,然後AI會對它們進行分析並展開討論,甚至能旋轉、縮放和使用其他圖像編輯工具。工具整合:全能AI助手的誕生OpenAI在聲明中寫道:"我們的推理模型首次能夠獨立使用所有ChatGPT工具——網路瀏覽、Python程式設計、圖像理解和圖像生成,",這幫助它們更有效地解決複雜的多步驟問題,並朝著獨立行動邁出實質性的步伐。OpenAI表示,o3模型特別擅長數學、程式設計、科學和圖像理解,而o4-mini則運行更快,成本更低。從4月17日開始,ChatGPT Plus、Pro和Team使用者就可以使用這兩種模型了。這是否預示著AI即將成為我們生活中不可或缺的全能助手?💻模型命名的幕後趣事有趣的是,OpenAI的使用者社區長期以來一直調侃其奇怪或令人困惑的AI模型命名方式。CEO Sam Altman本周也加入了這場調侃,他在X平台上發文說:"如果我們在今年夏天之前解決我們的模型命名問題,那麼在此之前的幾個月裡,大家可以盡情取笑我們(我們確實應該被取笑)如何?"這種親民的態度,是否也是科技巨頭與普通使用者拉近距離的一種方式?🤭自2022年底推出爆火的ChatGPT聊天機器人以來,OpenAI一直在快速升級其模型,遠遠超越了文字功能,擴展到圖像、語音和視訊領域。該公司正在努力在生成式AI領域保持領先地位,面臨著包括Google、Anthropic和埃隆·馬斯克的xAI在內的激烈競爭。上個月,OpenAI發佈了一項原生圖像生成功能,因其能夠生成吉卜力工作室風格的動漫圖像而在網上病毒式傳播。而在上個月的融資輪中,該公司的估值已達到驚人的3000億美元。技術的飛速發展,資本的瘋狂湧入,這是否預示著我們正處於AI革命的風口浪尖?🌊你怎麼看待OpenAI這一突破性進展?AI能夠理解圖像並與之互動的能力會給我們的日常工作和生活帶來什麼樣的變化? (澤問科技)