#開源模型
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)
DeepSeek V4:是AI開源大事件,更是產業變革新開端
推理效率提升74%、KV快取壓縮90%、API定價不及閉源競品1%。當大模型的邊際成本趨近於零,AI產業的真正變局才剛剛開始。2026年4月24日,DeepSeek在沉寂長達15個月後,正式發佈並開源新一代旗艦模型DeepSeek-V4。這不是一次常規的模型迭代,而是一次從架構底層到價格體系、從算力生態到產業邏輯的全方位重塑。如果說過去兩年AI圈的競爭是“誰能做出更聰明的模型”,那麼從這一天開始,競爭正在轉向:“誰能讓AI變成人人用得起的水電煤”。一、暴力破解的終結:當AI開始“聰明地花算力”DeepSeek-V4系列包含兩款模型:V4-Pro(1.6兆總參數,每次推理啟動490億參數)和V4-Flash(2840億總參數,每次推理啟動130億參數),兩者均原生支援100萬token超長上下文。1M上下文從此不再是一個“高端功能”——一年前它還是Gemini獨家的王牌,如今被DeepSeek直接挪成了行業標配的“水電煤”。這組資料之所以震驚業界,不是因為參數大,而是因為效率做到了前所未有的極致。在100萬token的極端長度下,V4-Pro的單token推理FLOPs僅為上一代V3.2的27%,KV快取佔用僅為10%。V4-Flash則更進一步,只需要10%的單token FLOPs和7%的KV快取。這意味著什麼?處理同樣長度的超長文件,V4不僅讀得更多,而且讀得更快、更省、更穩。效率提升的核心來自一系列值得深挖的架構創新:壓縮稀疏注意力(CSA) :每4個token合併成一個壓縮條目,然後用閃電索引器快速篩選出最相關的少量塊進行注意力計算——“拿著放大鏡找關鍵線索的偵探”。重度壓縮注意力(HCA) :以高達128倍的壓縮率濃縮全域資訊——“站在山頂俯瞰全景的指揮官”。兩者交錯部署在模型的各層中,形成精準定位與全域把握的互補。流形約束超連接(mHC) :給訊號傳播加上“安全閥”,從根本上保證訓練穩定性。Muon最佳化器:取代業界標配的AdamW,進一步降低訓練成本。這一切的底層哲學,不是“堆參數”,而是“每瓦特算力的最大產出”。DeepSeek V4把注意力機製做了一次“手術級”的改造,讓超長上下文從實驗室裡的“高端展示”變成了普通開發者也能跑得動的日常工具。這種效率革命帶來的是價格上的斷崖式下降。DeepSeek V4-Flash每百萬token輸出價僅0.279美元,而同期OpenAI發佈的GPT-5.5 Pro輸出價高達180美元——價差整整645倍。V4-Pro輸出端成本則僅為GPT-5.5 Pro的2%。如果把V4-Pro考慮折扣後的API輸入價壓到0.25元/百萬詞元,與GPT-5.5 Pro加權平均價格30美元/百萬token相比,價差超過700倍。更直觀地說:V4呼叫一次的價格,還不到對手的千分之一。 在推理效率層面,華為昇騰950超節點的測試資料顯示,V4-Pro單卡Decode吞吐可達4700TPS,V4-Flash在8K長序列場景下單卡Decode吞吐1600TPS。DeepSeek V4的回答是:快,是能力的下限;省,才是格局的起點。二、一扇門打開,另一扇門關上當DeepSeek V4以700倍的價格差距直插市場時,它激發的連鎖反應遠遠超出模型本身。開源vs閉源:矽谷在“造牆”,中國在“修路”。矽谷的頭部玩家們不約而同地選擇了閉源路線。OpenAI、Anthropic、Google的Gemini,當前沿技術創新被鎖死在各自的資料中心裡,玩家們不可避免地陷入了零和博弈的“權力遊戲”。就在V4發佈前夕,一場圍繞新模型的輿論狙擊戰剛剛上演——4月16日Anthropic剛發佈Claude Opus 4.7,OpenAI兩個多小時後便宣佈Codex大幅更新;隨後又圍繞營收資料互相拆台,敵意滲透進每一個決策環節。而DeepSeek走了一條完全不同的路。它聚焦基礎模型的核心能力攻堅,進一步築牢了全球開源大模型的性能天花板,為全行業提供了性能比肩閉源旗艦的基礎底座。巧合的是,就在V4發佈前後,國內的Kimi也開源了K2.6,兩個兆參數模型同時亮相,卻沒有一絲互掐,甚至還在技術底層進行了“換防”。正如大量評論所指出的,這背後是中美AI路線的一次分岔:矽谷在“造牆”,守住既得利益;中國在“修路”,走開源協同之路。這種路線的分野,背後是根本邏輯的差異。閉源路線的本質是技術作為“護城河”和賺錢的工具,一旦共享就會失去競爭優勢;而開放原始碼的邏輯是模型越開放,生態越繁榮,蛋糕才能越做越大。網際網路巨頭:戰火從“參數比拚”燒向“應用落地”。DeepSeek V4發佈僅一天後,阿里雲百煉就火速上線,API價格與官網一致;國家超算網際網路同步上線服務。科大訊飛、中關村科金、華為昇騰等廠商也在第一時間完成了適配對接。對於騰訊、字節跳動、阿里這樣的巨頭來說,V4的衝擊更多是戰略層面的:以前大家的競爭焦點是“誰的模型參數更大、榜單更高”,現在V4用700倍的成本優勢提醒所有人——接下來真正決定勝負的戰場,是誰能在真實業務場景中用模型創造價值。誰先學會“用好V4”,誰就可能在下一階段佔據卡位優勢。各行各業:一次從“能不能用”到“用不用得起”的跨越。在此之前,企業引入大模型最大的瓶頸不是技術夠不夠好,而是成本夠不夠低。一次API呼叫幾十上百美元的成本,對中小企業來說等於把AI鎖在實驗室裡。V4的出現改變了這一切。在金融行業,國泰海通率先完成DeepSeek-V4基於昇騰的本地化部署,將依託模型實現在智能投行、智能投研、智能投顧、智能風控等八大業務領域的全面突破。保險行業聚焦投保、核保、理賠查勘等高重複性、知識密集型和互動高頻度場景展開部署。在醫療領域,深圳市南山區人民醫院基於昇騰率先部署V4,全面升級了政策諮詢、醫保監管、門診病歷質控等30余項應用,全方位覆蓋醫療全流程。廣西移動落地部署V4,聚焦行銷服務、研發設計等核心領域,全面賦能16個業務場景。河北交投智能科技公司在行業內率先完成V4本地化部署,建構了“自主創新算力+頂尖大模型”的全端自主創新AI底座。從金融到醫療,從通訊到交通——DeepSeek V4發佈後24小時內,各行業頭部企業就火速跟進部署。這本身就是最好的訊號:當AI足夠便宜,企業就不再觀望。“用得起”的真正意義,在於讓AI從實驗室資源變成基礎設施,從而催生前所未有的創新。三、AI便宜到人人敢用,模式才敢真變如果說過去兩年AI的變革是“天變了”,那麼V4之後,我們才第一次站在真正的變局起點上。為什麼這麼說?因為模式創新的土壤不是技術能力本身,而是足夠低的試錯成本。當一個團隊可以毫不心疼地跑十次不同提示詞、對比輸出質量而不是在意API帳單,產品經理可以大膽設想的每個互動都即時呼叫AI,企業可以把AI植入到那些“不太重要但希望更好的環節”——這才是模式創新真正開始的時候。DeepSeek V4的Agent能力經過了專門最佳化。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,交付質量接近Claude Opus 4.6非思考模式;在世界知識測評中大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1;在數學、STEM、競賽型程式碼等推理任務中超越所有已公開評測的開源模型。V4-Pro還在Codeforces程式設計任務中拿下3206分的測評成績,位列全球活躍使用者第23位。這意味著,過去只有頂級閉源模型才具備的強大執行能力,現在以1/700的價格向所有人開放。中小企業可以部署自動處理客戶問題的7×24小時AI客服系統;個體開發者建構的Agent能自主呼叫API完成多步任務;創業公司可以在產品中“鋪滿AI”,讓大模型程式碼改寫、文件生成、資料清洗成為功能的默認組成部分。當AI便宜到可以和“發一條簡訊”比較成本的時候,所有行業都值得重新問自己一個問題:如果AI呼叫幾乎是免費的,我的產品應該長什麼樣?四、Token經濟的興起:當消耗量三年增長一千多倍在把模型做得更高效、更便宜的同時,一個更深層的經濟變革正在發生。Token——大模型的基本計量單位——正在從後台技術參數變成AI經濟的前台結算單位。商湯科技大裝置產品總經理盧國強在2026中國生成式AI大會上提出的“AI Token Factory”概念,精準概括了這一趨勢:行業正在從“AI原生”邁向“Agent原生”,Token替代Flops成為新的度量衡,AI系統的核心使用者將從人轉向Agent。Token消耗量的增長數字令人震撼。國家資料局公佈的資料顯示,到2026年3月,中國日均Token呼叫量已超過140兆,相比2024年初的1000億增長了1000多倍,相比2025年底的100兆,短短三個月又增長了40%以上。中國工程院院士鄭緯民指出,AI產業的競爭核心正從MaaS(模型即服務)向TaaS(Token即服務)躍遷,從比拚算力叢集規模轉向比拚每瓦Token生產效率。圍繞Token經濟的整套產業邏輯正在逐步成型:生產層:對應算力、晶片、資料中心與推理引擎,把Token作為核心產品來組織基礎設施。分發層:對應雲平台、大模型廠商與API服務商,將底層能力打包按量計費分發。轉化層:對應各行業的AI原生應用和Agent系統,將Token轉化為實際的業務結果。阿里巴巴已正式成立Alibaba Token Hub事業群,騰訊雲將MaaS平台升級為TokenHub,行業從藍海迅速變為紅海。Token兩年激增千倍,智能體市場規模2025年達78.4億元,預計2026年將達135.3億元,增速超過70%。Token正從技術參數,變成AI時代最核心的生產資料和度量衡。誰能高效生產Token、精準分發Token、有效轉化Token,誰就能在智能經濟的新賽道上佔據先機。五、變局中的挑戰與耐心V4帶來的不可能全是好消息。巨大的機遇背後,挑戰同樣不容迴避。安全邊界重構需要時間。 當模型能夠讀取百萬token的超長上下文,風險不再只存在於使用者的當前問題中,而可能藏在龐大材料的某個角落——長長的郵件鏈的腳註裡、PDF的不可見區域中、程式碼註釋裡或歷史聊天記錄中。攻擊者可以把惡意指令藏在這些地方,在模型執行複雜的跨文件推理時“潛伏發動”。強制長上下文安全做前置治理,對使用者指令和外部資料做來源標註和風險掃描,已經成為迫在眉睫的工程需求。落地到用好有個過程。 企業部署了V4並不等於馬上獲得商業價值。從部署到真正融入核心業務流程創造收益,中間還有漫長的產品化、場景適配和組織變革之路。Token成本大幅下降後,產品經理如何在AI能力邊界內重新設計功能,才是決定成敗的關鍵因素之一。地緣政治與算力安全需要關注。 DeepSeek-V4首次在官方技術報告中,將華為昇騰與輝達GPU並列寫進硬體驗證清單,這是中國大模型首次將國產晶片與進口晶片放到了同等戰略高度。適配的昇騰新款推理晶片採購價格僅為輝達晶片的1/4,端到端延遲比原有叢集降低35%。輝達CEO黃仁勳此前警告稱:“如果頂尖的AI模型被最佳化在華為晶片上運行,對美國而言將是可怕的後果”。V4的發佈標誌著中國AI基礎設施的重心正從依賴美國半導體轉向本土化算力底座建構。但技術代差客觀存在,DeepSeek也坦承其能力整體落後於同期主要閉源對手約3至6個月。六、變局的開端才剛剛到來回到標題的那個判斷:DeepSeek V4是AI開源大事件,更是產業變革新開端。是的,事件已經發生——V4-Pro和V4-Flash雙雙開源,百萬上下文成為標配,API定價低至全球閉源競品的1/700,Agent能力逼近頂尖水平。但真正的變革才剛剛開始。因為V4真正的意義,不在於它本身有多強,而在於它重新定義了什麼才是AI產業真正的“兵家必爭之地” 。V4向行業宣告:當模型能力開始逐步趨同(開源會逐步追平閉源),真正決定勝負的將是:誰能讓AI更便宜、更易用、更快地融入真實世界。從長遠來看,AI產業的終極形態是:大模型成為像電力一樣的基礎設施,上面的Agent和智能應用才是創造價值的核心。而DeepSeek V4用700倍的成本優勢一次性把基礎設施的“電費”降到了幾乎可以忽略不計的水平。接下來,誰能在上面建造出更有創造力的智能應用,誰才是真正的贏家。2026年4月24日以前,AI還在比拚“能力的天花板”。從這一天開始,AI產業的真正競賽才剛剛開始。 (數字新財報)
商湯發佈多模態“效率怪獸”,開源即SOTA!最小僅8B,比肩商用
實測:15秒出高密度資訊圖,還能圖文一步到位。當GPT images 2.0又再一次搶佔頭條,人們對多模態模型的關注也在悄然變化:“畫得好”已經不再是問題了,我們還想要“速度快、效率高、成本低”。過去很長一段時間裡,視覺理解與圖像生成,往往被拆分為兩套體系:前者負責“看懂”,後者負責“畫出”,中間通過不同模組進行銜接。這種在底層邏輯上的割裂,是阻礙模型效率的核心。商湯這次的思路,是從架構層面直接處理這個問題。他們剛剛開源了原生理解生成統一模型SenseNova U1,便基於自研的NEO-unify架構,將圖像與文字的理解與生成能力統一到同一體系中,沒有了“中間商”之後,效率得到大幅提升。在圖像理解與生成的多項基準測試中,SenseNova U1 Lite在同量級開源模型中達到SOTA水平,並在多項指標上逼近商業閉源模型表現。以8B參數規模,實現接近更大模型的能力,得到“以小搏大”的表現。▲高密度資訊圖(en)▲高密度資訊圖(zh)目前,使用者可以在Hugging Face、GitHub獲取開源模型。同時,商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1,使用者可直接體驗相關能力。01. 不堆參數,靠效率取勝:8B模型拿下開源SOTA本次開源包含兩個版本:SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT,均基於統一的多模態理解、推理與生成架構,面向圖文理解、生成及複雜互動任務。如果從測評結果來看,SenseNova U1最突出的優勢,在於整體效率——在理解、生成、推理與圖文交錯多個維度上,用更小的模型規模,跑出了接近甚至逼近商業閉源模型的表現。在理解側,SenseNova-U1-8B-MoT在AI2D、IFBench等基準上均取得領先表現,例如在AI2D上達到91.7分。結合空間理解相關測試,可以看到模型在複雜結構與關係判斷等任務中表現穩定,具備一定的邏輯推理能力。在生成側,模型在GenEval、OneIG、LongTextBench等任務中表現穩定,能夠同時兼顧複雜結構生成與文字一致性。尤其是在資訊圖生成(Infographics)任務中,平均得分達到50.7,是開源模型最強,媲美部分閉源商業模型。進一步看編輯與圖文交錯能力,在Editing、Visual Reasoning等任務中,SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測試中表現突出。例如在OpenING相關任務中達到91分,在視覺推理任務中也明顯優於傳統圖像生成模型。但相比這些分項成績,更關鍵的是它的“性能—效率比”。從對比結果來看,在資訊圖生成與長文字等任務中,SenseNova U1在約15秒延遲下即可取得接近60分的平均成績,整體屬於“高性能、低延遲”。對比Qwen-Image 2.0 Pro、Seedream 4.5等模型,其在生成質量接近商業閉源模型的同時,響應速度更快。▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench這些性能表現背後,主要還是來自底層架構的優勢。SenseNova U1基於商湯自研的NEO-unify原生統一架構,在設計上減少了中間環節帶來的資訊損耗,因此在資料利用效率和推理開銷上更有優勢。最終呈現出來的,才得以是“以小搏大”的優勢:僅用8B參數規模,在多個維度達到同量級開源模型SOTA,並在部分任務上逼近商業閉源模型。從測評結果來看,這種優勢已經比較清晰。至於落到真實使用場景中,SenseNova U1是否同樣穩定、好用,我們來實測一番。02. 一手實測揭秘:從立體排版到“言出法隨”智東西選取了多個不同類型的任務進行測試,覆蓋高密度資訊圖、趣味創意圖以及技術流程圖等典型場景。創作資訊圖可以說是最能“精準擊中”職場人的能力。使用者只需要輸入文章、資料或文字說明,模型就能將其中的關鍵資訊提煉出來,並生成一張具備結構、層級和視覺重點的資訊圖。在“蘇超出圈之路”這一案例中,模型就生成了一張多層蛋糕式資訊圖。不同階段以立體分層形式呈現,文字隨著結構自然分佈在不同空間層級中,而不是簡單平鋪。這背後其實反映的是模型對結構的理解能力。更關鍵的是,在這種複雜排版下,整張圖沒有出現明顯的文字錯位、遮擋或渲染錯誤,整體可讀性很高。換一個更複雜的文字場景來看,模型對富文字結構的理解能力,體現得更明顯:那些資訊需要突出,那些適合做流程,那些更適合用圖表表達,那些需要用圖示輔助理解。“龍蝦使用指南”這個案例,就更能體現細節處理能力。這一任務中包含大量中英文混排、不同字號文字以及情緒化表達。模型不僅把“禁止模糊指令”“禁止無限重試”這些核心文案寫對了,還自動匹配了對應的圖示和帶情緒的畫面,比如龍蝦被“壓榨”、被“投喂指令”等。不同模組之間的文字大小、間距和佈局都處理得較為合理,沒有擠在一起,已經達到直接商用的水準了。在人物與指令理解方面,“馬斯克vs奧特曼”這一案例更具代表性。在提示詞中僅輸入“奧特曼”這一暱稱,模型直接生成了一個穿西裝的“奧特曼形象”,與旁邊的馬斯克形成對比,既符合語義又帶有明顯的趣味性。與此同時,馬斯克的表情、動作以及整個對峙氛圍也都比較到位,可見模型在人物理解和場景建構上具備較強的語義對齊能力。到了技術表達這一步,難度其實更高。在“SenseNova U1技術解讀”這一案例中,模型需要生成的是一張邏輯清晰的技術流程圖。從結果來看,整體結構層級清晰,資訊分區明確、表達直觀,對於非技術讀者也較為友好。一輪實測下來,另一個比較直觀的感受是速度。這類圖像的生成基本都在十幾秒內完成,有點接近“言出法隨”的感覺。在這樣的生成效率下,各種應用場景也不在話下。目前,SenseNova U1可生成資訊圖譜、專業簡歷、生活指南、產品說明、百科知識、漫畫創作等多種內容。對行銷、辦公、設計、商業分析等場景來說,這類能力直接對應的是內容生產效率提升。03. 告別“縫合”,NEO-unify架構如何成為理解與生成的“通才”?測評整合績有優勢,實測效果也毫不遜色,這個原生框架究竟好在那裡,我們來拆解一下。過去,多模態模型的工作方式更像是“分工協作”:視覺編碼器負責理解圖像,變分自編碼器負責生成圖像。前者看圖,後者畫圖,中間再通過不同模組完成銜接。理解與生成更像兩條平行的流程,能配合,但很難真正融合,所以SenseNova U1這次選擇直接推倒重建,從底層架構上直接改掉這套“拼接式”體系。其採用的自研NEO-unify架構,不再把語言和視覺當作需要中間轉換的兩種訊號,而是從一開始就把它們當作同一類資訊來建模。換句話說,語言與視覺不再各走各路,在同一套表徵體系裡共同參與理解、推理和生成。這種設計本質上回到了“多模態AI第一性原理”:不同模態之間本來就是內在關聯的。在具體實現上,模型儘量減少中間壓縮與轉換環節,直接從接近原始的像素和文字資訊中學習,讓資訊在傳遞過程中損耗更小。同時,它的資料和推理效率也更高。這也是SenseNova U1值得關注的地方:並不是單純靠堆參數規模換效果,而是在底層架構上重新處理多模態模型的協作方式。04. 當AI學會“帶圖思考”展開空間智能更多想像不同於GPT-image2單純圖像上的“卷王體質”,SenseNova U1也展示了另一種可能:讓圖像成為邏輯的一部分,並在推理過程中引入對空間結構的理解。這也是其“連續性圖文創作輸出”的能力核心。SenseNova U1是業內首個能夠在單一模型上進行連貫圖文交錯生成的模型。這意味著,在處理複雜任務時,模型可以一邊解釋邏輯,一邊生成對應的示意圖、流程圖、草圖或設計圖。例如在教學、在繪本故事等場景中,它可以讓文字敘事、插圖風格、人物事件等保持一致性與連貫。同時,SenseNova U1並不是先生成一段完整文字,再去“補圖”,而是從材料準備或構圖草稿開始,一步步輸出關鍵操作,並同步生成對應畫面。整個生成過程是連續的:步驟之間有承接關係,圖像之間保持風格一致,文字和視覺內容也始終圍繞同一上下文展開。這種連貫性,在過去依賴多模型串聯的方案中很難穩定實現,往往會出現風格漂移或資訊斷裂。本質上,這得益於SenseNova U1所具備的原生圖文理解生成能力,能天然將圖像和文字底層融合訊號完整的保留上下文中,在統一表徵空間進行高效連貫思考。這也讓它和空間智能產生了更直接的聯絡。空間智能關注的是模型如何理解位置、方向、佈局、關係和結構,而這些能力恰恰會在圖像生成、高密度資訊圖排版、流程圖建構和場景示意中反覆出現。如果繼續往後看,這類能力也可能成為具身智能的重要基礎。機器人要在真實環境中完成任務,不僅要“看見”物體,還要理解物體之間的關係、判斷行動路徑,並根據任務目標做出連續決策。從這個角度看,SenseNova U1的意義不只是生成更好看的圖,而是在單一模型中嘗試打通理解、推理和視覺表達。它距離真正成為機器人的“具身大腦”還有距離,但這類統一架構,至少提供了一條更接近多模態閉環的技術路徑。05. 結語:理解與生成走向統一多模態模型進入分岔口從底層架構的NEO-unify創新,到應用層面的原生圖文交錯與高密度資訊圖生成,商湯的全面開源,不僅是參數規模上的“以小搏大”,更是對多模態第一性原理的深度回歸。當行業還在討論生圖模型的真實邊界時,SenseNova U1已經通過理解與生成的統一,為AGI的到來鋪就了一條更具效率的路徑。開放原始碼的力量將讓這種原生多模態能力迅速滲透進每一個垂直行業,我們正在見證的是一個“圖文同構、思畫合一”的全新時代的開啟。在大模型全球競賽的下半場,國產模型正在輸出屬於自己的硬核解法。 (智東西)
DeepSeek-V4開源SOTA!總參數1.6T,最大開源模型;Flash版輸出僅0.28 美元/百萬token;與OpenClaw無縫整合
千呼萬喚始出來,ChatGPT-5.5還剛發佈不久,國產之光DeepSeek-V4也終於露面了!就在今天上午 11 點 24 分,DeepSeek 在 X 上官宣:DeepSeek-V4 預覽正式上線並開源!這次預覽共有2個版本,總參數 1.6T 和啟動參數 49B 的DeepSeek-V4 Pro 和總參數 284B 和啟動參數 13B 的DeepSeek-V4 Flash。DeepSeek宣稱前者性能可與全球頂級閉源型號媲美,後者是快速、高效且經濟的選擇。1.6T 的總參數,是目前最大的開源模型!與此同時,其官網也發佈了 DeepSeek-V4 Flash 和 Pro 版本的定價表,輸入輸出 token 價格極低,Flash 版輸出僅 0.28 美元/百萬 token,遠低於主流競品。X上網友都很興奮,紛紛刷屏:“鯨魚回來了”!還有人做了一張梗圖,把V4 Pro放在一眾強大的閉源模型之中。不過 DeepSeek 的目標顯然也確實是成為開源人工智慧領域的領軍企業。基準測試:開源SOTA對於DeepSeek-V4-Pro,在Agentic編碼基準測試中,它達到了開源SOTA水平,Agentic能力顯著增強。在世界知識豐富程度上,它在開源界難逢敵手,目前也就僅次於 Gemini-3.1-Pro 一點點。在數學/STEM/程式設計領域,它超越了所有的現有開源模型,邏輯推理能力已經媲美頂級閉源模型。對於DeepSeek-V4-Flash,它的推理能力接近V4-Pro,在在簡單的代理任務上表現與 V4-Pro 相當,但是參數更小,響應更快,API定價極具成本效益。在X上,還有人發佈了V4在自有Vibe Code基準測試中表現如何。結果顯示,V4不僅排名第一,而且把排名第二的(Kimi K2.6)遠遠甩在身後,甚至超過了像 Gemini 3.1 Pro 這樣的前沿閉源型號。與Claude Code、OpenClaw 等無縫整合在今年的Agentic潮流下,DeepSeek也針對Agent功能進行了專門的最佳化。V4已經與Claude Code、OpenClaw 和 OpenCode 等領先的 AI Agent無縫整合。同時,DeepSeek內部也已經推動Agent編碼工作。官方還展示了使用V4-Pro生成的PDF示例。API也已上線!使用者可以保留 base_url,只需將模型更新為 deepseek-v4-pro 或 deepseek-v4-flash。同時兩種模型都相容 OpenAI/Anthropic API 格式,並支援 100 萬 token 上下文和最高 38.4 萬 token 輸出,並且都具備思考模式和工具呼叫等特性。架構創新:新奇的注意力機制DeepSeek-V4為什麼這麼強?因為它在模型架構上玩出了新花樣。在架構創新方面,DeepSeek-V4 在 DeepSeek-V3 的基礎上引入了三項關鍵架構升級:流形約束超連接、混合注意力機制和DeepSeekMoE最佳化。其中,最新奇的是,他們提出了基於token的壓縮和DSA(DeepSeek 稀疏注意力)的混合注意力機制。混合注意力包括壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)兩種,二者會交替使用,這大幅降低了長文字場景下的計算 FLOPs 和 KV 快取佔用。另外,在訓練方法上,通過 FP4 量化感知訓練 MoE 權重,減少了記憶體佔用並加速了計算,未來硬體支援後可進一步提升效率 。還有一個值得注意的細節是,V4模型中新增了 "Max"(最大推理努力)模式。它通過擴展推理 token 和增加思考預算,使模型在處理高難度程式碼和推理任務時達到了 SOTA 水平。就這樣通過創新核心技術和最佳化訓練方法,DeepSeek-V4 在 1M token 上下文設定下,V4-Pro 的單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 快取大小僅為 10%。換句話說,V4 達到了世界領先的長下文容量,並大幅降低了記憶體成本。V4 讓“中國開源普惠路徑”越來越香1M上下文意味著模型能一口氣讀完一本書、啃完整個程式碼庫。配合白菜價API,全球開發者都能玩轉頂級AI。世界正分裂成"西方閉源收費路徑和"中國開源普惠路徑”,而V4讓後者越來越香。但 DeepSeek-V4 的意義遠不止“好用不貴”和研發出了更強的模型,更在於三個層面的證明:在技術層面上,他的存在意味著開源模型可以追上頂級閉源模型;在產業層面上,它意味著在國內已有算力條件下,依然可以支撐頂級模型的研發;在戰略層面上,它意味著中國AI已經走出了獨立且可擴展的路徑! (51CTO技術堆疊)
輝達發佈全球首個開源量子AI模型
輝達發佈開源量子AI模型家族“Ising”,瞄準量子處理器校準與量子糾錯兩大核心瓶頸,將校準時間從數天壓縮至數小時,並顯著提升糾錯速度與精度。當地時間周二,輝達宣佈其開源模型家族迎來新成員——“伊辛”(Ising)量子人工智慧模型,用於加速量子處理器的開發。受到“全球股王推動量子計算落地”的消息刺激,量子計算類股周二集體沖高。截至收盤,SEALSQ漲21.03%、IonQ漲20.16%、D-Wave Quantum漲15.84%、量子計算公司漲11.55%、Rigetti Computing漲11.50%。簡要來說,輝達的模型對應將量子計算器轉變為可靠電腦的兩大痛點:量子處理器校準和量子糾錯。據輝達介紹,全球首個開源量子人工智慧模型包括“伊辛校準”視覺語言模型,快速解讀並響應來自量子處理器的測量結果,使得AI代理能夠持續自動化校準,並能把所需時間從數天縮短到數小時。另外還有兩個3D摺積神經網路解碼模型變體,分別正對速度或精度進行最佳化,用於量子糾錯的即時解碼。比起開源行業標準pyMatching,輝達模型的運行速度最高提升約2.5倍,解碼精準率最高提升約3倍。輝達的戰略意圖也體現在模型命名上。這個模型的名字源自物理學家恩斯特·伊辛的伊辛模型,通過簡單的局部相互作用規則解釋宏觀系統如何自發產生相變和集體現象。除了物理學外,伊辛模型的思想還廣泛應用於AI、金融市場、輿論傳播和量子計算領域。也就是說,輝達試圖將方興未艾的量子計算領域與公司算力體系進行繫結,推出一套量子計算時代的AI控制系統(Ising)和GPU算力平台(CUDA-Q)。輝達掌門黃仁勳在新聞稿中表示:“要讓量子計算真正走向實用,AI至關重要。借助Ising,AI將成為量子計算的控制層,也就是量子機器的作業系統,把脆弱的量子位元轉變為可擴展且可靠的量子GPU系統。”發佈之初,這套系統已經走進全球頂級科學實驗室和公司。輝達介紹稱,“伊辛校準”模型已被費米國家加速器實驗室、勞倫斯伯克利國家實驗室先進量子測試平台、英國國家物理實驗室、哈佛大學、IonQ、Infleqtion等機構採用。“伊辛解碼”模型也已經部署於桑迪亞國家實驗室、康奈爾大學、芝加哥大學、IQM Quantum Computers等機構。 (科創板日報)
李飛飛世界模型“殺手鐧”開源!網頁3D大場景秒開,手機暢跑1億點雲
3DGS迎來史詩級升級。智東西4月15日報導,今天,“AI教母”李飛飛的世界模型團隊World Labs開源了動態3D高斯潑濺(3DGS)渲染器Spark 2.0。▲Spark 2.0官宣開源(來源:X)李飛飛本人在該成果發佈的第一時間評論稱:“Spark 2.0現在可以在任意裝置上流式傳輸超過1億個高斯潑濺!能夠為基於網頁的3DGS渲染開源生態做出貢獻,我們感到無比自豪!”▲李飛飛評論(來源:X)Spark系列模型於去年首次發佈,是一個專為網頁建構的動態3D高斯潑濺(3DGS)渲染器。它與網頁端最流行的3D框架THREE.js整合,並利用WebGL2在任意帶有網頁瀏覽器的裝置上運行,包括桌面端、iOS、Android以及VR裝置。與上一版本相比,Spark 2.0新增了一套細節層級(LoD)系統,能夠在任意裝置上流式傳輸並渲染超大規模的3DGS世界。▲在兒童房間裡自由探索,物品細節清晰(來源:World Labs部落格)此外,新版還使用了.RAD的3DGS檔案格式,支援漸進式細化的流式傳輸,而虛擬潑濺分頁系統則通過固定的GPU記憶體分配,實現了對無限潑濺世界的訪問,通俗來講就是可以渲染無限大的3D場景。▲草原中的洞穴小屋,場景轉換無畸變(來源:World Labs部落格)如此流暢連貫的效果是怎麼實現的?針對大規模場景的擴展難題,Spark 2.0運用了3項圖形學與系統底層方案:細節層次最佳化、漸進式流式載入以及虛擬視訊記憶體管理。李飛飛團隊在部落格中,對Spark 2.0背後的三項技術進行了十分詳細的展開,具體如下:01. 採取連續式細節層級穩定渲染百萬級潑濺在電腦圖形學中,處理大型3D場景時常常採用細節層級系統,該系統會根據物體與觀察者之間的距離自動調整渲染的細節程度,不同的細節層級方法介於離散式與連續式之間,形成一個技術譜系。採用離散式細節層級(LoD,Level-of-Detail)時,系統需要為潑濺效果製作多個版本,從精簡到精細依次遞增,再根據各版本的近似邊界與相機的距離,在不同版本間進行切換。Spark的早期系統設計支援離散模式,但其存在明顯缺陷:當使用者在場景中移動、不同版本突然切換時,畫面會出現明顯的跳變;此外,將潑濺效果按區塊分組後,使用者還能看到清晰的邊界痕跡。Spark 2.0的LoD設計採用了一種連續式LoD方法,所有潑濺都存在於一個層級結構中,即LoD潑濺樹。Spark 2.0會沿著樹的一個邊界切割面單獨選取潑濺,從而在視口內最佳化潑濺的細節。▲LoD潑濺樹(來源:World Labs部落格)樹中的每個內部節點都是其子節點的一個低解析度版本,通過將子節點的多個潑濺合併成一個新的潑濺來近似表示子節點潑濺的形狀和顏色。這個過程一直持續到樹的根節點——一個單一的、大的潑濺,它聚合了該物體中所有潑濺的整體形狀和顏色。利用這棵LoD潑濺樹,Spark 2.0會計算出穿過該樹的一個“切片”,從而為當前視口選取最佳的N個潑濺進行渲染。通過設定一個最大潑濺預算N(根據裝置類型不同,通常在50萬到250萬個潑濺之間),系統確保每幀只需渲染恆定數量的潑濺,從而獲得穩定、高影格率的渲染性能。通過上下調整N值,即可在影格率和潑濺細節之間進行權衡。▲公園中的自行車,細節真實,前後一致性強(來源:World Labs部落格)Spark 2.0通過同時遍歷多個LoD潑濺樹實例,對該演算法進行了進一步擴展。與僅從單一根節點開始遍歷不同,針對每個3DGS物體,拓展後的演算法會將其螢幕尺寸及潑濺節點 (dm0,Sm0) 一同加入初始優先佇列,後續流程與原有邏輯保持一致,可在場景中所有3DGS物體上同步篩選需細化的細節層級。這一設計讓大規模組合世界的建立變得簡單高效:只需在空間任意位置加入3DGS LoD物體,Spark 2.0便能自動計算出每幀需渲染的所有LoD潑濺的最優全域子集。02. 設計新型檔案格式大場景3D世界在網頁上秒開Spark2.0定義了一種新的檔案格式.RAD(代表RADiance場),該格式能夠壓縮3DGS資料,並支援隨機訪問流式傳輸,從而在資料通過網路傳輸時實現漸進式細化。目前最常見的兩種3DGS資料檔案格式是.PLY和.SPZ,它們代表了兩種不同的資料編碼方式:行式儲存和列式儲存。.PLY檔案是按行順序儲存的,在接收到資料後立即顯示潑濺,從而實現漸進式載入。但它未經過壓縮,且編碼精度存在浪費。.SPZ檔案將相似類型的資料按列順序儲存在一起,從而獲得了更好的壓縮率。但遺憾的是,它無法實現漸進式載入,因為在任何潑濺獲得其所有屬性之前,必須接收完整的檔案。為實現3DGS資料的高效壓縮與流式傳輸,李飛飛團隊設計了全新的.RAD檔案格式。該格式編解碼簡潔、擴展性強、編碼精度可調節,同時支援隨機訪問。▲.RAD檔案格式(來源:World Labs部落格)檔案結構十分清晰:以RAD0檔案頭開頭,隨後依次為頭部中繼資料長度、中繼資料JSON,以及一個或多個各含6.4萬個潑濺的資料區塊。頭部中繼資料記錄了所有資料區塊的偏移地址與字節大小,支援任意順序讀取資料區塊內容。單個資料區塊也採用相似結構:以RADC塊頭起始,接著是塊中繼資料長度、中繼資料JSON,最後為該6.4萬個潑濺的壓縮資料。潑濺各項屬性按列儲存,可分別選用自訂編碼方式。同類資料集中存放,再通過Gzip壓縮,能獲得出色的壓縮率。頭部採用JSON編碼,可通過版本欄位與新增可選欄位保障後續擴展。資料類型編碼與壓縮演算法均以字串名稱在中繼資料中指定,方便後續擴展新類型。03. 採用虛擬記憶體開闢1600萬潑濺固定視訊記憶體池虛擬記憶體是一項記憶體管理技術,它以固定大小的實體記憶體為基礎,向程序提供大容量的虛擬地址空間,並通過頁表以固定尺寸的頁為單位,完成虛擬地址與實體位址的對應。Spark 2.0將這一思路應用到3DGS渲染中。具體來講,李飛飛團隊在GPU上開闢了一塊可容納1600萬個潑濺的固定視訊記憶體池,自動管理GPU中每6.4萬個潑濺為一頁的“視訊記憶體頁”,與.RAD檔案中對應大小的虛擬資料區塊之間的對應。▲虛擬記憶體(來源:World Labs部落格)資料區塊會按照LoD遍歷順序載入到空閒頁面中;當頁表佔滿,且新資料區塊優先順序更高時,系統會按最近最少使用(LRU)策略淘汰舊資料。Spark 2.0支援同時載入多個.RAD檔案並共用同一張頁表。對每個檔案,系統會記錄資料區塊到頁表的對應,以及頁表到對應檔案與資料的反向對應。在遍歷多棵LoD潑濺樹時,引擎會記錄資料區塊與檔案的訪問順序,形成全域統一的優先順序排序,進而對場景中所有3DGS物體的潑濺載入與儲存進行統一最佳化。04. 結語:Spark 2.0降低空間智能的創作門檻爭奪基礎設施定義權從2025年的首次亮相到今日的2.0版本迭代,Spark的進化軌跡某種程度上也對應著3DGS這一技術的成熟曲線。三維內容的交付長期以來被兩座大山壓著:一是資產太重,動輒GB級的檔案讓網頁端望而卻步;二是渲染太貴,高端GPU才能流暢運行的場景,手機瀏覽器只能圍觀。Spark 2.0通過連續LoD、.RAD格式和虛擬視訊記憶體“三板斧”,讓高品質三維內容像普通圖片和視訊一樣,在網際網路上自由流動、即點即看。李飛飛團隊選擇將該技術開源,降低了空間智能的創作門檻,同樣也是在爭奪下一代空間內容基礎設施的定義權。 (智東西)
開源模型首超Opus4.6!智譜GLM-5.1登場,14小時後CUDA專家被沖了
最佳化CUDA Kernel這件事,剛剛被AI狠狠地衝擊了一波。因為現在,給AI十四個小時,它就能幫你把CUDA Kernel最佳化,加速比從2.6×推至35.7×!什麼概念?以前人類資深CUDA工程師要完成這個任務,需要數月反覆測試、調優、推翻重來才行;但現在,AI在你睡覺的時候就能解決掉。而且AI在這個過程中還展現出了專家級的直覺。例如在最佳化初期,它嘗試在現有高層框架內尋找解法,但很快通過自主跑測試發現性能觸及了天花板,然後它便做出了人類專家才有的決策——自主判斷放棄高層框架,直接轉向底層C++進行硬核重寫。整整14個小時裡,這個AI主打一個全自動:AI自己發現瓶頸,自己改變技術堆疊,自己重新編譯,自己測試。那這到底是何許AI是也?不賣關子,正是大家熟悉的,來自智譜的開源模型——GLM-5.1。隨著這次長程任務(Long Horizon Task)能力的提升,智譜官方也宣佈了一個重要的突破:首次解鎖了開源模型與當前全球最頂尖閉源模型Claude Opus 4.6的全面對齊!嗯,是妥妥穩坐全球最強開源模型寶座的感覺了。而且,從更多的權威評測榜單中來看,也是印證了這一點。在被稱為“軟體工程能力試金石”的SWE-bench Pro基準測試中,GLM-5.1刷新了全球最佳成績,直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型,拿下全球第一:甚至在海外網友們的圈子中,已經吹起了棄用Claude Max的風了:它的手感和Opus一模一樣,使用額度是Claude Code的3倍,成本卻只有1/3。HuggingFace CEO也出面站台,稱SWE-Bench Pro中性能最強的模型開源了:而這一切成績的背後,正是智譜面向小時級的長程任務能力。給AI幾個小時,一切都不一樣了當前主流的大模型,可以說大多數還是處於“分鐘級互動”的階段。但到了GLM-5.1這邊,它的交付單位就不同了——一個完整的項目。接下來,我們就通過實測的方式,來看下GLM-5.1的實力到底幾何。呼叫工具1000輪,最佳化真實機器學習模型負載第一個實測,我們順著前面的CUDA的例子,繼續讓GLM-5.1進行一場考驗:KernelBench Level 3最佳化基準,這一基準涵蓋50個真實機器學習計算負載,主打一個還原真實工業場景,考驗的是端到端的完整最佳化能力而非單一算子偵錯。在超過24小時的不間斷迭代中,GLM-5.1全程自主發力,無需人類專家干預,一遍遍完成“編譯—測試—分析—重寫”的閉環循環,最終交出了這樣的結果——3.6倍幾何平均加速比,而作為對比,torch.compile max-autotune模式僅能達到1.49倍,差距直接翻倍不止!從這個過程中可以看到,GLM-5.1能夠自主編寫定製Triton Kernel和CUDA Kernel,運用cuBLASLt epilogue融合併實施shared memory tiling與CUDA Graph最佳化。這些最佳化策略覆蓋了從高層算子融合到微架構級調優的完整技術堆疊,每一步都是模型的自主決策。結果再次表明,在GPU核心最佳化這一傳統上高度依賴專家經驗的領域,AI模型已經展現出從問題分析、方案設計到迭代調優的端到端自主工作能力。1小時從零建構MacOS桌面環境在這個實測中,我們給GLM-5.1扔了一份3000字的PRD,核心要求只有一個:從0開始復刻MacOS核心UI與互動,不僅要前端殼子,還必須包含窗口管理器、Dock欄調度、以及模擬的底層檔案系統。這是一個標準的前端工程團隊至少需要數天才能打磨出原型的任務,但在GLM-5.1這裡,時間被壓縮到了小時等級。瞧,待它分析完任務之後,自己就開始唰唰地程式設計了:1個小時之後,在沒有任何人工參與的情況下,一個MacOS的桌面環境,就這麼水靈靈地誕生了!可以看到,更改桌面背景、放大縮小Docker、終端命令執行、系統自帶的截圖功能等,統統都能實現。而在智譜官方的demo中,展示了GLM-5.1耗時8小時實現的更加複雜的Linux系統:執行了1200多步,完整的桌面、窗口管理器、狀態列、應用程式、VPN管理器、中文字型支援、遊戲庫等……相當於一個4人團隊一周的開發工作量。不得不說,現在GLM-5.1的每一次提交,都是具有實質意義的系統級演進。全自動重寫屎山程式碼寫程式碼的人都知道,比從零寫一個新項目更痛苦的,是重構別人留下的屎山程式碼。但現在有了GLM-5.1,我們可以把這個任務交給它來處理了。例如這段程式碼就堪稱是屎山中的經典:變數名完全無意義、五層巢狀if、重複計算總和三遍、全域變數到處亂改、函數幾百行不拆分……能運行嗎?能運行;噁心嗎?也是真噁心。而在GLM-5.1隻需半小時的自動重寫之後,一份註釋清晰、符合標準的程式碼就誕生了:655次迭代,打破向量資料庫性能瓶頸如果說重構程式碼還只是把已有的東西做好,那向量資料庫最佳化,考驗的就是AI自主迭代、持續突破的能力。這也或許正是人類資深工程師最核心的價值。在這項測試中,GLM-5.1的需求是最佳化現有向量資料庫的查詢性能,儘可能提升QPS。隨後,它開啟了完全自主的“測試-分析-最佳化-再測試”閉環。每一輪最佳化後,它都會主動跑完整的Benchmark,獲取QPS、延遲、記憶體佔用等核心資料,自主分析性能瓶頸。最終,在655輪迭代之後,GLM-5.1把向量資料庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS,提升到初始正式版本的6.9倍。AI能獨立工作多久,成了新標準之所以GLM-5.1這次能夠炸場,本質上是它踩中了AI行業的下一個核心賽點:長程任務(Long Horizon Task)能力。2025年3月,全球頂尖的AI安全研究機構METR(Model Evaluation and Threat Research)便提出了一個徹底改變行業認知的新指標,叫做Task-Completion Time Horizon(任務完成時間線)。這個指標的核心思想是,不再用做題的精準率來衡量模型有多聰明,而是用時間來衡量它能獨立完成多長時間的人類專家任務。研究顯示,前沿模型的時間線每7個月就會翻一倍,這條指數曲線,被MIT Technology Review稱為“AI領域最重要的一張圖”。紅杉資本更是在2026年初直接宣告:“這就是AGI的核心方向”,並直言:2023-2024年的AI,是只會對話的“talker”,而2026-2027年的AI,將成為能真正落地做事的“doer”。而GLM-5.1,是全球第一個在真實工程任務中,驗證了8小時持續工作能力的開源模型。它能在單次任務中,持續、自主地工作長達8小時,過程中自主規劃、自主執行、自主測試,碰壁時主動切換策略,出錯後自行修復,最終交付完整的工程級成果。GLM-5.1之所以能做到這一點,核心源於三個維度的系統性技術突破:第一,更強的長程規劃與目標保持能力。它能把一個複雜的大目標,拆解為可執行的多階段計畫,並且在長達十幾小時、上千步的執行鏈路中,始終圍繞最終交付目標推進。簡單來說,就是幹到第十步,還記得第二步定的規矩。第二,更穩的自適應糾錯與持續執行能力。它實現了程式碼編寫、工具呼叫、環境偵錯、API對接等多個環節的穩定銜接,中途出錯時,不會停下來等人工介入,而是會自主查看錯誤日誌、定位問題根源、修復bug,甚至自己寫回歸測試用例驗證修復效果。第三,更好的狀態延續與上下文整合能力。面對長時間跨度、多輪反饋和百萬級token的上下文資訊,它能穩定追蹤已完成的工作、當前所處的階段和下一步的核心動作,持續整合新的資訊,保持整個執行鏈路的一致性。開源模型看中國,更得看智譜GLM-5.1的出現,不僅是模型能力的升級,更改寫了全球大模型行業的敘事邏輯。長久以來,中國開源模型始終帶著追趕者的標籤,與美國頂尖閉源模型存在差距,而GLM-5.1徹底打破這一局面:它在權威榜單上對齊Claude Opus 4.6,在SWE-bench Pro等核心工程指標上實現反超,讓中國開源AI在核心工程能力上與全球前沿並駕齊驅。更重要的是,它的變革遠超模型本身,正重構兆級IT服務市場的底層邏輯。AI Coding的進化有清晰路徑:從程式設計師提效工具,到降低程式碼門檻,再到能自主做事的初級工程師,而GLM-5.1的Long Horizon能力,直接將AI推向能持續工作數小時、交付完整項目的新階段。當AI的交付單位從一行程式碼變為一個完整項目,便衝擊了整個軟體工程的生產關係——4人團隊一周的工作量、資深工程師數月的最佳化任務,它數小時就能完成,這將重構多個行業的定價與人力配置邏輯。當然,我們不必陷入AI會替代程式設計師的無謂焦慮。就像當年電腦的普及,沒有淘汰會計這個職業,只是淘汰了不會用電腦的會計;AI的到來,也不會淘汰開發者,只會淘汰不會駕馭AI的開發者。GLM-5.1的出現,真正給整個行業拋出的核心問題是:當AI已經能自主完成長達數小時的複雜長程任務,實現從規劃、執行、糾錯到完整項目交付的全閉環時,人類的不可替代性到底在那裡?答案或許就是定義問題、創造價值、做出核心決策的能力,畢竟這是AI暫時無法替代的核心護城河。而對中國AI行業而言,GLM-5.1隻是開始,當開源模型達到全球頂尖工程能力、AI從對話者變為執行者,行業必將迎來更徹底、更深刻的變革。 (量子位)
李誕爆猛料:有人用“龍蝦”釣出五個女主播……
01.2026開年第一頂流是什麼?毫無疑問,是開源AI智能體OpenClaw。因圖示酷似龍蝦,被網友們戲稱為“小龍蝦”。如果說我們現在使用的豆包、元寶只是“動口不動手”的顧問,那麼小龍蝦就是自帶手腳的員工。你只要喂飽足夠的資料,他就能直接上手替你幹活。於是,一夜之間掀起了一股“全民養蝦”潮。騰訊剛推出免費安裝龍蝦服務,一下午大樓就被圍得水洩不通。不知道的還以為是大爺大媽在搶雞蛋呢。馬化騰、周鴻禕等大佬都發文感慨:超乎想像。網上的代安裝服務也應運而生,安裝一次幾百塊,有人短短幾天就已經賺了20多萬。就連國家公務員都在養龍蝦了。這種感覺就好像如果你還不會養蝦,就已經被時代拋棄了。打住,先別焦慮。當一個東西開始爆火的時候,比起跟風,不如先讓子彈飛一會。現在的養龍蝦,水真的很深,簡直是一片魔幻的現狀。這兩天,李誕說,有人已經用小龍蝦成功約出來5個女主播吃飯。咋做到的呢?具體操作就是借助小龍蝦,對其關注的女主播自動打賞、傳送私信聊天,聊到一定好感後,就邀約出來用餐,定餐廳也是龍蝦定。用龍蝦,還可以分析出女主播的個人喜好,聊成功的機率更高。被投其所好的女主播以為遇到了懂自己的真愛,殊不知對面只是一行冰冷的程式碼,連個機器人都算不上。很多人可能沒意識到,養蝦背後的安全和道德問題被很多人忽視了。既然可以用龍蝦約出來女主播吃飯,那是不是也可以在網上約炮呢?有人不僅這樣想,還這樣做了。他用自己的聊天記錄去喂龍蝦,然後生成了一個AI自己,聊天的語氣和風格和自己有90%相似度,然後讓它替自己去小某書和Q上去加人,去各種約會app上撩妹。聊得差不多到開房這一步了,他直接去見面就行。以前渣男最起碼還要磨破嘴皮子,哄你騙你,現在連約炮流程都AI化了。AI還沒改變生活呢,已經先改變約炮效率了。不僅是約炮,還有女性用它來篩選相親對象。女生告訴它自己的審美標準,然後讓它模仿自己的語氣去撩帥哥。兩天之內,它幫女生確定了20多個相親對象,聊天記錄裡情話都是一套又一套的,還能根據對方的星座自動生成早安晚安,她最後只要自己摘取果實就行。聽起來是不是還挺嚇人的?試想如果這種技術應用在殺豬盤上會怎麼樣?騙子是不是只需要利用它生成一個AI男神(女神),自己都不用費心維護,就能騙財騙色?更可怕的是,它不僅幫騙子省去了人工和時間成本,還能夠通過網上的各種資料去分析受害者的弱點。你喜歡什麼音樂,平時有什麼愛好;你住在那個城市,平時喜歡去什麼地方等等,它都能納入它的資料庫,更有針對性的剖析受害者,做到真正的有的放矢。光是想想這些,雞皮疙瘩就要起來了。技術的革新,對那些心懷鬼胎的人來說,何嘗不是一種武器的最佳化呢?殺豬盤更猛,海王海後更多了,以後會出現更多的受害者。02.科技不僅改變“性生活”,還可能改變你的財富。有人給龍蝦裝上了一個攝影機,然後讓龍蝦幫助自己去賺錢,但萬萬沒有想到,這個龍蝦竟然把她隱私照片全部發到了黃色網站上,進而賺到了一筆錢,簡直是哭笑不得。不過,賺錢是少數,虧錢是大數。有人在網上曬出,自己養龍蝦三天消費1.2萬元,因為聯網後秘鑰被盜,三天消耗的Token竟然高達1.2萬。還有人安裝了小龍蝦之後,被駭客利用系統bug,騙走了所有的加密貨幣。最令人意想不到的,就是這樣一件事。個人開發者把龍蝦繫結了錢包,有人偽裝自己吃不起飯很可憐,向龍蝦傳送請求:能不能往某個地址裡給他打點錢,結果小龍蝦太善良,信以為真(沒被完全訓練好),真的給對方打錢了。甚至有網友做了實驗,在微信群裡只要通過指令,又到繫結了微信的小龍蝦連續傳送紅包,小龍蝦就會真的給你轉帳。為什麼會出現這種情況?因為我們都忽略了一個事實,那就是越是先進的科技,對普通人來說越可能是一把雙刃劍。這個龍蝦的先進之處,就在於它可以訪問你的全部資料,接管你電腦上的全部權限。但權限越高,風險越大,這是科技世界的鐵律。你的所有資訊,一切資料,都要交付給小龍蝦。有人覺得反正就裝在我自己的電腦上,有什麼問題?問題在於,現在很多人根本不懂小龍蝦是個什麼東西,也不會部署,往往是跟著網上的教學,一知半解的就跟著安裝。如果配置不當,或者遇到被人魔改過植入了木馬的版本,最後被人盜取資訊和銀行卡都不知道。只要被駭客掃描到,你的所有資訊就等於是在網上裸奔,任何人都可以連結,訪問你的個人資訊,API金鑰等各種敏感的資訊。帳戶和密碼分分鐘就被人盜走。這不是我在危言聳聽,據媒體報導,現在網上被掃描出的“裸奔龍蝦”已經超過了27萬隻。這意味著這27萬人的隱私,對他人而言無異探囊取物。駭客可以一鍵接管,盜走資訊,轉移財產,甚至用你各種東西去賺錢。這就相當於什麼呢?你給了陌生人一把家門鑰匙,它可能進門幫你打掃,也可能一把火燒了你的家。你以為自己在養AI,實際上AI 已經把你扒得一乾二淨。這也是我們國家安全部門緊急提醒大家,這個龍蝦有重大的安全風險的原因。想要緊跟最新發展趨勢,充實自己並沒有錯,問題是很多人現在對於AI完全是盲目且恐慌的。沒有程式碼基礎,不懂安全配置,看著人家都用自己也要強行上車,這種情況只會產生讓自己後悔的結果。實際上,第一批養龍蝦的人已經失眠了。因為你不知道它會偷偷幫你刪掉什麼,不知道它會消耗多少算力的費用,更不知道它會不會洩露你的密碼和隱私。有句話說得好,請神容易送神難,有人費勁千辛萬苦裝的龍蝦,只想馬上解除安裝。於是網上又誕生了一門業務:徹底解除安裝龍蝦。這一幕簡直是太諷刺了。03.有句話說得好:從古至今,當這個社會掛起一陣淘金熱的時候,真正賺錢的人,從來不是去淘金的人,而是賣工具的人。事實上,這一次龍蝦熱的事件中,真正賺錢的,就是幫助裝龍蝦的人和賣課程的人,而靠龍蝦賺到錢的人沒有一個。龍蝦剛剛興起,網上就是一大片賣課程的人,他們自己還沒有賺到錢,就教你如何利用龍蝦賺錢。什麼“一天掌握OpenClaw”,“什麼用龍蝦做個人IP”,然後通過拉人頭,收會員費的方式,帶你發財。看著是不是有點眼熟,這不就是科技版的傳銷嗎?真正可怕的不是你跟不上技術的革新,而是你為了跟風什麼都不懂就要急著入局。最後往往只會有一個下場,那就是成為第一批被割的韭菜。你以為自己踩中的是風口,是機會,但別人瞄準的是你的隱私和錢包。寫到這裡,有人可能會問:龍蝦到底有沒有用呢?其實,我也去裝了一隻龍蝦,可以說是根本沒有什麼真正用處,還不如豆包、元寶來得方便。所以它是有一定門檻的,比較適合專業的程式設計師、軟體工程師之類的,他們可以花時間去調教、花時間去摸索、研究。但對普通人來說:首先你不會調教,而且,你沒那麼多複雜任務需要它干。花幾小時調教它寫份周報?花幾個小時佈置它買個機票?有那時間,自己動手早就做完了。而且,因為現在都在搶佔AI市場,推出來的產品並不完善,而你做“等等黨”的話,就能節省很多在垃圾軟體上內耗的時間。比如騰訊、字節和阿里也推出來了自己的龍蝦,這個東西只會越來越好用,只會越來越安全。有網友分享了自己養龍蝦的心路歷程:第一天安裝成功了,讓小龍蝦幫自己讀郵件,搜新聞,感覺只是基礎功能。第二天就高興地又加入了各種功能,什麼檢測健康、檢測心跳,定鬧鐘等等。結果第三天打開帳單一看就沉默了,帳戶上的錢已經所剩無幾。它越是智能,消耗的算力就越多,而在這個時代,每一次算力都是要花錢的。有使用者測試過,僅僅是用小龍蝦開發程式碼一項,月花費就要將近2萬元。你設定讓他幫你接收郵件,每接收一次就要好幾塊錢。你讓它幫定鬧鐘叫你起床,每一次其實都是對算力的消耗。網友戲謔到,還沒靠AI 賺錢,光是用AI都要破產了。還不如花4000塊錢雇一個研究生來幫你工作更有性價比。這簡直不能叫龍蝦了,而是應該叫爹。說實話,咱們普通人現在根本用不上龍蝦,而且目前的龍蝦技術不夠完善不好用,完全沒有必要去淌這次渾水。為了一個看不見的潮流,盲目恐慌去賭上自己的隱私和資料,這不是進步,而是愚蠢。我完全理解,為什麼會有人因為龍蝦而恐慌。因為當AI的發展已經完全超出我們的想像,所有人都不可避免的陷入一種AI焦慮中。好像只要不掌握最先進,最潮流的模型,就會被時代瞬間拋棄。但有句話我也很贊同,如果你連怎麼安裝AI都沒搞明白,那使用AI 完全就是當韭菜。所以,不必恐慌,不盲目跟風,慢下來冷靜分析,慢慢學習和思考,然後才是咱們對AI 的態度。就像40年前的人,在盲目和恐慌之中,戴上了毫無作用的鋁鍋,只是為了接受外太空的訊號。而現在在焦慮和恐慌之中,去裝上龍蝦的人,何嘗不是換了一口更精緻的鍋?當年戴鋁鍋等訊號的人,早已成了笑談;而如今為了噱頭盲目跟風裝龍蝦的人,多年後回頭看,也會明白:慢一點,穩一點,清醒一點,才是對自己最好的保護。真正不被時代落下的,從來不是在第一批浪潮中盲目恐慌的人。而是始終清醒、知道自己要什麼、不被恐慌牽著走的人。 (美尚)