#新模型
剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
在 AI 模型的命名玄學裡,「Instant」和「Lite」這兩個後綴,長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象,基本就是:速度快、腦子慢,做做文字總結勉強夠用,一旦碰上稍微複雜的推理任務,就開始一本正經地胡說八道。久而久之,輕量模型幾乎成了「將就用」的代名詞。就在剛剛,OpenAI 和 Google 又一次撞車,發佈了各自的輕量模型,並試圖用硬實力來扭轉這個刻板印象。省流版如下:GPT-5.3 Instant: 更具「人味兒」的智能助理,大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力,溝通更自然精準,適合對內容質量要求高的場景(寫作、專業問答、高風險領域)Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水,還支援「思考等級」調節功能,在保持高吞吐量的基礎上兼顧了深層邏輯推理,適合大規模、高即時性的批次任務(內容稽核、UI 生成、NPC 對話)GPT-5.3 Instant:終於學會像個正常人一樣聊天了經常用 ChatGPT 的人,大概都有過這種無奈:你只是隨口問個小問題,它非要先給你端上一段「作為一個人工智慧,我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」,確實挺招人煩的。好在,OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案,不再囉里囉嗦地鋪墊。除了不愛說廢話,它也變得更靠譜了。舊版本搜完網頁之後,容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升,GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來,先想清楚你真正想問什麼,再給出有重點的回答,而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示,在聯網狀態下幻覺率降低了 26.8%,僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域,新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的,其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最後一天,舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句,新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹,就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少,整體風格更直接,少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度,調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放,API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant,但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite:便宜、反應快,還挺聰明相比於 GPT-5.3 Instant 的好好說話,Gemini 3.1 Flash-Lite 走的是純粹的務實風,目標非常明確:就是要快,就是要便宜。價格方面,Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens,輸出價格是 1.50 美元每百萬 tokens。這是什麼概念?如果你是一個開發者,這意味著你大概花不到 2 塊錢人民幣,就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨?格局小了。根據 Artificial Analysis 的基準測試,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍,整體輸出速度提升了 45%。對於需要即時響應的產品來說,這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著,當你還在眨眼的時候,它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外,Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中,Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項。開發者可以根據任務的複雜程度,自主調節模型「想多深」。簡單的高吞吐量任務,比如批次內容翻譯和內容稽核,可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的介面生成或模擬建立任務,則可以讓模型多花一點時間推理,把結果做紮實。這種「既要又要」的能力,也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中,它的 Elo 分數達到了 1432,在 GPQA Diamond(研究生等級的問答)測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%,多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」,而是直接超過了體量更大的 Gemini 2.5 Flash。注意,這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前,3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放,企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試,普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看,你會發現「Instant」和「Lite」,或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例,其核心場景是幫使用者處理郵件、管理日程,本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明,它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率,意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退,意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時,往往需要平行處理海量的子任務,對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本,加上能靈活調配算力的「思考等級」,這種極具彈性的架構對高並行的自動化任務而言,無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察,但大方向已經很明確:一個負責讓互動更像人,一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下,輕量模型將成為更自然、務實的選擇。 (APPSO)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)
張一鳴太難了,豆包新模型慘遭迪士尼封殺
有時候,跑得太快也是一種罪。前幾天,豆包新模型Seedance 2.0上線。逼真的畫面震撼業界,迅速在海外的AI圈炸開了鍋。連馬斯克都忍不住點贊,驚嘆“它發展得太快了”。然而,上線僅兩天,它就四處碰壁。從周星馳經紀人的控告,到迪士尼的律師函,這不僅是簡單的版權糾紛,更像是一次新舊規則的正面碰撞。豆包Seedance 2.0模型被迪士尼指控今天,外媒Axios報導了一則獨家消息:華特迪士尼公司已於美國時間2月13日向字節跳動發函,指控對方在訓練和開發Seedance 2.0模型時,未經許可使用了迪士尼的作品。迪士尼要求字節跳動“立即停止侵權,且不得再犯”。圖源:X此時,距離這款模型上線還不到兩天。迪士尼在信中指控,字節跳動的Seedance服務中“預置”了一個包含迪士尼版權角色的盜版素材庫,涉及《星球大戰》、漫威等多個知名IP。此外,迪士尼進一步表示,字節跳動的做法,彷彿是將這些價值連城的商業IP視為“免費的公共領域剪貼畫”。對此,迪士尼在信中列舉了多項示例,稱使用者使用 Seedance 生成的視訊裡,出現了漫威的蜘蛛俠、《星球大戰》的達斯·維達、《惡搞之家》的皮特·格里芬等多個迪士尼版權角色。圖源:抖音迪士尼還指出,這些視訊被使用者公開發佈到社交媒體上,說明侵權內容的傳播已經具備相當規模。同時,迪士尼指控Seedance 作為一項商業服務,正在從這些未經授權的版權內容中直接獲利。加上在迪士尼公開反對之後,字節跳動仍在通過複製、分發以及創作衍生作品等方式,持續傳播這些迪士尼角色。迪士尼將這種行為形容為“虛擬的打砸搶”,稱其“蓄意、廣泛且完全不可接受”。不僅如此,美國電影協會(其成員包括迪士尼、環球影業、索尼等)也發表聲明,要求字節跳動“立即停止侵權活動”。目前,使用豆包Seedance 2.0已經無法生成涉及這些經典IP的視訊。圖源:豆包事實上,這並非迪士尼第一次因AI版權問題提起訴訟。從去年開始,迪士尼就針對AI公司發起了高強度的法律行動。去年6月,迪士尼聯合環球影業起訴了AI繪畫工具Midjourney 。訴狀長達110頁,指控Midjourney未經授權使用《冰雪奇緣》《星球大戰》《小黃人》等IP角色訓練模型,並生成了大量侵權圖像 。Midjourney生成 圖源:花瓣網迪士尼方面指出,Midjourney通過大規模網路抓取受版權保護的素材,且對此前的停止侵權警告置若罔聞。據悉,Midjourney的付費訂閱服務在2024年創造了約3億美元的收入 。去年9月,迪士尼再次聯合華納兄弟、環球影業,將矛頭指向了中國AI公司MiniMax及其旗下的“海螺AI”。指控內容與前案大同小異:MiniMax未經授權使用知名IP進行模型訓練和商業推廣,甚至將“海螺AI”宣傳為“口袋裡的好萊塢工作室” 。海螺AI生成視訊畫面 圖源:抖音不過,目前這些指控都還沒有最終定論。核心難點在於法律界定:如果法院承認侵權,那麼當下很多AI公司依賴的“爬取公開資料訓練”模式將面臨崩塌,這無疑會動搖AI發展的根基。但如果否認侵權,那麼傳統意義上建立起來的智慧財產權保護體系,又可能淪為一張廢紙。所以,這並非一個非黑即白的問題。更像是一場“法律倒逼”:版權方希望通過起訴,推動司法系統給出一個符合當前技術發展階段的法理答案。值得一提的是,迪士尼並非一味地牴觸AI技術。就在去年12月,迪士尼與OpenAI達成了一項重磅合作 。根據協議,迪士尼向OpenAI投資10億美元,並授權OpenAI在Sora和ChatGPT Images中使用超過200個迪士尼旗下角色,雙方還將合作開發麵向迪士尼的新產品 。這一舉動意味著,迪士尼試圖在尊重版權的前提下,積極謀求與AI公司的技術與商業合作。對此,迪士尼首席法務官霍拉西奧·古鐵雷斯其實早已有過明確表態:“我們對AI技術的前景持樂觀態度......但盜版行為就是盜版行為,不會因為侵權方披著AI公司的外衣,就改變其違法的本質。”因此,此次控告字節跳動,或許並非惡意針對,而是迪士尼在堅持自己AI技術應用原則下,一次可預測的正常反應。在法規沒有完善的灰色地帶,最佳做法或許不是“一刀切”事實上,這種被限制的尷尬處境不僅發生在國外,國內也出現過類似狀況。就在不久前,抖音上突然冒出了大量關於周星馳的AI視訊。內容偏惡搞、無厘頭,加上AI把製作效率拉滿,有帳號一天能發幾十條類似的惡搞視訊。更關鍵的是,有的內容甚至需要付費才能觀看或生成。對此,周星馳的經紀人陳震宇直接在微博上曬出截圖,發出靈魂拷問:“想問一下,這些屬於侵權嗎?(尤其這兩天大量傳播)相信創作者應該已經盈利,而某平台是不是都放任不管提供給使用者生成發佈?”圖源:微博隨後,官方做出了調整。豆包已經無法生成有真人明星的相關AI內容,理由是“存在侵權風險”。圖源:豆包Seedance 2.0營運方也緊急宣佈,暫停真人素材參考功能,並明確表示“暫不支援輸入真人素材作為主體參考。我們深知創意的邊界是尊重” 。圖源:知乎Seedance 2.0問世後,因為流暢的轉場和超強的敘事能力,一度被業界視為一場技術革命。當大家都在想辦法挖掘它的創作潛能時,國內外接連發生的“圍剿”事件,卻讓模型在落地時無奈變成了“一刀切”,很多內容直接無法生成。這兩件事發生後,公眾的討論也很有意思。主要有兩種聲音。一種主張AI作為技術,需要尊重現有規則,避免侵犯他人權益。另一種則認為,AI的創作能力本身就是無限的。為了加速技術發展,適當讓權、放寬一些限制,是可以接受的。兩方的觀點都不無道理。回頭看看迪士尼和OpenAI的合作,或許能給我們一些啟發。對迪士尼而言,掏出10億美元投資OpenAI,無疑能讓自己第一時間摸清最新的AI技術,並依託這些技術有效拓展內容的傳播路徑。同時,還能監督AI生成內容,防止IP價值被稀釋,確保輸出質量符合迪士尼的品牌標準。對OpenAI來說,這筆錢無疑是雪中送炭。要知道,根據匯豐銀行的研究報告,OpenAI到2030年可能仍無法實現盈利。迪士尼的錢不僅能緩解資金壓力,還能讓團隊把注意力集中在技術創新上。更重要的是,拿下了200多個迪士尼經典IP的授權,OpenAI的Sora平台生成內容的質量大幅提升,使用者粘性和平台價值也隨之提高。因此,這次合作可以視為從零和博弈走向合作共贏的一條成功路徑。它反映出:尋求內容端授權的行為並非妥協,而是在尊重規則下的可行路徑;也反映出業界對新技術的態度並非完全否定,可以通過投資的方式,搭上新技術的快車。在被限制內容生成後,豆包和Seedance介面上顯示的“抱歉,由於版權限制,對應內容無法生成”,或許不只是一句冷冰冰的提示。它更像一個路標,在指引公司去尋找那條更合理、更可持續的路徑。 (網際網路頭條)
首次證實!嫦娥六號最新發現刷新認知
月球研究“時間標尺”革新了。基於嫦娥六號月背樣品,來自中國科學院地質與地球物理研究所等單位的研究團隊結合遙感圖像,成功修正沿用數十年的月球撞擊坑定年模型,首次證實月球正面與背面的隕石撞擊頻率基本一致,並揭示月球早期撞擊事件呈平滑衰減趨勢,而非此前假說中的劇烈波動。相關研究成果5日發表於《科學進展》雜誌。月球背面高程影像圖。岳宗玉團隊繪圖在這項研究中,研究團隊結合高畫質遙感圖像,系統統計了嫦娥六號著陸區及整個南極-艾特肯盆地的撞擊坑密度,並整合了包括阿波羅計畫、月球號、嫦娥五號在內的所有歷史樣品資料,建構出全新的月球撞擊坑年代學模型。結果顯示,月球背面的撞擊坑密度資料,完美落在基於正面樣品建立的模型置信區間內。“這表明,月球整體遭受的隕石撞擊通量在正反兩面是均勻的,從而為建立全球統一的月球‘時間標尺’奠定了堅實基礎。”論文第一作者、中國科學院地質與地球物理研究所研究員岳宗玉說。更引人注目的是,新模型針對月球早期撞擊歷史的爭議給出了新的答案:對比分析顯示,月球南極-艾特肯盆地的年齡資料,明顯偏離了認為撞擊流量曾突然變化的“鋸齒狀模型”或“晚期重轟擊”假說。研究支援月球早期的撞擊頻率是一個光滑快速衰減的過程,而非經歷突發性的“轟炸”事件。岳宗玉表示,這項研究從根本上更新了我們對月球撞擊歷史的理解,嫦娥六號樣品的關鍵價值得以彰顯,將為未來月球乃至太陽系天體的年代學研究提供更精確的標尺。 (科技日報)
春晚未啟,AI先戰!四巨頭春節佈局引爆15億紅包大戰
科技巨頭們不再滿足於簡單撒錢,而是通過差異化的AI戰略,在春節這個國民級流量舞台上展開一場關乎未來的入口爭奪戰。除夕未至,但網際網路的春節行銷戰役已經打響。與往年不同的是,今年站在舞台中央的不再是傳統的支付或電商應用,而是各類AI助手。字節跳動的豆包憑藉春晚獨家合作佔據制高點,騰訊元寶豪擲10億現金紅包試圖重現微信紅包的輝煌,百度文心則以5億紅包+北京衛視春晚組合拳迎戰,阿里千問則通過B站春晚+江蘇衛視春晚多點佈局。這場總額超過15億元的紅包大戰背後,是中國科技巨頭對AI超級入口的激烈卡位。01 四巨頭的春節AI佈局春節成為多家AI應用廠商的“行銷檔”。從1月下旬開始,各大廠商的AI推廣活動便已陸續上線。字節跳動率先搶佔春晚這一最高舞台,旗下火山引擎成為2026年央視春晚獨家AI雲合作夥伴,豆包作為核心AI互動載體深度嵌入晚會互動。騰訊在1月25日宣佈,將於2月1日在元寶App上線春節10億現金紅包活動,使用者每天可領現金紅包,並有機率抽中限量100張的萬元“小馬卡”。百度同樣在1月25日宣佈加入戰局,自1月26日至3月12日,使用者在百度App使用文心助手可瓜分5億元現金紅包,最高獎勵達1萬元。百度還以“首席AI合作夥伴”身份亮相北京衛視春晚。阿里巴巴則採取多平台滲透策略,千問不僅贊助B站跨年晚會和江蘇衛視春晚,還聯合淘寶閃購發放大額紅包拉新。阿里將淘寶、支付寶、高德等業務接入千問,讓使用者通過“一句話辦事”完成各種操作。02 差異化戰略路徑四巨頭雖目標一致——搶佔AI入口,但戰術路徑卻涇渭分明,構成對使用者注意力的立體合圍。騰訊採用最直接的“社交裂變”路線。馬化騰在內部員工大會上明確表示:“友商投放在電視台的一些巨額的行銷費用,我們直接轉成紅包,希望能夠重現11年前微信紅包春晚的時刻。”元寶的10億紅包活動設計充分利用騰訊的社交生態優勢,分享紅包支援轉發給微信、QQ好友和社群,通過社交關係鏈促進傳播。百度選擇“場景滲透”策略。百度推出了近百種春節主題AI玩法,覆蓋春節期間幾乎所有傳統場景。從AI春聯創作、AI寫真到AI測運勢,百度試圖讓AI助手滲透到使用者春節生活的每一個細節中。字節跳動走的是“技術底座”路線。通過火山引擎成為春晚獨家AI雲合作夥伴,字節跳動旨在向政企客戶和全行業展示其AI雲服務能力。阿里巴巴則聚焦“生態協同”,將阿里系生態“折疊”進一個千問。阿里將淘寶、支付寶、飛豬、高德等業務接入千問,實現“一句話點外賣、訂機票”的無縫體驗。03 新模型發佈倒計時在這場行銷大戰的背後,一場更深刻的技術競賽正在悄然進行。據透露,字節跳動擬於春節前後推出三款全新人工智慧模型,涵蓋大語言模型、圖像生成模型和視訊生成模型。具體而言,字節跳動正在籌備其新一代旗艦大語言模型豆包2.0、圖像生成模型籽夢5.0以及視訊生成模型籽舞2.0。阿里巴巴也計畫在同期推出新一代旗艦大模型通義千問3.5,該模型針對複雜推理任務進行了專項最佳化,具備強勁的數學運算與程式碼編寫能力。選擇在春節前後發佈新模型並非偶然。去年春節期間,深度求索借助長假期間民眾擁有大量線上時間的契機,迅速走紅全球。字節跳動與阿里巴巴都計畫抓住這一窗口期,爭奪中國消費級AI應用的頭部地位。04 AI入口爭奪的白熱化這場春節AI行銷戰的激烈程度,反映了行業對AI入口爭奪的緊迫感。中國網際網路絡資訊中心去年10月發佈的報告顯示,國內生成式AI使用者規模去年6月已達5.15億人,使用者規模半年翻番,普及率達36.5%。AI已完成初步普及,下一步是爭奪更高頻的使用場景和更中心化的入口地位。QuestMobile發佈的《2025下半年AI應用互動革新與生態落地報告》顯示,全市場AI原生App周活躍使用者排名前五依次為豆包、DeepSeek、元寶、螞蟻阿福、阿里千問。隨著競爭趨於白熱化,春節成為各大廠商實現使用者規模跨越式增長的必爭場景。素喜智研高級研究員蘇筱芮指出,“AI超級入口”的本質並非簡單的資訊中介,而是使用者獲取服務的中心化通道,通過整合多種功能和服務,成為使用者進入資源或生態系統的“中心通道”。掌握超級流量入口,才能讓AI真正成為使用者日常生活的“默認選擇”,從而掌握生態主導權。05 從流量爭奪到心智佔領與往年相比,2026年春節紅包行銷戰呈現出明顯的策略升級——從流量爭奪轉向心智佔領。博通諮詢首席分析師王蓬博指出,騰訊與支付寶均不再單純依賴補貼拉新,而是借助春節高參與度節點,分別以AI互動和文化IP為載體,建構使用者長期使用習慣與平台生態黏性。騰訊在紅包之外,大力推廣其AI社交新玩法“元寶派”。1月26日,元寶內測社交玩法,內測使用者可建立“派”並邀請微信、QQ好友加入。在“派”群中,使用者可以@元寶解答問題、發圖片叫元寶P圖。支付寶則延續集福這一已有11年歷史的傳統,今年推出19套主題福卡,涵蓋王者榮耀、原神等熱門遊戲IP,小馬寶莉等卡通潮玩,以及多部影視IP,兼顧不同圈層使用者喜好。聯儲證券研究院副院長沈夏宜指出,今年的紅包玩法更強調實用性和生活場景繫結。圍繞春運場景的車票立減、免單等活動,本質上是把行銷嵌入到居民春節期間的真實剛需中,而不是創造一個獨立的行銷場景。06 留存能力決定成敗春節行銷只是開始,真正的考驗在於節後的使用者留存。艾媒諮詢CEO張毅認為,騰訊10億元屬於“追趕型投入”,而百度5億元更偏向“防禦型投資”,其合理性取決於企業所處的競爭階段和資金儲備。評估這輪紅包成效,不能只看短期DAU增長,還需觀察中期留存、使用者口碑以及長期生態壁壘的建構能力。蘇筱芮指出,紅包活動具備向金融場景延伸的天然通道,但平台必須清晰劃定邊界,不能利用使用者“搶紅包”的急切心理,在使用者不充分知情的情況下繫結或銷售金融產品。春節紅包更像是AI應用進入大眾視野的一次集體亮相,而非決定勝負的關鍵一戰。一位AI行業投資人直言,對這些網際網路巨頭而言,10億元、5億元等級的紅包投入,本身並不是核心問題。“這些錢不考慮回報都行,這是一場誰都不能落下的競爭”。這場始於春晚、耗資15億的行銷盛宴,真正的賽點不在除夕夜,而在春節後的第一個工作日。當紅包的喧囂褪去,生活回歸常態,那個AI應用還能被使用者主動打開,用來處理工作郵件、規劃出行路線、幫助孩子輔導功課,那個應用才真正贏得了這場戰役。科技行業正從移動網際網路時代向智能時代躍遷,2026年春節的AI行銷大戰用最喧囂的方式,完成了對全民最後一次大規模的AI啟蒙。 (吐故納新溫故知新)
美股財經週報 2025.12.7市場預期 FOMC 週三降息一碼,關鍵為釋出的利率點陣圖對明年降息的預測、鮑威爾記者會的立場,週二 OpenAI 可能提前發布 ChatGPT-5.2,週三盤後 Oracle、週四盤後 Broadcom 財報可能影響短線市場對 AI 敘事邏輯的看法根據 X 上流傳、未經證實的性能對比,ChatGPT-5.2 幾乎全面碾壓 Google 的 Gemini 3 Pro、Anthropic 的 Claude Sonnet 4.5 …美銀策略師 Hartnett 警告若週三鮑威爾立場偏鴿、聯準會對美國經濟抱持謹慎態度,將危及美股年底行情,因為 ...Bloomberg 報導美股百年道氏理論預告美股將繼續上漲,代表支撐美國經濟的商品和服務的卡車運輸、貨運、航空和鐵路公司的道瓊運輸指數 ...造市商 Citadel 的 Rubner 週五預計美股在年底到 2026 年初將繼續上漲,除 12 月下半月是一年中上漲機率次高的 2 週外 (圖 1-6),更多股票參與了上漲行情 ...華爾街對 2026 年美股預測出爐,美銀首席美股及量化策略師 Subramanian 認為儘管 S&P 500 獲利將成長 2 位數,但 2026 年底目標價僅為 7,100 點、距離週二收盤的 6,829 點只有 4% ...
DeepSeek新模型開源,新架構亮了!國產AI晶片集體狂歡
DeepSeek離下一代架構,又近了一步!智東西9月30日報導,昨日,DeepSeek宣佈開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制,並在幾乎不影響模型輸出效果的前提下,大幅度提升了長文字訓練和推理效率,被DeepSeek定義為“邁向新一代架構的中間步驟”。HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp魔搭社區地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp這一改進還降低了DeepSeek新模型的服務成本,DeepSeek因此執行了新的價格政策,讓開發者呼叫DeepSeek API的成本降低50%以上。降價幅度最大的為輸出token的價格:DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元,為DeepSeek-V3.1系列模型的1/4。截至9月30日上午6點,華為雲、PPIO派歐雲、優刻得等雲平台已宣佈上線DeepSeek-V3.2-Exp,華為、寒武紀、海光資訊等AI晶片廠商已經宣佈適配DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎上打造的。在各領域的公開評測集上,兩款模型的表現基本一致,不過,DeepSeek-V3.2-Exp完成任務使用的token量大幅度減少。目前,DeepSeek App、網頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API介面,方便開發者進行對比驗證。除模型本體外,DeepSeek還開源了相關技術報告及程式碼,並提供TileLang與CUDA雙版本GPU算子,以便研究者在不同層級進行實驗和最佳化。技術報告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfDeepSeek還補充道,作為一個實驗性的版本,DeepSeek-V3.2-Exp雖然已經在公開評測集上得到了有效性驗證,但仍然需要在使用者的真實使用場景中進行範圍更廣、規模更大的測試,以排除在某些場景下效果欠佳的可能。01.華為、海光、寒武紀光速適配,網友直呼第二個DeepSeek時刻要來了DeepSeek-V3.2-Exp一經推出,便在產業界與開發者圈子裡引發熱烈反響,不少國內企業紛紛第一時間宣佈完成DeepSeek-V3.2-Exp的適配和上線。華為計算公眾號發文宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並面向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp在昇騰裝置上128K長序列輸出,能夠保持TTFT(首token輸出耗時)低於2秒、TPOT(每token輸出耗時)低於30毫秒的推理生成速度。華為雲則首發上線了DeepSeek-V3.2-Exp,還使用CloudMatrix 384超節點為該模型提供推理服務。在DeepSeek發文宣佈DeepSeek-V3.2-Exp模型開源後的4分鐘,寒武紀也發文稱其已同步實現對該模型的Day 0適配,並開源大模型推理引擎vLLM-MLU原始碼。寒武紀通過Triton算子開發實現了快速適配,利用BangC融合算子開發實現了性能最佳化,並基於計算與通訊的平行策略,達成了較高的計算效率水平。DeepSeek-V3.2-Exp模型的尺寸達671GB,僅下載就可能需要數小時。這種時隔4分鐘的Day 0適配,或許意味著寒武紀和DeepSeek兩家企業在模型發佈前就已經啟動適配工作。據經濟觀察網報導,海光資訊的DCU(深度計算處理器)率先實現了對DeepSeek-V3.2-Exp的Day 0級高效適配與最佳化,確保大模型算力“零等待”部署。在DeepSeek官宣DeepSeek-V3.2-Exp開放原始碼的推文中,有不少網友分享了對模型的使用體驗和感受。有位網友稱,自己在10萬個token的程式碼庫上測試了DeepSeek-V3.2-Exp,速度提升非常明顯。有網友感嘆,DeepSeek API現在幾乎等同於免費了。更有網友認為,這一模型的推出,或許意味著第二個DeepSeek時刻即將到來。Hugging Face上,DeepSeek-V3.2-Exp的社區類股也有不少討論,不過,關注度最高的一條帖子,是來自中國網友的“吐槽”:“咱這個模型是非得國慶前更新嗎?”還有網友列出了DeepSeek每次更新模型的時間,幾乎都卡在節假日的前幾天。02.一手體驗DeepSeek-V3.2-Exp架構創新或許比性能提升更重要DeepSeek-V3.2-Exp在使用體驗上,究竟與此前的DeepSeek-V3.1-Terminus有何不同?在程式設計方面,DeepSeek-V3.2-Exp撰寫的程式碼明顯更為簡短了,相同的任務下,其輸出的程式碼行數要少於DeepSeek-V3.1-Terminus。不過,這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫程式碼未能正常運行,小球直接飛出了六邊形的範圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務。智東西還讓DeepSeek-V3.2-Exp完成了一項資訊檢索任務,要求它推薦幾種適合新手在陽台盆栽的、生長快、果子能直接生吃的植物,並且要保證對小孩絕對安全,最好能附上簡單的播種技巧。與DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成結果更為簡短,用詞也比較“樸素”。並且,DeepSeek-V3.2-Exp推薦的無花果、百香果等植物,需要進行扦插、高頻率養護等操作,並不符合提示詞要求的新手友好。▲DeepSeek-V3.1-Terminus(左)與DeepSeek-V3.2-Exp(右)在資訊檢索任務上的表現(圖源:智東西)總體而言,DeepSeek-V3.2-Exp確實在推理效率上實現提升,但卻在能力上做出了一定的讓步。知乎博主@toyama nao也在測評中發現了類似的問題。他認為,DeepSeek-V3.2-Exp在工作記憶、計算精度穩定性等方面存在明顯短板,還容易有偷懶傾向和陷入死循環的可能。▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價這也得到了其他網友觀點的印證,例如,這位網友便在x平台發貼稱,並沒在這款模型上看到改進,並提出質疑:我們為什麼要使用能力降級的模型呢?作為一款實驗模型,DeepSeek-V3.2-Exp更大的貢獻或許在於理論層面。DeepSeek稱,與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架構上的唯一修改,就是通過繼續訓練引入了DeepSeek Sparse Attention。目前的DSA機制還處在原型期,主要由兩個元件構成:一個Lightning Indexer(閃電索引器)和一個細粒度的token選擇機制。▲DeepSeek-V3.2-Exp架構圖Lightning Indexer能夠快速評估查詢token與歷史token的相關性,從選擇機制只挑選最相關的一部分上下文進入注意力計算,這讓複雜度從傳統的二次方降到了近似線性水平,大幅降低了訓練和推理的成本。在訓練上,DeepSeek-V3.2-Exp採用了“繼續預訓練+後訓練”的方式。繼續預訓練分為兩個階段:首先在稠密模式下短暫訓練indexer,讓它的輸出和標準注意力保持一致;隨後引入稀疏選擇機制,逐漸讓模型適應新的計算方式。完成預訓練後,DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行後訓練。專家蒸餾的思路是針對數學、程式設計、推理等不同領域訓練專門的專家模型,然後將這些模型的知識壓縮排通用模型。混合強化學習則將推理、智能體能力和人類對齊訓練統一在一個RL階段中,避免了傳統多階段方法容易出現的遺忘問題。技術報告顯示,DeepSeek-V3.2-Exp在大多數評測任務上的表現與前代基本持平,個別推理相關的測試分數略有下降,但主要原因是生成的推理token更少,如果使用中間檢查點,差距則會縮小。相比之下,效率的提升尤為顯著。在H800 GPU的測試環境中,長序列推理的開銷明顯降低,證明DSA在真實部署中有很強的實用性。同時,訓練曲線與前代模型保持相似的穩定性,也表明這種架構在收斂性上並沒有額外風險。03.結語:DeepSeek邁向新一代架構正如其名字內的Exp(實驗版)所言,DeepSeek-V3.2-Exp的推出,本身並不是一次性能爆表的升級,而更像是一場架構實驗,展示了一種在長文字處理中兼顧性能和效率的新路徑。作為技術原型,DeepSeek-V3.2-Exp背後的DSA機制或許很快就會得到進一步完善。隨著相關技術的持續最佳化和更多企業、研究者參與驗證,DeepSeek有望在不久的未來交出更令人驚喜的成果。 (智東西)