DeepSeek新模型有望解決表格閱讀邏輯問題;Manus將在Instagram擁有快捷入口...

模型與應用

Kimi發佈K2.5開源模型,能自主建立Agent叢集處理複雜任務

1月27日,月之暗面發佈並開源模型Kimi K2.5。月之暗面稱K2.5為原生多模態模型,同時支援視覺與文字輸入、思考與非思考模式。

與半年前發佈的Kimi K2以及後續的Kimi K2 Thinking相比,K2.5實現了「程式碼×視覺」的深度融合,並首創「Agent叢集」能力。

  • 程式設計方面,K2.5支援以識別截圖或錄屏的方式生成前端程式碼。比如使用者可以直接上傳一段網頁互動的錄屏視訊,K2.5能夠通過視覺理解自動拆解視訊中包含的動態邏輯(如滾動觸發效果),然後直接生成能夠復現該互動體驗的專業程式碼,無需使用者用文字描述。
  • 處理複雜任務時,K2.5能自主建立多達100個分身組成團隊,平行處理1500個步驟,大幅提升長程任務的執行效率。比如在處理複雜的學術研究任務時, 使用者向Agent叢集提交40篇關於心理學和AI的論文,K2.5會自主「分裂」出多個子Agent平行負責不同章節的閱讀與撰寫,最後由主Agent彙總並為質量把關,生成一份長達幾十頁的PDF綜述。

參考連結:
https://mp.weixin.qq.com/s/Bhn43P1GnGXsvsh5MnN47Q

DeepSeek發佈並開源視覺語言模型DeepSeek-OCR 2

1月27日,DeepSeek發佈並開源了新一代視覺語言模型DeepSeek-OCR 2。

模型包含一個新的視覺編碼器方案DeepEncoder V2,能讓模型不再按從左上到右下的固定網格方式「機械掃描」,而是能夠根據圖像的語義動態重排要關注的視覺內容,接近人類閱讀複雜文件時的視覺邏輯,即基於上一眼看到的內容決定下一眼看那裡。

以往的模型按照固定順序閱讀圖像,在遇到表格、公式、穿插圖文這類並非基於「從左上到右下」邏輯的內容時,就容易出現理解偏差,因為模型「讀對了字」但「沒讀對結構與順序」。

DeepSeek-OCR 2在升級之餘也嚴格控制了計算成本,其視覺Token數量被限制在256至1120之間,這一上限與Google的Gemini 3 Pro保持一致。

參考連結:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

混元3.0圖生圖模型發佈,生成後能通過互動修圖

1月26日,騰訊混元發佈混元圖像3.0圖生圖模型。該模型支援圖片內容的增、刪、改,如消除或增加圖片中的物體或人物、給圖片增加文字等;可以更改圖片風格,如把照片變成漫畫風;還能夠多圖合成,比如把多張照片中的人物或元素提取出來合成照片。在騰訊之前,OpenAI、Google、字節跳動、阿里巴巴等廠商均已推出過類似功能。

參考連結:
https://mp.weixin.qq.com/s/hzgmBrBCN9wkV6KOAV4_Fg

Meta在Instagram上線Manus快捷入口

1月26日,有報導稱,Meta計畫將近期收購的Manus納入訂閱計畫,一方面將它整合到Meta的產品中,另一方面繼續向企業銷售獨立訂閱。據經常發現未發佈功能的工程師Alessandro Paluzzi在X平台分享的截圖,Meta已經在Instagram上線了Manus的快捷入口。

Clawdbot火了,使用者可以通過聊天軟體指揮它操控電腦

去年年底,奧地利開發者Peter Steinberger推出了一個開源、可本地化部署的智能體Clawdbot,截至目前,該Agent在GitHub的收藏量超過5萬。

Clawdbot相當於一個部署在電腦上的「AI員工」,除了呼叫大模型時需要聯網,資料和記憶都在本地。它能在電腦上執行瀏覽器控制、檔案讀寫、Shell指令碼編寫和運行等任務,具有連接日曆和信箱、設定清單到手機備忘錄等「Skills」,與近期發佈的Claude Cowork等桌面智能體助手功能近似。

不同的是,Clawdbot無需在單獨的客戶端裡配置,而是可以通過「閘道器」和WhatsApp、Telegram、iMessage等多個聊天軟體連接起來,成為使用者聊天列表裡的一個「聯絡人」,使用者可以通過聊天軟體跟它對話,由此遠端控制自己的電腦,Clawdbot也能通過聊天軟體主動給使用者發消息。

不過,Clawdbot的核心功能依賴於對系統底層權限的獲取,這帶來了一定的安全風險。如果使用者的聊天帳號被盜,攻擊者可以通過對話方塊直接接管整台電腦。AI幻覺也可能導致難以挽回的損失,比如有使用者發帖稱,「在自己的筆記型電腦上部署Clawdbot後,所有的錢都消失了」。

Clawdbot的火爆意外帶起了蘋果小型台式主機Mac mini的熱度。儘管Clawdbot可以在任何能運行Node.js的裝置上部署,Mac mini憑藉低功耗、穩定運行、支援iMessage等macOS專屬功能,以及M系列晶片的性能優勢,成為讓Clawdbot「24小時線上」的熱門硬體選擇,社交平台上甚至有不少使用者發帖稱自己為運行Clawdbot專門購買了Mac mini。

參考連結:
https://github.com/clawdbot/clawdbot
https://www.macstories.net/stories/clawdbot-showed-me-what-the-future-of-personal-ai-assistants-looks-like/

其他動態

理想全員會上宣佈人形機器人計畫

1月26日,有報導稱,理想汽車CEO李想當天召開了一場線上全員會,主要分享了他對AI發展趨勢的看法。李想表示,在汽車之外,理想汽車一定會做人形機器人。他認為,同時佈局基座模型、晶片、作業系統、具身智能等業務的公司,最終全球不會超過3家,理想汽車會努力成為其中一家。另外,他還判斷,今年是所有想要躋身AI行業頭部的公司「上車」的最後一年;L4級自動駕駛最晚2028年一定能落地。

同日,理想汽車官方發佈了MEGA的最新銷量資料,自2024年3月開啟交付以來,截至2026年1月,MEGA已累計交付3萬台。

參考連結:
https://mp.weixin.qq.com/s/iN3zpnZuoxKZq0xNhcfgiA

智譜仍在籌備A股上市

根據中國證監會更新的公告,智譜的輔導機構中金公司已遞交了智譜的第三期IPO輔導工作進展情況報告,報告落款日期為2026年1月15日。這也意味著,在完成港交所上市、成為「全球大模型第一股」後,智譜仍在持續推進其A股上市計畫。

智譜原計畫於A股上市,最初於2025年4月3日向北京證監局提交輔導備案,並於2025年4月14日獲得輔導備案受理,但之後它調整了計畫,於今年1月8日先行登陸港交所主機板。智譜港股上市首日開盤報120港元/股,較發行價高開3.27%,最終收漲13.17%,總市值約579億港元(約合522億元人民幣)。截至1月27日收盤,智譜港股累計漲幅達100.86%,市值1027.50億港元(約合836億元人民幣)。

參考連結:
https://mp.weixin.qq.com/s/KPLadCDbU3TVsA-_S_pXIQ

階躍星辰融資50億元,印奇出任董事長

1月26日,階躍星辰宣佈完成超50億元B+輪融資,刷新過去12個月中國大模型賽道單筆融資最高紀錄。參投方包括上國投先導基金、國壽股權、浦東創投、徐匯資本、無錫梁溪基金、廈門國貿、華勤技術等產業投資方,騰訊、啟明、五源等老股東跟投。

同日,階躍星辰官宣印奇出任公司董事長,負責公司戰略與技術方向的制定。印奇同時還擔任千里科技的董事長。千里科技第一大股東是吉利汽車,2025年6月,吉利與千里科技、邁馳智行等合資成立千里智駕,各持股30%,吉利將極氪智駕、吉利研究院的智駕團隊與技術注入了該合資公司。

特斯拉Robotaxi開始拿掉安全員

上周,特斯拉在德克薩斯州奧斯汀市向公眾開放了無安全員的Robotaxi服務,不過車輛投放量極少。1月25日,有海外使用者在社交平台X上發帖稱,自己4天裡花了大量時間嘗試叫到無安全員的Robotaxi,一共試了38次,最終還是沒能成功。特斯拉原計畫在2025年年底前取消安全員,如今晚了差不多一個月。

參考連結:
https://x.com/DavidMoss/status/2015252404606836832?s=20 (新皮層NewNewThing)