#智能體模型 | 熱門關鍵字 | 鉅亨號

就在剛剛，老黃深夜炸場了！4月29日消息，輝達今晨重磅推出Nemotron 3 Nano Omni開源全能多模態大模型。該頂尖AI多模態模型，採用30B-A3B MoE混合專家架構，整合視覺、語音、文字多維能力於一體。幫助AI智能體依託視訊、音訊、圖像、文字全維度資訊開展深度推理，輸出更快、更智能的互動應答，為企業與開發者提供可落地的工程化方案。同時，該模型顯著提升了大規模推理效率。它不僅效率高，而且擁有強大的多模態感知精度，使AI系統的吞吐量比其他具有相同互動性的開放式全向模型高出9倍（900%）。最終實現了更低的成本和更好的可擴展性，同時又不犧牲響應速度或質量。輝達表示，新模型在MMlongbench-Doc和OCRBenchV2等文件智能排行榜上提供了一流的精準性，同時在視訊和音訊理解方面也處於領先地位，在WorldSense、DailyOmni和VoiceBench等排行榜上名列前茅。除了準確率之外，MediaPerf（一個開放的行業基準測試，它使用真實媒體資料和製作任務，從質量、成本和吞吐量等方面評估視訊理解模型）顯示，Nemotron 3 Nano Omni 在所有任務中都實現了最高的吞吐量，並且在視訊級標註方面推理成本最低。值得一提的是，另一家矽谷AI巨頭依然發佈重要消息。針對市場有關銷售增長放緩及未達內部目標的擔憂，OpenAI周二公開回應稱，公司消費端與企業業務正“全速運轉”，需求持續增長，並淡化相關負面報導影響。OpenAI在聲明中表示，來自企業客戶的需求及其尚處於起步階段的廣告業務仍在持續增長。“公司內部氛圍非常積極，”該公司在一份聲明中稱。《華爾街日報》周一晚間報導，隨著競爭對手不斷取得進展，OpenAI已未能實現多個內部目標。OpenAI將該報導形容為“典型的標題黨”。輝達最強模型設計與跨模態資料和訓練Nemotron 3 Nano Omni 架構將多模態感知和推理整合到一個 30B 混合 MoE 模型中，原生支援文字、圖像、視訊和音訊輸入，同時在代理循環中保持統一的多模態上下文，無需單獨的視覺、語音和語言模型。該產品採用融合Mamba層與Transformer層結構，分別強化序列記憶體效率與推理精準度，大幅提升模型吞吐量，記憶體與計算效率最高可提升4倍，適配各類子智能體應用場景。在視訊處理層面，Nemotron 3 Nano Omni依靠3D摺積捕捉畫面幀間運動特徵，並通過高效視訊採樣層壓縮多幀高密度視覺標識，保障大模型在上下文限制內順暢完成視訊內容解析。多模態體系以成熟文字模型作為核心解碼器，保留原生語言能力的同時搭建跨模態適配橋樑，有效降低多模態訓練的難度、成本與不穩定性，強化連續感知任務的綜合表現。音訊能力依託NVIDIA Parakeet編碼器及定製化專業資料集搭建，結合Granary、Music Flamingo等技術實現超越基礎語音轉錄的多元化音訊理解能力。視覺模組搭載C-RADIOv4-H編碼器與視訊摘要技術，通過分層壓縮策略應對高畫質圖像與動態視訊處理需求，精準保留畫面細節並保障OCR識別精度。該模型基於海量跨模態資料與指令調優完成訓練，面向真實智能體場景打造，可獨立處理圖文音視訊多類型指令，充當大型智能體系統的多模態感知子模組，全流程由NVIDIA NeMo Evaluator庫完成性能評測。依託文件、截圖、音視訊等多元大規模資料開展介面卡與編碼器訓練，讓模型在複雜企業級感知任務中具備出色泛化能力。NVIDIA 通過 Nemotron 3 Nano 和 Nemotron 3 Super 發佈了業界最全面的基於文字的智能 AI 開放資料集，其中包括：10T+ 預訓練標記、4000+ 訓練後樣本、20 多個 RL 環境配置和完整的訓練方案，所有這些都是公開可用的。借助NVIDIA Megatron-LM落地多階段監督微調流水線，循序漸進拓展模態適配範圍，逐步將上下文長度從16K提升至262K，築牢跨模態指令跟隨基礎。模型層面約 1270 億個標記，涵蓋文字+圖像、文字+視訊、文字+音訊和文字+視訊+音訊等混合模態——反映了真實世界的上下文互動，而非單一模態資料。針對真實世界任務的訓練後訓練：約 1.24 億個精心挑選的多模態組合示例（文字+音訊、文字+圖像、文字+視訊和文字+視訊+音訊），旨在支援文件推理、電腦使用和長期工作流程。模型在監督微調後開展多環境強化學習，覆蓋25種環境配置，依託NVIDIA NeMo系列工具完成超230萬次環境部署，持續增強多模態任務與智能體工作流的運行穩定性。輝達還提供了使用 NVIDIA NeMo Data Designer建構的合成資料生成 (SDG)流水線，用於對 Nemotron 3 Nano Omni 進行後訓練，以使其能夠勝任複雜的長文件理解任務。通過迭代的流水線開發、訓練和故障分析，我們最終將一系列生成約 1140 萬個合成視覺問答對（約 450 億個tokens）的流水線整合到 Nemotron 3 Nano Omni 的最終訓練資料集中。圖像訓練資料已公開。借助底層圖像資料和模型，開發人員可以檢查、調整和擴展多模態訓練流程。對於以往維護各自獨立的視覺、語音和文件資料棧的企業而言，Omni 將這些資料棧整合到一個單一的、可用於生產環境的基礎架構中，從而降低了跨模態部署智能體的門檻。已經採用 Nemotron 3 Nano Omni 的人工智慧和軟體公司包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir 和Pyler，而戴爾科技、DocuSign、Infosys、K-Dense、Lila、Oracle和Zefr正在評估該模型。H Company首席執行長Gautier Cloix表示，“要建構實用的智能體，不能讓模型花費數秒時間來解讀螢幕。基於Nemotron 3 Nano Omni，我們的智能體可以快速解讀全高畫質螢幕錄影——這在以前是無法實現的。這不僅僅是速度的提升，更是智能體即時感知和與數字環境互動方式的根本性轉變。”OpenAI回應：商業化沒放緩此前，《華爾街日報》報導稱，隨著競爭對手搶佔市場，OpenAI未能達成若干內部增長目標。報導還稱，OpenAI首席財務官Sarah Friar擔憂，若銷售增長不足，公司未來可能無力承擔不斷攀升的算力需求。如果收入增長速度不能進一步加快，OpenAI 未來能否支撐龐大的資料中心和算力合同成本？該消息出現在 OpenAI 衝刺潛在 IPO 的關鍵階段，也讓市場重新審視 AI 基礎設施投資的回報周期。受此影響，OpenAI 相關概念股出現明顯下跌。其中，甲骨文跌超4%，CoreWeave跌超5.7%。股價的波動凸顯了OpenAI在涉及頂尖雲端運算供應商和晶片製造商的複雜投資與交易網路中所扮演的核心角色。投資者本就對AI基礎設施泡沫日益擔憂，紛紛質疑OpenAI及其他科技公司未來數年投入數千億美元建設資料中心和採購晶片的計畫。與此同時，投資者對AI基礎設施泡沫擔憂也持續升溫。市場開始質疑OpenAI及其他科技公司未來數年投入數千億美元建設資料中心與採購晶片的計畫能否帶來合理回報。對此，OpenAI表示，公司仍將擴大算力資源視作“關鍵推動因素”，認為更多計算能力將幫助其持續改善客戶產品體驗。公司稱，推動更多算力部署不僅是成本投入，更是支撐長期競爭優勢的重要基礎。OpenAI本月稍早曾向投資者表示，早期大幅擴充計算資源，使公司在與長期競爭對手Anthropic競爭中具備關鍵優勢，儘管後者近期正快速追趕。不過，值得注意的是，即便在《華爾街日報》報導發佈前，OpenAI實際上已開始對基礎設施投資採取更審慎態度。公司近期表示計畫暫停英國一個項目，同時，微軟同意租賃原本擬供OpenAI使用的挪威資料中心容量。另據3月報導，由於融資談判拖延，甲骨文與OpenAI已放棄擴建德州旗艦AI資料中心計畫。市場人士認為，這些調整顯示OpenAI並未無節制擴張，而是在高投入戰略與資本約束之間尋求平衡。Wedbush 分析師DivesTech認為，《華爾街日報》報導 OpenAI 最近未能實現其新使用者和收入目標後，甲骨文遭到拋售，這是一種“過度反應”。Wedbush 認為 OpenAI 在消費者和企業市場都獲得了“非常高的需求”。該公司“強烈”不同意其增長放緩的說法。分析師在一份研究報告中告訴投資者，甲骨文5530 億美元的積壓訂單主要來自未來五年與 OpenAI 簽訂的價值 3000 億美元的雲合同，該項目預計將為公司貢獻 300 億美元的收入。該行對甲骨文完成 5000 萬美元融資的能力充滿信心。該行認為近期圍繞 OpenAI 的擔憂被誇大了，並表示該公司擁有足夠的資金來滿足其至少未來三年的計算能力需求。此外，一直以來，微軟與OpenAI的合作被視為科技屆最成功的“聯姻”。微軟向OpenAI累計投資130億美元，一步步助推後者成為世界級AI巨頭。而微軟也依靠OpenAI拿到了AI時代的核心入場券。然而在今年4月27日，微軟與OpenAI雙雙在官網發佈了一份公告“修訂後的協議，釐清長期合作細則（Amended Agreement Provides Long-Term Clarity）”，對兩家公司延續七年的合作框架作出重大調整。兩家公司在收入分配上也做出了重新調整。微軟將不再向OpenAI支付收入分成，OpenAI對微軟的收入分成持續到2030年，並設總額上限。此外，微軟將繼續“以核心股東身份深度參與OpenAI的長期發展。也就是說微軟作為持股27%的OpenAI最大股東仍然可以享受OpenAI的增長紅利。而且，此前的協議規定一旦OpenAI被認定實現AGI，收入分成即停止。修訂後的協議則取消了這一觸發條款，也就是無論OpenAI是否達成AGI，微軟都能穩定收到至2030年的分成。在這份聲明的最後，兩家公司強調，雖然本次修訂簡化了合作關係，但兩家公司共同推進事業的野心不變。聲明還提到了兩者其他的一些意向合作領域，包括“新建千兆級算力資料中心、聯合研發新一代晶片、AI技術在網路安全領域的落地”等。雙方將繼續攜手合作，為全球的個人與組織推進並擴展AI的發展。 (智能紀元AGI)