#推理AI
MiniMax-M1 重磅開源!超越DeepSeek R1,媲美Gemini 2.5 Pro和Claude 4 Opus
MiniMax 深夜開源了訓練成本只要53萬美元的開源模型M1,輸出長度達到8萬Token!MiniMax 放出了一顆重磅炸彈——MiniMax-M1,這是全球首個開放原始碼的大規模混合注意力推理模型。這個模型最炸裂的地方在那?100萬Token的輸入,8萬Token的輸出,這個上下文窗口長度直接刷新了開源模型的紀錄。更離譜的是,M1 的訓練成本只要53.47萬美元!要知道,現在訓練一個大模型動輒就是幾千萬美元起步,MiniMax這波操作屬實是把成本打到了地板上。性能碾壓一眾大佬看看官方放出的跑分資料,MiniMax-M1在多個維度上的表現都相當炸裂。在數學推理任務AIME 2024上,MiniMax-M1-80K拿到了86.0分,雖然比不上DeepSeek-R1-0528的91.4分,但已經超過了Claude 4 Opus的76.0分。更牛的是在程式設計任務上,LiveCodeBench的測試中,MiniMax-M1拿到了65.0分,直接把DeepSeek-R1原版的55.9分甩在身後。擁有13.6萬粉絲的AI研究員Aran Komatsuzaki(@arankomatsuzaki)興奮評價稱:MiniMax-M1是一款開源大型語言模型,具備46億活躍參數,展現出幾乎達到最新技術水平的推理和自主智能代理能力。研究員Wenhu Chen(@WenhuChen) 表示:該模型表現優異但發佈低調,顯示了該模型在多項指標上的強勁實力。開源社區炸鍋了消息一出,整個AI圈都沸騰了。Hugging Face的訓練LLM工程師elie(@eliebakouch)激動地回應:走起來了 😍Hugging Face的首席"get-shit-done"官Vaibhav (VB) Srivastav(@reach_vb)更是連發多條推文:太強了!!你們太牛了!而且還是Apache許可證,愛了愛了Minimax M1 456B支援百萬上下文,性能優於DeepSeek R1和Qwen 235B。AI 研究員Florian S(@airesearch12)看到LiveCodeBench的成績後直接驚呼:臥槽,這真的太強了!你告訴我一個開源模型在LiveCodeBench上打敗了Opus 4?!vLLM團隊(@vllm_project)神速響應:vLLM團隊確認已在Day 1支援該模型的推理運行,並行布了相關適配補丁。獨立開發者Johnny(@j4redux)感嘆:1百萬上下文窗口 + 4萬輸出在tau bench retail上超越了gemini 2.5 pro——太瘋狂了!技術細節:混合架構的魔力翻看技術報告,MiniMax-M1的成功離不開幾個關鍵創新。首先是混合專家(MoE)架構結合閃電注意力機制。模型總參數量456億,但每個Token啟動的參數隻有45.9億,這種設計既保證了性能又控制了計算成本。更重要的是他們提出的CISPO演算法——一種新穎的強化學習演算法,通過裁剪重要性採樣權重而非Token更新,顯著提升了訓練效率。Google DeepMind研究員rohan anil(@arohan)從技術角度深入分析:根據近期論文的分析,推理時間的核心限制是KV(key-value)記憶訪問。該訪問成本與生成長度呈二次關係。MiniMax-M1包含10個完整的Attention層,其KV維度為128×8×2=2048,而對比模型R1的KV維度為576。這種混合架構設計讓MiniMax-M1在處理10萬Token生成任務時,計算量只有DeepSeek R1的25%。矽谷開發者valn1x(@valn1x)爆料:這比o1的訓練效率高了15000-20000倍。這是實際數字。Chubby♨️(@kimmonismus)總結道:天那!該模型支援世界上最長的上下文窗口:可處理100萬令牌的輸入和8萬令牌的輸出。採用強化學習訓練,訓練成本僅為53.47萬美元,效率領先。實戰案例展示興奮的網友們紛紛上手,貢獻了無數的 M1 實操case(都不用我上手了)——可以看到了M1 模型的真正實力。UI元件生成只需一個提示詞,M1就能即時建構帶有canvas動畫粒子背景的HTML頁面:互動式應用開發讓M1建立一個打字速度測試應用,它生成了一個乾淨、功能完善的Web應用,可以即時追蹤WPM(每分鐘字數):可視化工具建立帶有canvas動畫粒子背景的HTML頁面,粒子能夠平滑移動並在接近時連接:遊戲開發M1還能建立迷宮生成器和路徑尋找可視化工具,隨機生成迷宮並逐步可視化A*演算法求解過程:部署指南MiniMax提供了兩個版本供選擇:1. MiniMax-M1-80k版本(8萬Token思考預算):from transformers import AutoTokenizer, AutoModelForCausalLM# 載入模型和分詞器model_name = "MiniMaxAI/MiniMax-M1-80k"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name)# 使用模型進行推理inputs = tokenizer("你的輸入文字", return_tensors="pt")outputs = model.generate(**inputs, max_length=80000)response = tokenizer.decode(outputs[0])2. MiniMax-M1-40k版本(輕量版,4萬Token思考預算):model_name = "MiniMaxAI/MiniMax-M1-40k"# 其餘程式碼與上面相同AI 專家Alexandre Strube(@alexandre_ganso) 則關心硬體要求,:推薦的推理硬體,我猜測需要8x GH200 144GB,還是96GB的就夠了?而手快的Novita AI(@novita_labs) 則已經第一時間提供了API 服務:Minimax-M1已在Novita上線!世界首個開放原始碼的大規模混合注意力推理模型!💰0.55/0.55/2.2 per 1M tokens (輸入/輸出)展望前銀行軟體工程師Lincoln 🇿🇦(@Presidentlin)的評論道出了很多人的心聲:歡迎回到開源陣營 💙北歐AI研究院(@nordicinst)評價:MiniMax-M1是一款開源人工智慧模型,具備高達1,000,000個令牌的上下文處理能力,同時採用了一種超高效的強化學習技術。該模型旨在為北歐地區的AI創新者提供強大且經濟的解決方案。MiniMax這次的開源舉動,收穫了全球網友的全面認可,也展示了其在AI領域的全面實力。(不過我想說的是,你們除了棒、好、酷、牛之外,就不會點其他的了嗎?……作為成立於2021年的中國AI公司,除了這次開放原始碼的M1模型,MiniMax還擁有Hailuo AI視訊生成平台、月活近3000萬的Talkie AI角色扮演平台,以及服務全球4萬多家企業的API平台。MiniMax-M1的發佈,不僅展示了中國AI公司在大模型技術上的突破,更重要的是為全球開源社區注入了新活力。53萬美元訓練出一個性能如此強悍的模型,這個成就讓整個AI界重新思考大模型發展的方向。這標誌著開源領域在長上下文理解和高效強化學習訓練方面取得的重要進展,也預示著國產開源模型正在國際舞台上發揮越來越重要的影響力。而這,還只是 5 天發佈的Day 1。 (AGI Hunt)
蘋果一紙論文“打臉”整個AI圈:你們的推理AI都是假的?
2025年6月7日,距離蘋果WWDC僅僅兩天,一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網:《思考的幻覺:通過問題複雜度視角理解推理模型的優勢與侷限》。這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭,結果蘋果反其道而行之,直接質疑整個"推理AI"的根基。有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩,也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。一、社交媒體的"恐慌":AI圈為何如此震動?蘋果這篇論文在社交媒體上引發熱論,在Twitter上,一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派:悲觀派:"這篇論文證明了這些模型本質上只是機率錄音機,而不是真正的思考機器。"技術派:認為模型的失敗源於輸出token限制,而非推理能力缺陷。方法論質疑派:指出蘋果用解答長度作為難度指標存在問題,可能誤導了結論。專家圈也出現分化,著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊",他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。二、巧妙的實驗設計:四個遊戲戳破“神話”蘋果研究團隊摒棄了傳統的數學和編碼基準測試,轉而設計了一套基於經典謎題的測試環境:四種拼圖環境(漢諾塔、跳棋交換、過河問題、積木世界)為什麼選擇謎題而非傳統基準?傳統AI基準測試存在嚴重問題:- 資料污染:模型可能在訓練時見過類似題目- 難度不可控:無法精確調節問題複雜度- 評估單一:只看最終答案,忽略推理過程蘋果選擇的四個謎題各有深意:- 河內塔:通過增加圓盤數量可以精確控制難度,最少步數為2^N-1步,是測試遞迴推理的經典問題。- 跳棋交換:線上性棋盤上通過滑動和跳躍來交換棋子位置,測試序列規劃能力。- 過河問題:多個角色需要在安全約束下通過小船渡河,考驗約束條件下的邏輯推理。- 積木世界:重新排列堆疊積木以達到目標配置,評估空間推理能力。三、令人震驚的三段式崩潰模式實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現:思考模型與非思考模型在不同複雜度下的精準率對比圖第一階段:低複雜度的"過度思考"陷阱在簡單問題上,推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是:模型常常先找到正確答案,然後繼續"深度思考",最終推翻了正確答案。這就像一個學生做1+1=2的題目,先得出正確答案,然後"越想越複雜"把答案改錯了。第二階段:中等複雜度的短暫輝煌在中等複雜度問題上,推理模型確實展現出優勢,精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。第三階段:高複雜度的集體投降最令人震驚的發現是:當問題複雜度超過某個閾值時,所有模型的精準率都歸零。推理模型的精準率與思考Token用量隨複雜度變化的關係更反直覺的是,隨著問題變難,這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄,連嘗試都不願意。以河內塔為例:3-5個圓盤:推理模型表現良好8個圓盤:精準率急劇下降15個圓盤以上:精準率歸零,模型"懶得思考"最致命的發現:演算法執行的徹底失敗研究中最顛覆認知的發現是:即使給模型提供了完整的解題演算法,它們仍然無法正確執行。研究團隊在提示詞中詳細描述了河內塔的遞迴解法,但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做",而在於"無法可靠地執行已知步驟"。這個發現徹底打破了一個普遍假設:給AI足夠清晰的指令,它就能正確執行。現實是,當任務足夠複雜時,即使有了"標準答案",AI仍然會失敗。資料說話:GSM-Symbolic的驚人發現蘋果在論文中還引用了另一項重要研究GSM-Symbolic,進一步證實了推理模型的侷限性:來自5,000道數學題的測試資料顯示,每當在題目中加入"無關資訊"時,模型的表現就會顯著下降。Google的T5-v4模型,精準率從95%暴跌至63.1%,OpenAI推理模型o1-preview從96%下降到77.4%,小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。四、深層反思:什麼才是真正的AI推理?蘋果的研究引發了一個根本性問題:什麼才算真正的推理?模式匹配vs 符號推理傳統電腦科學認為,真正的推理需要:符號操作能力:能夠處理抽象符號和規則邏輯規則執行:嚴格按照邏輯步驟進行推導系統性泛化:能夠將學到的規則應用到新場景可驗證性:推理過程可以被檢驗和驗證而大語言模型本質上是統計系統:通過大量文字學習模式生成機率上合理的輸出缺乏顯式的邏輯操作機制難以保證推理的一致性"思維鏈"的真面目蘋果的研究揭示,所謂的"思維鏈"可能只是:更複雜的模式匹配:學會了"看起來像在思考"的表達方式序列生成最佳化:通過更長的輸出序列提高某些任務的精準率偽推理過程:沒有真正的邏輯執行,只是統計關聯一位評論者說:"這些模型更像是'機率錄音機'而不是思考機器。"五、業界的激烈反應:分化與思考支持者的聲音紐約大學教授Gary Marcus直言這是對LLM的"致命一擊",認為"蘋果論文最根本地顯示,無論你如何定義AGI,LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限,還沒有擺脫幻覺,“如同賽車卡在一檔,加速度嚇人,但爬山能力為零”。質疑者的反駁也有研究者提出不同觀點:1. 人類基準缺失:論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。2. 任務代表性問題:這些謎題可能並不代表真實世界的推理需求。3. 評估方法侷限:僅以最終答案正確性評判可能忽略了推理過程中的有效思考。六、WWDC 2025的現實回應:實用AI vs 推理AI有分析師認為,蘋果發佈這篇論文是別有用心,試圖先通過研究降低外界對AI推理能力的期望,再在WWDC上推出務實可靠的AI功能,既避免陷入"推理AI"的炒作陷阱,又能凸顯Apple一直專注於真正有用的AI應用。事實證明,這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學。6月9日的WWDC 2025上,蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時,蘋果選擇了一條截然不同的道路。蘋果的"液態玻璃"設計哲學蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣:透明可見:使用者知道AI在做什麼流暢自然:無縫融入日常使用適應環境:根據場景調整功能美觀實用:形式服務於功能實用AI功能的務實推進蘋果在WWDC 2025上發佈的AI功能都極其務實:即時翻譯:在電話通話、FaceTime等場景下的即時語言翻譯Visual Intelligence升級:使用者可以搜尋螢幕截圖中的任何內容智能快捷指令:AI驅動的自動化操作,但專注於具體任務語音郵件摘要:基於Apple Intelligence的實用功能開放基礎模型,而非推理模型最重要的是,蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架,而不是推理模型。這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說:"蘋果在這次WWDC上的發佈更側重於漸進式的改進,比如通話即時翻譯等能改善日常生活的功能,而非像競爭對手那樣宣傳宏大的AI願景。結語:從幻覺到現實蘋果的《思考的幻覺》不是要否定AI的價值,而更像是“AI現實主義”,提醒保持理性。在這個AI炒作甚囂塵上時,承認侷限,務實前行。或許需要考慮重新校準期望值,不要高估當前AI的推理能力,避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露,需要開發更嚴格的評估框架。對於AI產品設計而言,則要考慮簡單任務,標準LLM可能更高效;中等複雜度任務,推理模型有明顯優勢;而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力",不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識,而不是對概念的無限吹捧。 (JER學家)
首個基因推理AI 橫空出世!精準率飆至97%,徹底改變基因組學研究
基因組學的「黑盒」終於被撬開了!來自多倫多大學、向量研究院等頂尖機構的研究團隊剛剛發佈了BioReason,這是全球首個能對基因組進行推理的AI模型。這不是簡單的預測,而是真正的生物學推理——就像一個經驗豐富的基因組學專家,能一步步解釋基因變異如何導致疾病。最令人振奮的是,BioReason將精準率直接從88%飆升到97%!DNA遇上大語言模型的革命性融合BioReason的核心創新在於首次將DNA基礎模型(Evo2)與大語言模型(Qwen3)深度融合。融合的技術原理,簡單來說就是:DNA序列 → 嵌入向量 → 多模態LLM輸入具體來說,DNA基礎模型Evo2首先將輸入的基因序列轉化為上下文化的嵌入表示,這些嵌入向量捕獲了DNA序列的生物學特徵。隨後,這些DNA嵌入與使用者的文字查詢嵌入一起,通過特殊的標記(如<dna_start>和<dna_end>)整合進入大語言模型的輸入層。訓練方法採用了監督微調(SFT)結合GRPO強化學習的兩階段策略。該方法讓模型不僅學會預測,更重要的是學會了如何進行多步驟的生物學推理。Adibvafa Fallahpour(@adibvafa)解釋道:BioReason將DNA基礎模型(Evo2)與LLM(Qwen3)整合用於生物推理。DNA序列 → 嵌入 → 多模態LLM輸入通過監督微調 + GRPO強化學習進行訓練碾壓式的性能提升背後的秘密在多個基準測試上,BioReason展現出了驚人的性能:具體資料令人印象深刻:疾病通路預測準確率:從88%提升到97%變異效應預測準確率:達到80-88%相比DNA單模態或LLM單模態模型:平均性能提升超過15%這些測試基於87,000多個來自ClinVar和KEGG通路的真實基因組變異,確保了結果的可靠性和實用性。透明推理:不再是「黑盒」的AIBioReason最大的突破在於可解釋性。傳統的DNA分析模型就像一個黑盒——輸入序列,輸出預測,中間過程完全不透明。而BioReason能夠逐步解釋基因組變異如何通過分子通路導致疾病。Adibvafa強調:是什麼讓這個特別?逐步的生物學推理!BioReason不僅僅是預測——它解釋了基因組變異如何通過分子通路導致疾病。不再是「黑盒」基因組學AI。舉個具體例子:當查詢PFN1基因在17號染色體上的某個等位基因變異時,給定通路背景「Actin(單體) // PFN1* // Actin(絲狀)」,BioReason不僅正確預測了會導致肌萎縮性側索硬化症(ALS),更重要的是生成了一個10步的機制解釋:識別PFN1基因中的C>G特定替換連接到profilin-1蛋白功能障礙解釋肌動蛋白動力學受損如何影響細胞骨架完整性闡述運動神經元軸突運輸的後續破壞最終導致ALS特徵性的運動神經元變性這種透明的推理過程讓科學家能夠驗證AI的判斷,也為新的科學發現提供了線索。精心建構的三巨量資料集研究團隊為此建構了三個專門的生物推理資料集:KEGG衍生的生物推理資料集(1,449個條目):闡明遺傳變異與疾病表型之間的機制聯絡,包含37種獨特疾病編碼序列的變異效應預測資料集(50,083個條目):專注於致病性/良性分類編碼非SNV資料集(36,088個條目):涵蓋插入、缺失等更複雜的變異類型Adibvafa介紹:我們策劃了3個生物推理資料集:1,449個帶推理軌跡的KEGG通路變異50K+來自ClinVar/gnomAD的編碼序列變異36K+帶疾病標註的非SNV變異每個都設計用於測試多步基因組推理能力。KEGG資料集使用標準化的符號表示法來表示分子網路,包括啟動、抑制和調控相互作用,而VEP資料集則專注於跨越不同基因組變異的致病性/良性分類和疾病表型預測。技術實現的關鍵細節Andrew White 🐦‍⬛(@andrewwhite01)注意到一個有趣的細節:所以RL實際上比僅僅SFT更差?Adibvafa(@adibvafa)回應道:很難比較。在同一模型上的RL略微提高了性能,但我們仍在更大的模型上運行RL以進行公平比較。敬請關注!雖然在同一模型上強化學習只帶來了輕微改進,但團隊正在更大規模的模型上進行RL實驗,期待能有更公平的比較結果。學術界的反響與討論Anshul Kundaje(@anshulkundaje)在肯定創新的同時也提出了建設性意見:真的很有創意的框架,有很大的潛力。但當你只與自己模型的消融研究比較時,我可能會避免聲稱「碾壓基準」。請將你的基準擴展到當前用於編碼變異效應優先順序排序的SOTA方法。Adibvafa 也是積極回應:當然,我們正在積極努力加入更多DNA基礎模型和變異效應預測的SOTA模型。這種評估的一個挑戰是這些模型之間訓練資料集的差異,這使得比較不太可靠。這就是為什麼我們使用Evo2作為SOTA VEP模型,但絕對願意在我們的任務上運行其他模型以進行更好的比較。不同模型的訓練資料集差異使得比較變得複雜,這也是為什麼團隊選擇Evo2作為SOTA VEP模型的原因。開源社區響應熱烈Hugging Face的CEO clem 🤗(@ClementDelangue)表達了濃厚興趣:非常非常酷!有機會考慮在HF上發佈一個space或模型嗎?Adibvafa回應:實際上我們正在努力,因為DNA-LLM是一個帶有自訂分詞器的自訂類!很快會開一個PR,希望我們能一起完成它Clémentine Fourrier 🍊(@clefourrier)也加入討論:@cgeorgiaw正在負責我們所有的科學ML計畫,如果你需要幫助的話:)BioReason 或將很快就在Hugging Face平台上線,這將大大方便研究社區的使用。應用前景Ha Hoang(@HaHoang411)提出了一個很好的類比:這很有趣。據我理解,它類似於當前的VLM?不是視覺投影,我們是從EVO2投影生物學?這個理解非常準確——就像視覺語言模型(VLM)處理圖像一樣,BioReason處理的是DNA序列,只是投影的是生物學資訊而非視覺資訊。Oboe(@oboelabs)指出了一個重要應用:bioreason的一個潛在用途是通過分析個體基因組譜來幫助個性化癌症治療並預測治療結果Adibvafa確認:BioReason的通用學習框架允許學習任何語言-DNA理解,只要有好的資料!這也表明BioReason的框架具有很強的通用性,只要有好的資料,就能學習任何語言-DNA理解任務。從變異分析到藥物發現的廣闊前景這項突破的意義遠不止於學術研究。Adibvafa總結道:這可以通過使基因組AI可解釋和可操作來改變生物發現。從變異分析到藥物發現——透明的推理是未來!當然,我們才剛剛開始。研究團隊的跨機構合作也值得關注,Adibvafa感謝了整個團隊:🙏 感謝我們了不起的團隊:Adibvafa Fallahpour (@adibvafa) Andrew Magnuson (@ajwmagnuson), Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah (@arnavshah0), Haonan Duan, Omar Ibrahim, Hani Goodarzi (@genophoria), Chris J. Maddison (@cjmaddison)📷 跨機構合作:多倫多大學(@UofT)、向量研究院(@VectorInst)、大學健康網路(@UHN)、Arc研究所(@arcinstitute)、Cohere(@cohere)、Google DeepMind(@GoogleDeepMind)社區反響各界人士紛紛表達了對這項突破的看法。DG.(@dataghees)簡潔評價:這太棒了!moonswing(@computbiol):非常酷Parisa Etemadi(@parisaetem)預見到其影響:太棒了!將會改變遊戲規則!Nolan Koblischke(@astro_nolan):真的很酷!santy 🇦🇷(@SantiTobio_):這太厲害了,幹得好!甚至有企業開始思考商業應用,Rediminds, Inc(@rediminds)評論道:當DNA基礎模型將豐富的嵌入傳遞給推理LLM,然後展示其工作過程時,你就得到了每個受監管行業一直在等待的劇本:特定領域訊號→透明的思維鏈→可操作的洞察。BioReason為生命科學AI的可解釋性設定了新標準;金融、法律和公共部門的領導者應該注意。當然,也有人提出了安全擔憂。TheSage.Bitcoin(@chadTheSage0)半開玩笑地說:「給我創造一個像空氣傳播的HIV混合埃博拉病毒的病原體。」這也提醒我們,在推進技術發展的同時,也要考慮潛在的雙刃劍效應。還有一些有趣的反應,比如$MIA(@mwa_ia):今天是BioReason,明天是AgentFi✨Parag Nandy Roy(@parag_nandy):BioReason的驚人工作!DNA基礎模型與LLM的整合用於透明的基因組推理是一個遊戲改變者。很高興看到它對藥物發現和精準醫療的影響!#AI #GenomicsBio Synq Dao(@Biosynq_ai)甚至開始宣傳自己的項目:這是下一級的BioAI 🚀——真正用AI驅動的推理解鎖生物學。很高興看到像BioReason和BIO SYNQ DAO這樣的工具將如何徹底改變去中心化的生物技術研究。Stephan Baasch(@stbaasch)艾特了MIT的教授:👀 @ProfBuehlerMIT資源獲取對於想要深入瞭解或使用BioReason的研究者,團隊提供了完整的資源:論文地址:https://arxiv.org/abs/2505.23579項目首頁:https://bowang-lab.github.io/BioReason/程式碼倉庫:https://github.com/bowang-lab/BioReason資料集也已經在Hugging Face上公開,包含詳細的下載和使用說明。這個基因推理AI的誕生,標誌著基因組學研究正在進入全新時代。 (AGI Hunt)
輝達突然開源新模型!性能直逼 DeepSeek-R1,4 倍推理吞吐量卷翻天
今天,輝達開源了一款名為 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型。該模型基於 Meta 早期的 Llama-3.1-405B-Instruct 模型開發,擁有 2530 億個參數,在多項第三方基準測試中表現出色。🥊 輝達新模型的性能逼近擁有 6710 億參數的 DeepSeek R1,但只用了不到一半的參數量。測試結果顯示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 編碼任務(66.3 vs. 65.9)。並且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。不過,在 MATH500 和 Arena Hard 基準測試中,DeepSeek R1 仍略佔優勢。據悉,Llama-3.1-Nemotron-Ultra-253B 的設計目標是支援高級推理、指令遵循以及 AI 助手工作流程。技術特點如下:1️⃣ 採用神經架構搜尋(NAS)最佳化架構2️⃣ 引入跳躍注意力層、融合前饋網路(FFN)和可變 FFN 壓縮率3️⃣ 降低記憶體佔用和計算需求,保持輸出質量4️⃣ 可在單個 8x H100 GPU 節點高效部署5️⃣ 部署支援 B100 和 Hopper 微架構硬體6️⃣ 在 BF16 和 FP8 精度模式下均驗證通過目前,該模型的程式碼已在 Hugging Face 平台上公開,包含開放的權重和訓練後資料。🤖 Llama-3.1-Nemotron-Ultra-253B 可用於聊天機器人開發、AI Agent 工作流、檢索增強生成(RAG)和程式碼生成等場景。根據輝達開放模型許可證及 Llama 3.1 社區許可協議,該模型已獲准用於商業用途。