💥 震驚科技圈:當其他AI還在一個字一個字地蹣跚前進,Mercury已經以驚人的速度飛奔而過!這個全球首個商用級擴散大語言模型(dLLM)徹底重新定義了AI的速度與智能極限!
你有沒有等得不耐煩,看著螢幕上那個閃爍的游標緩慢地吐出AI回覆?這個問題即將成為歷史!Mercury已經來了,它不僅比現有頂級模型快10倍,而且還更聰明!
現有的大語言模型(LLM)都採用自回歸方式工作,就像人類閱讀一樣,從左到右一個詞一個詞地生成文字。這種順序性意味著必須先生成前面的所有內容,才能產生後續內容。而每生成一個詞元(token),都需要呼叫包含數十億參數的神經網路。
這一代AI公司正在不斷增加推理能力,但代價是暴漲的成本和令人無法忍受的延遲。我們需要一場徹底的範式轉變!
🌟 擴散模型正是這樣的革命性突破。這類模型採用"從粗到細"的生成過程,通過幾個"去噪"步驟,將輸出從純噪聲逐步精煉成高品質內容。
與傳統模型不同,擴散模型不侷限於只考慮前面的輸出,它能夠更好地進行推理並建構回應結構。更重要的是,擴散模型可以不斷完善其輸出,修正錯誤和幻覺。這就是為什麼擴散技術已經成為Sora、Midjourney和Riffusion等視訊、圖像和音訊生成領域的核心動力。
然而,擴散技術在文字和程式碼等離散資料領域從未成功過——直到現在!
Mercury Coder作為首個公開可用的擴散大語言模型(dLLM),為AI能力設立了全新標準:它比當前一代LLM快5-10倍,以低成本提供高品質響應。
這項工作建立在Mercury創始人的突破性研究基礎上——他們開創了第一個圖像擴散模型,並共同發明了直接偏好最佳化(DPO)、Flash Attention和決策轉換器等生成式AI核心技術。
💡 擴散大語言模型可以無縫替代傳統自回歸LLM,支援所有用例,包括檢索增強生成(RAG)、工具使用和代理工作流。當接收查詢時,它不是一個詞元一個詞元地生成答案,而是通過"從粗到細"的方式生成。神經網路(在本例中是Transformer模型)經過大量資料訓練,能夠通過平行修改多個詞元來全域改進答案質量。
Mercury Coder在標準編碼基準測試中表現出色,經常超越GPT-4o Mini和Claude 3.5 Haiku等速度最佳化的自回歸模型,同時速度快至10倍!
擴散大語言模型的獨特之處在於其速度。即使是最佳化過的自回歸模型最多也只能達到每秒200個詞元,而Mercury Coder在普通的NVIDIA H100上可以達到每秒超過1000個詞元,提速5倍。與某些頂級模型相比(有些運行速度低於每秒50個詞元),我們提供了20倍以上的加速!
這種性能之前只能通過Groq、Cerebras和SambaNova等專用硬體實現。而我們的演算法改進與硬體加速正交,在更快的晶片上速度會呈倍數增長。
更令人興奮的是,開發者在Copilot Arena基準測試中更喜歡Mercury的程式碼補全。Mercury Coder Mini並列第二,超越了GPT-4o Mini和Gemini-1.5-Flash等速度最佳化模型,甚至超過了GPT-4o等更大的模型。同時,它是最快的模型,比GPT-4o Mini快約4倍。
早期採用者已經成功地將標準自回歸基礎模型取代為擴散大語言模型。這轉化為更好的使用者體驗和更低的成本。在對延遲敏感的應用中,合作夥伴之前常常被迫使用較小、能力較弱的模型以滿足嚴格的延遲要求。現在,他們可以使用更大、更強大的模型,同時遵守原始成本和速度要求。
Mercury Coder只是即將推出的一系列擴散大語言模型中的第一個。為聊天應用設計的模型正在進行封閉測試。
擴散語言模型將為LLM解鎖一系列新功能,包括:
你怎麼看待這種新的AI技術突破?Mercury的速度提升會給你的工作或生活帶來什麼變化? (澤問科技)