馬斯克開源Grok的“難言之隱”與“野望”

2024年3月18日,馬斯克兌現前幾天的諾言,正式對Grok大模型進行開源。根據開源資訊顯示:Grok模型的Transformer達到64層,大小為314B;使用者可以將Grok用於商業用途(免費),並且進行修改和分發,並沒有附加條款。



首先速覽一下Grok 的參數細節:

① 模型概況:擁有3,140億個參數,成為目前參數量最大的開源模型;Grok-1 是基於Transformer 的自迴歸模型。xAI 利用人類和早期Grok-0 模型的大量回饋對模型進行了微調。初始的Grok-1 能夠處理8192 個token 的上下文長度,已經在2023 年11 月發布。

② 特點:模型採用了混合專家架構,共有8個專家模型,其中每個資料單元(Token)由2位專家處理。這使得每次對Token的處理會涉及860億激活參數,比目前開源的最大模型Llama-2 70B的總參數量還多。模型包含64個處理層,模型使用了48個用於處理查詢的注意力機制單元和8個用於處理鍵/值對的注意力機制單元。模型支援8bit精度量化。

③ 缺陷:Grok-1 語言模式不具備獨立搜尋網路的能力。在Grok 中部署搜尋工具和資料庫可以增強模型的能力和真實性。儘管可以存取外部資訊來源,但模型仍會產生幻覺。

④ 訓練資料:Grok-1 發布版本所使用的訓練資料來自截至2023 年第三季的網路資料和xAI 的AI 訓練師提供的資料。




再看一下各項基準測試的評分比較:



從評分來看,沒有什麼驚艷之處,比不過GPT4,也比不過Palm-2及Claude3。但xAI 表示,他們沒有為應對這個考試而特別準備或調整模型。也許我們可以小小期待一下,Grok1.5 是不是會帶來某些驚喜。

這次公佈的開源版本,馬斯克絕對會著重諷刺一下隔壁的「Closed AI」。


但是,Grok 開源,僅僅是為了諷刺OpenAI 嗎?如果堅持閉源,Grok 是不是會把自己陷入某些比較艱難的境地?大模式開源 VS 閉源,在產業生態上,分別佔據什麼樣的位置?




Grok開源的難言之隱


馬斯克宣布xAI開源,雖然引發了新一輪的創新競爭和爭議,但從整個市場格局來看,Grok的開源也是不得已而為之的決定。

Grok是馬斯克創立的AI公司X.ai推出的大模型,相較於其他大型模型,Grok的與眾不同之處在於使用了X平台(原名Twitter)上的語料進行訓練,據稱Grok還自帶幽默感和懟人的風格。

雖然得到了X平台數據資源的加持,但在大模型大爆發的當下,Grok並沒有進入第一梯隊。




尤其是2024年以來,Gemini、Claude3接連發布,其能力已經接近甚至超越GPT-4,三者處於第一梯隊的行業格局基本確定。這還不算上Mistral AI和Inflection AI的奮起直追。因此,未來的基座大模型「虹吸效應」越明顯,留給其他玩家的機會並不多。

Grok借助伊隆馬斯克的影響力雖然得到了一定的關注度,但是在產業和用戶的知名度並不高,在大模型的「軍備競賽」中並沒有太多競爭優勢。拋開馬斯克本身與OpenAI的恩怨情仇,Grok繼續叫板的意義並不大。

如果Grok繼續走閉源開發的路徑,基本上將成為人工智慧時代的“諾基亞塞班系統”,被拋棄只是時間問題。屆時Grok既無法幫助馬斯克對X平台進行商業化變現,又成為昂貴的沉默成本。

因此,與其作為一個二流甚至三流的閉源大模型,不如破釜沉舟,透過開源為Grok殺出一條血路,在風口上為Grok謀下新的發展路徑。國內大模型月之暗面CEO楊植麟也曾表達過,「如果我今天有一個領先的模型,開源出來,大概率不合理。反而是落後者可能會這麼做,或者開源小模型,攪局嘛,反正不開源也沒價值。”



開源是推動產業「螺旋式成長」的必要一環


技術的發展有閉源,必然有開源。閉源和開源兩者的表現會競相追趕,交替上升,這也是技術發展的動力之一

行動互聯網時代iOS的和Android就是閉源和開源的典型代表,因此不存在閉源一直碾壓開源的現象,而是雙方在不斷借鑒和切磋的過程中,讓更多用戶在移動互聯網時代獲得更多收益,成果惠及社會。

同樣道理,在大模型時代,如果說ChatGPT點燃大家對大模型的熱情,那麼開源大模型的出現則是進一步降低了創業者的門檻,讓更多創業者在基礎模型方面處於同一起跑線上。

甚至可以說,正是因為有了開源大模型才大幅降低了大模型的開發成本。畢竟僅靠OpenAI一家公司是難以將大模型向全球生態的形態發展,大家也不願意看到一家獨大的局面。

例如2024年年初火熱的文生視訊模型Sora引發全球轟動,業界也不短加快開源版本的研發,國內研究機構甚至推出了Open-Sora框架,並將復現成本降低46%,模型訓練輸入序列長度擴充至819K patches,讓更多機構可以在文生視訊利於獲得可用的工具和方法。

同時,在企業應用大模型時,不僅關注模型的前沿能力,還需考慮資料安全隱私、成本控制等多面向因素。因此,以企業為導向的開源模式在許多情況下更能滿足企業個人化需求,而像OpenAI這樣的閉源模型公司可能無法完全滿足這些需求。

未來的大模型市場,將呈現開源模型滿足基本智慧需求,閉源模型滿足高階需求的互補態勢



開源基礎上的創新,是“真功夫”


對於大模型而言,開源的底座只是起點,需要在這個起點上進一步創新。

尤其是目前開源大模型更新的速度不斷加快,今天可能還是業界最好的模型,但是明天就有可能被超越,變成沉默成本。當模型迭代速度不斷加快的今天,過去的投入很有可能就會打水漂。

因此在開源底座的基礎上,做為我所用的東西更有價值。例如目前海外的開源模型發展較快,但是其模型中文能力一般,也沒有豐富的行業場景,缺乏國內如此豐富的數據預訓練資源,這反倒是創業的機會和寶貴的窗口期。

同時,開源模型讓更多大學、研究機構、中小企業不斷深入使用,並對開源模型進行不斷完善改進,最終這些成果也將惠及參與開源模型的所有人。

以Meta公司開源的LLaMa 2為例,截止2023年底,Hugging Face上開源的大模型排行榜前十名中,有8個是基於LLaMa 2 打造的,使用LLaMa 2的開源大模型已經超過1500個。同時,Meta、英特爾、Stability AI、Hugging Face、耶魯大學、康乃爾大學等57家科技公司、學術機構還在2023年下半年成立了AI聯盟,旨在透過建構開源大模型生態,來推動開源工作的發展。目前AI聯盟建構起從研究、評估、硬體、安全、公眾參與等一整套流程。

當然,依托開源做研發並不容易,用好開源模式也是一種障礙和門檻。

這是因為基於開源模型做開發,其後續的投入門檻並不低,對研發要求依舊很高。用開源模型做底座只是有效降低了冷啟動的成本,具體來看:優秀的開源模型可能已經學習超過萬億token的數據,因此幫助創業者節省了部分成本,創業者可以在這個基礎上進一步進行訓練,最終將模型做到業界領先水平,這個過程中資料清洗、預訓練、微調、強化學習等步驟都不能少。



「開源+」策略或將成為Grok突圍的新思路


1.開源+端側實現“軟硬一體化”

目前,主流大模型動輒萬億級的參數,需要海量的算力資源予以支持,但並非所有終端都能夠支持這樣的成本投入,而在智慧型手機、物聯網等端側需要小巧、靈活的輕量級級模型,甚至可以在終端機處於離線狀態也能夠使用。

因此,真正做到讓AI可以“觸手可及”,端側模型落地具體需求場景更為迫切:

伊隆馬斯克在特斯拉汽車、星鏈衛星終端、甚至擎天柱機器人正在建構AI落地「最硬派」場景:特斯拉的Autopilot使用了AI演算法來實現自動駕駛功能,將是未來智慧交通的一種重要嘗試;SpaceX最近發射的星艦實現了2秒鐘內處理所有33個引擎的數據,並確保可以安全加速。未來基於Grok來建立軟硬一體化的模型-應用生態體系,有望解決當前「基礎模型和需求場景,誰來把兩者銜接起來」的現實問題。更關鍵的一點在於,大部分目前致力於大模型開發的公司最終將變成模型-應用一體化的企業,而且應用層的市場價值更大

一旦通過了TMF(Technology Market Fit)、PMF(Product Market Fit)階段,其價值將在生產力效率提升、泛娛樂、資訊流轉創新方面產生更大效益,而馬斯克在其他產業的佈局可以更好的與之發生「共振」:一方面透過Grok開源,吸引更多用戶和企業的調用和接入,提升通用的智能化能力,另一方面圍繞自身生態和產業場景、數據方面的優勢(汽車+衛星+機器人)建構更多可落地的創新。生成式人工智慧正在從超級模型轉型為超級應用的新起點,與其和學霸「卷」基座大模型,不如在應用程式側讓Grok率先卡位。

同時,對於一直尚未進入大眾視野的「大模型安全和透明度」問題,Grok的開源有望為大眾理解大模型複雜性和安全挑戰,提供新的視角。畢竟以目前的發展速度,大模型已經不是技術研發問題,而是一個全社會需要廣泛參與和討論的社會議題。


2.開源+閉源建構“一體兩翼”

是的,開源和閉源並非死對頭,老死不相往。

事實上,在大模型領域大量科技企業已經在探索開源+閉源的雙重策略。例如Google在發布大模型Gemini的時候,能力較為強大的Gemini Ultra是採用閉源策略,主要競爭對手是GPT-4、Claude3.0等,而Gemma2B和7B則採用了開源戰略,能力稍遜一籌,但在特定場景將有著更廣泛的應用領域。

Grok可以藉鏡開源與閉源混搭的思路,以「半開源」的方式一方面釋放能力給更多用戶和企業,另一方面藉助X平台的海量優質即時數據構建自身壁壘。從而在大模型的競爭中獲得一席之地。

當然並不是說開源大模型可以解決一切問題。事實上,開源大模型和閉源大模型還是有一定的差距:閉源大模型整體能力上還是高於開源模型。因為開源的大模型大多還沒有經過算力驗證,閉源是人才密度、資金密度、資源密度高度集中的方式,同時開源本身也避免不了中心化的風險。

對於企業來講,希望在基座大模型上實現反超的機會已經接近尾聲,但是透過選擇開源模型是更加務實的選擇,優化、訓練出實用的模型更是真本事。基於開源,是有機會做出優秀的大模型,核心是能夠擁有相對領先的認知,可以持續迭代模型能力。(騰訊科技)