Meta的最強開源大模型Llama 3,被雲廠商冷落了,企業也不想買單。
近日,據外媒The Information報導,Meta的開源大模型Llama 3一直難以在全球最大雲廠商——亞馬遜的AWS上獲得關注。
AWS為其企業客戶竭盡所能的提供各種大模型服務,目前,Anthropic的閉源大模型Claude是該平台最受歡迎的模型。令人意外的是,雖然在技術圈評價頗高,但企業客戶對Meta的Llama似乎並不認可。
在微軟Azure雲平台上,Llama同樣被冷落。The Information援引一名微軟員工的消息稱,微軟的銷售人員只會向具備資料專業知識的客戶推銷 Llama,比如內部有工程師和資料科學家的公司。
Meta發佈的最新最強模型Llama 3.1 發佈已月餘,市場反應格外冷淡。Llama 3.1發佈1個月,Hugging Face下載量累計360萬次,遠低於Llama 3發佈首月的580萬次下載量。
為開發Llama系列模型,Meta投入了重金,單是買GPU花費就耗資幾十億美元——顯然,研發成本都需要見到財務回報。不過,如果使用量不佳,再強的開源大模型價值也會打折。
為什麼性能最強,且以開源著稱的Llama,企業卻不買單?
真相是,雖然Llama是免費的,但很多開發者還是願意花錢使用閉源模型,因為羊毛出在豬身上,使用Llama的成本,有時候比使用OpenAI的GPT這類閉源模型的成本更高。
免費的才是最貴的。今年4月,在Llama 3發佈70B和400B模型後,一位做智能體方向創業的美國AI創業者Arsenii在採訪中大吐槽,看似免費的Llama 3,用了後發現根本使不起。
Arsenii發現,自己的公司運行開源大模型的效率遠低於使用閉源大模型。蹚坑之後,他總結出了2點,一是開源大模型不像做好了精調和商業化適配的閉源模型那樣拿來就能用,企業還要做最佳化、做精調,對技術團隊的要求更高。二是開源模型下載下來才能用,參數龐大的百億、千億量級模型對本地的IT設施要求極高,而中小公司普遍缺乏與之相匹配的IT設施建設。
在 Llama 3.1推出後,不少業界人士也提出了同樣的問題,雖然 Llama 3.1 比前代產品更智能,但中小型企業部署它的成本過於昂貴。
半導體研究公司 SemiAnalysis 首席分析師 Dylan Patel 算了一筆帳,Llama 3.1 405B 的運行成本極高,需要兩台輝達的H100伺服器才能運行。而租兩台 H100 伺服器一年需要30 萬美元以上,對小公司來說,這是一筆很難承擔得起的支出。
國內,百度創始人李彥宏曾談到過開源、閉源誰更符合企業服務市場需求的問題。在上個月的WAIC上,他提出的一個觀點更是引起不少共鳴——開源模型在學術研究、教學領域有一定價值,能夠讓學術界更熟悉大模型的工作機制、形成理論。但在大多數的規模化應用場景中,開源模型並不合適,尤其是在激烈的商業化競爭中,只有閉源模型,才能讓企業的業務效率更高、成本更低。
除了成本,企業用大模型另一個最關注的問題就是性能了。那麼,在性能上,開源和閉源模型誰更能打?
近期,業界最有影響力之一的大模型評測基準-斯坦福大學的MMLU評測(大規模多工語言理解)發佈的最新榜單顯示,排名前十的模型中,僅有Llama 3.1為開源,其餘9款上榜模型均為閉源。
可見,當前閉源模型性能整體領先於開源。
事實上,Llama 3這樣強大開源模型的出現雖然激發了開源社區的熱情,但開源模型創新的速度卻令人擔憂。
一個原因就是現在所謂的模型開源並非真開源。不久前Nature 雜誌編輯 Elizabeth Gibney刊文犀利指出了當前AI開源界存在的“開源洗白現象”,許多聲稱開放原始碼的 AI 模型,實際上在資料和訓練方法上並不透明,例如號稱堅定開放原始碼的Meta,實際上只開放了Llama的權重,真正的程式碼依然是『黑箱』。
這種與以“開放原始碼”為核心的開源理念相悖的所謂開源,很難做到眾人拾柴火焰高,取得像Linux般的成功,這將嚴重阻礙開源創新。除了在參數上追趕閉源大模型,開源模型還要不斷在應用中錘煉性能,但開源背後高昂的隱形成本無疑令企業止步。
長此以往,開源模型與閉源模型之間的差距只會越拉越大,開源模型會越來越落後。 (硬AI)