文心一言「起舞」,觸發雲戰場「變天」

“雲市場的一場新型戰爭要開始了。”

3月16日,百度“文心一言”正式發布,基於百度智能云同步開放預約測試。

近段時間,與文心一言一樣火爆出圈的還有GPT-4,他們的出現意味著新一輪的人工智能變革和挑戰正式打響,雲廠商將展開了一場與通用智能相關的產業競賽。

百度公司首席執行官李彥宏認為,AI對各行各業的顛覆性改變才剛剛開始。大模型時代將產生三大產業機會,分別是新型雲計算公司、可以進行行業模型精調的公司、基於大模型底座進行應用開發的公司。


01 雲計算格局迎新變化,雲廠商難解大模型之困

雲計算走過了發展的黃金十年。

在過去的十年裡,中國雲計算產業年均增速曾超30%,是全球增速最快的市場之一。

所謂市場有多繁榮,競爭就有多激烈。在前十年雲廠商大都以賣算力、賣存儲為主,“集成和總包”是雲廠商為了實現規模化增長普遍採用的方式。

但從具體實踐來看,這種打法不僅沒有把雲計算變成招財貓,反倒成了吞金獸。從一定意義上說,總包集成是一種畸形且不健康的商業路徑。本質上就是什麼都做,並且大部分項目有著大量的定制化需求,需要投入大量的人力物力;另外一些項目沒有含金量,完全是為了刷流水而做。

長此以往,雲廠商需要面對入不敷出,業務很難發展下去的挑戰。

以阿里雲為例,在之前的12年裡一直處於虧損狀態,直到2021年才扭轉了這一局面,但利潤率只有2%。市佔率方面,相關數據統計發現,近兩年阿里雲、騰訊雲、華為雲等頭部雲廠商的增長持續放緩,就連最早入局雲計算的阿里雲的市佔率也呈現連年走低趨勢。

也正是在這時,雲廠商認識到了不能再扮演總包集成商的角色,要從規模性增長向健康且有質量的增長轉變,於是阿里雲、騰訊雲等一眾雲廠商開始調整策略,試圖從集成商的角色向被集成角色傾斜。

但與之而來的是,互聯網流量見頂,數字化轉型進程加快,雲廠商的服務對像開始從互聯網企業向政企、製造業甚至是下沉市場轉變。

這時企業對雲廠商的需求也不再是算力、存儲等基礎雲服務,而更加聚焦AI服務層面。有機構預測到,2020年中國83.4%的企業重視人工智能,ChatGPT等生成式AI產品火出圈後,企業對人工智能的需求再次攀升。

提供人工智能,首先想到的就是大模型。經過反复的實踐得出:大模型才是人工智能的發展趨勢和未來,其能實現AI從“手工作坊”到“工廠模式”的轉變。

在傳統模型中,根據不同場景,需要定制不同的算法模型,無法實現通用化可複制化。研發階段,為了應對各式各樣的場景需求,AI 研發人員需要設計專網專用的個性定制化神經網絡模型;落地階段,經“一個場景一個模型”式的作坊式模型開發得到的模型在許多垂直行業場景任務不通用,無論對於企業還是雲廠商來說,都是一筆不小的支出。

而大模型備自監督學習的能力,能夠有效降低AI 開發和訓練成本,同時可以適配各種場景。此外基於用戶的使用反饋,還可實現自主迭代升級。之於企業最大的意義就是,降低AI使用門檻,讓企業能夠像還是用水煤電一樣,方便快捷的使用各種AI能力。

李彥宏認為,大模型時代將產生三大產業機會:第一類是新型雲計算公司,其主流商業模式從IaaS變為MaaS。文心一言將根本性地改變雲計算行業的遊戲規則。之前企業選擇雲廠商更多看算力、存儲等基礎雲服務。未來,更多會看框架好不好、模型好不好,以及模型、框架、芯片、應用這四層之間的協同。

第二類是進行行業模型精調的公司,這是通用大模型和企業之間的中間層,他們具有行業Know-how,調用通用大模型能力,為行業客戶提供解決方案。目前,百度文心大模型已經在電力、金融、媒體等領域,發布了10多個行業大模型。

第三類是基於大模型底座進行應用開發的公司,即應用服務提供商。李彥宏認為,在文本生成、圖像生成、音頻生成、視頻生成、數字人、3D等場景可能出現未來的新巨頭。

因此,早在幾年前中國頭部廠商以及就開始了相關大模型的研究與實踐,甚至有些頭部雲廠商還推出了自家的大模型。諸如去年9月阿里達摩院推出“通義”大模型,此外,為推進中文大模型的開源生態建設推出了AI 模型開源社區「魔搭」;京東推出了言犀大模型;華為推出了盤古大模型等等。

但從目前來看,中國國內大模型仍處於早期,還沒到能真正落地應用的商業化階段。

算力規模大且性能要求高、數據規模大,且數據質量參差不齊、訓練難度大且成本高,堆砌了一道國內企業難以闖進的圍牆。

“算力是企業通往大模型的攔路虎,也正是目前大模型不能真正落地的巨大挑戰,”幾乎已經成了行業共識。

大模型由於參數規模大、數據體量大通常需要強大的算力支持,而算力的核心是人工智能芯片。美國市場研究機構TrendForce在3月1日的報告中測算稱,處理1800億個參數的GPT-3.5大模型,需要的GPU芯片數量高達2萬枚,未來GPT大模型商業化所需的GPU 芯片數量甚至超過3萬枚。

“缺少芯片會導致算力不足,算力不足意味著無法處理龐大的模型和數據量。”有專業的雲計算技術人員曾計算過:1萬枚英偉達A100芯片是做好AI大模型的算力門檻。

反觀目前中國的芯片使用現狀,國際環境變化之下自美國實施貿易限制政策以來,中國企業只能使用英偉達A100的最佳替代品A800芯片,但是A800芯片在中國市場嚴重缺貨,而國內少有企業具備自研高性能芯片的能力。

除算力算法外,模型訓練也是一項既耗時又耗錢的工作。訓練週期方面,訓練一個如ChatGPT的模型通常需要幾天甚至數週的時間;

訓練成本方面,據國盛證券報告《ChatGPT 需要多少算力》 估算,GPT-3 訓練一次的成本約為140 萬美元,對於一些更大的LLM(大型語言模型),訓練成本介於200 萬美元至1200 萬美元之間。

以ChatGPT 在1 月的獨立訪客平均數1300 萬計算,其對應芯片需求為3 萬多片英偉達A100 GPU,初始投入成本約為8 億美元,每日電費在5萬美元左右。這只是芯片的成本,另外大模型所需的數據採集、人工標註、模型訓練等軟性成本是難以計算的。

算力算法、運營成本等仍是國內大多數企業無法跨越的關卡。


02 構建AI大模型,需集齊四張「能力卡」

中國企業很難做出中國版AI大模型似乎已經成了既定事實,但百度文心一言大模型卻刷新了行業認知。

從一定程度上說,ChatGPT以及百度文心一言大模型的出現,是厚積薄發的自然結果。

清華大學人工智能國際治理研究院副院長、人工智能治理研究中心主任梁正也曾對外表示過:放眼國內,最有可能做出中國ChatGPT 的可能是有綜合優勢和過去積累和擁有芯片、框架、模型、應用四層技術棧的百度。

百度集團執行副總裁、百度智能雲事業群總裁沈抖表示,之前企業選擇雲廠商更多是看算力、存儲等基礎雲服務,以後企業對雲的需求會更加聚焦智能服務,會更多看框架好不好、模型好不好,以及芯片-框架-模型-應用這四層架構之間的協同是否高效。

具體來看,算力層面,百度自研芯片“崑崙芯”在AI計算、存儲、加速、容器方面進行系統優化,提供高性價比的算力,承載海量數據的處理、超大模型的訓練和推理,目前已經在多個場景實際部署幾萬片。

另外,百度還擁有多個雲計算可用區,諸如陽泉、徐水、定興雲計算中心,其中陽泉智能雲數據中心一期就可承載16萬台服務器,預計整個百度陽泉雲計算中心可承載24萬台服務器;

百度目前已在山西陽泉、江蘇鹽城等地建設智算中心。其中,百度陽泉智算中心是亞洲最大單體智算中心,建設規模為4 EFLOPS(每秒400億億次浮點運算)AI算力,可滿足各行業超大規模AI計算需求。崑崙芯科技戰略負責人宋春曉表示:“人工智能芯片是算力的核心,崑崙芯2代已在百度文心大模型的應用中廣泛落地,並為各行各業的智能化升級提供AI算力支持。”

據了解,百度智算中心持續創新計算架構,支持智算時代下企業不同業務場景的計算任務,提升企業的業務效率和創新能力。目前,百度智算中心已支持了文心預訓練大模型、生物計算、自動駕駛等前沿AI應用。同時,基於自研創新技術可使PUE低至1.08,實現了高效節能的運行,從而降低客戶的電費和運維成本。

深度學習框架層面,作為人工智能的底層操作系統——飛槳深度學習平台向下適配各種硬件,支持文心大模型的開發、高性能訓練、模型壓縮、服務部署的各種能力,截止2022年底已凝聚535萬開發者,基於飛槳創建了67萬個模型,服務20萬家企事業單位,貫通了AI全產業鏈,串聯起全棧化的產業生態體系。

文心大模型層面,則已經形成知識增強的ERNIE 3.0系列、跨模態系列等底座模型,在原有能源、金融、航天、傳媒等行業的基礎上,進一步升級到了11個行業大模型,將行業大模型延伸到了製造業、城市管理、汽車等關鍵領域。目前,百度已經實現了“0到1”做標杆的階段,進入到了“從1-到3”的複制推廣階段。

這都為百度打造文心一言奠定堅實的技術基礎,雷峰網了解到,自文心一言對外官宣後,已經有包括互聯網、媒體、金融、保險、汽車、企業軟件等行業的400 多家頭部企業宣布加入百度“文心一言”生態,且這個生態還在持續擴大。

為支持文心一言超大規模計算需求,進一步實現文心一言的產業化落地,去年年底開始,百度智能雲已經通過三大動作全面升級雲服務能力:2022年12月,發布國內首個全棧自研的AI基礎設施“AI大底座”;2023年2月,升級AI研發運營一體化(MLOps)能力;2023年3月,百度陽泉智算中心完成升級。

值得一體的是,去年百度智能雲還推出了“雲智一體3.0”架構,並發布首個全棧自研的AI基礎設施“AI大底座”。

其中,“雲智一體3.0”架構,形成了一套“芯片-框架-大模型-行業應用”的智能化閉環路徑,每一環都有關鍵自研技術,每一環之間都能形成信息反饋,通過不斷獲得反饋,實現端到端優化。

百度AI大底座則在AI IaaS層,整合AI芯片“崑崙芯”,在AI計算、存儲、加速、容器方面進行系統優化,提供高性價比的算力,承載海量數據的處理、超大模型的訓練和推理;在AI PaaS層,整合飛槳深度學習框架及百度文心大模型,打通百度的樣本中心、模型中心、AI開發平台、AI服務運行平台,實現從數據存儲到模型訓練、生產、部署、測試的全鏈路、批量化生產,面向企業模型開發的全生命週期提供完整解決方案。

而面對高昂的訓練成本問題,百度毫不吝嗇在AI領域的研發投入力度。相關數據顯示,2022年研發費用達214.16億元,佔百度核心收入比例達22.4%,百度第四季度的研發支出為57億元,截止現在研發費用佔百度核心收入比例已經連續9個季度在20%以上。


03 寫在最後

雲計算發展從黃金期過渡到瓶頸期,以賣資源搶占市場的時代已經結束,與之而來的是通用智能化時代。在這個時代,誰先基於大模型搶先開發重要的應用服務在這個時代,誰能推出通用化可複制化的智能化解決方案,誰就能在下一個雲計算發展的十年中佔據有利位置。

雷峰網了解到,從3月16號開始,文心一言正式開放預約,至3月17日下午2點,排隊申請百度智能雲文心一言企業版API調用服務測試的企業用戶突破8萬家。感興趣的讀者可直接搜索“百度智能雲”進入官網,申請加入文心一言的雲服務測試。(雷峰網)


輸人不輸陣, 別人有的, 我們也有(哈)