ChatGPT 不是終點:阿里不出,誰與爭鋒?
hatGPT正在變成一場競賽,中國企業爭先恐後搶發“自研”的ChatGPT,爭當所謂的贏家。
但實際上,ChatGPT並非競賽的終點,而是起點,只是堪堪拉開了人工智能新時代的一角序幕。這場對於通用人工智能的角逐,實際上是一場無盡的長跑、而非百米衝刺。
假設真有一個這樣新的時代到來,哪些力量可以一爭高下?
此前盤點了追趕「 ChatGPT」的學術、創業與大廠三派力量:學術一派,清華大學一騎絕塵;創業一派,王小川、王慧文財大氣粗;大廠一派,則以百度、阿里為代表,它們在2020 年就已經開始佈局大模型研究。
其中,大廠派有技術、有資源、有產品,最為突出。如同微軟之於OpenAI,谷歌之於DeepMind,大廠與科研團隊合作成為群雄逐鹿的主要形式。由於ChatGPT 的成功背後是強科研投入與新產品優化的結合,大廠的資源(數據、算力)與產品平台,將扮演至關重要的角色。
有小型初創團隊就告訴雷峰網,大廠下場是意料之中,國內AI 小公司囿於客觀條件,如OpenAI 依靠微軟也是它們發展與生存的必要條件。
人工智能的市場很大,每個公司都可以在其中找到自己的位置,區分的關鍵點其實只在於:能否在未來的持續競爭中保持投入,並最終以最低的成本提供最好的體驗。
01 ChatGPT 的本質
關於ChatGPT 的討論中,有一個常見的問題是:OpenAI 的ChatGPT 這麼火,中國還有機會嗎?
就模型來看,對ChatGPT 來說,語言大模型是起碼的敲門磚。
作為ChatGPT 的技術基礎,GPT-3 在2020 年首次面世,以1750 億參數,在多項語言任務(包含文字理解、文本生成、智能問答、文本續寫、文本總結等等)中取得優異表現。從此,以GPT-3 為代表的語言大模型成為自然語言處理研究者(NLPer)的兵家必爭之地。在區分各家的ChatGPT 實力時,大模型的實力也就成為重要考量。
科技大廠中,目前在大模型上有佈局的企業包括阿里(通義)、百度(文心)、華為(盤古)等。
自研大模型的訓練難度並不低,涉及數據、算法與算力三個維度,傳言全球不超過200 人能從頭自研、訓練一個大模型:
•數據層面:對於深度學習,當樣本數量較少時,不正確的模型複雜度會導致過擬合和欠擬合。當樣本數量增多時,這種風險就會變小,因此,大模型對數據的數量與質量要求都極高。GPT-3有1750億參數,數據量達到45TB,表現出色。而對數據的採集、清洗與標註,需要人力,也需要資金。
•算法層面:除了海量數據,大模型訓練對AI 框架的深度優化和並行能力提出更高要求。這一塊對AI 人才的科研與工程能力要求最高,也是近日各大廠搶人才的源頭。
•算力層面:這一塊參差不齊,但公開消息表明,為了OpenAI 訓練GPT-3,微軟幫忙建設了一個搭載1 萬張顯卡,價值5 億美元的算力中心,模型在訓練上則消耗了355 個GPU年的算力,單獨一次的訓練成本則是1200 萬美金。
OpenAI 的GPT-4 還未揭曉,面對較為確定的不確定,企業的AI 底層建設也顯得尤為關鍵,算力就是其中之一。
算力層面,據雷峰網了解,早年各大廠雖然如火如荼地建設各自的AI Lab,但在計算資源的投入上卻參差不齊,還有的知名大廠連一萬張顯卡都沒有。更多詳情可添加VX:Fiona190913,持續關注大廠ChatGPT 的後續報導。
除了顯卡數量的不足,企業與企業拉開差距的地方還可能體現在:往期算力積累,以及運用有限算力資源訓練無限大模型的應對能力。這波ChatGPT 中,除了「利好英偉達」的聲量,國內眾多雲計算廠商與計算服務商的聲量微弱,本質在於:芯片需要與算法適配。
也就是說,有算力固然重要,但找到適合大模型訓練、能讓大模型訓練的芯片更為重要。尤其是前兩年大模型的風潮中,部分大廠由於成本顧慮、沒有入局,已經落後一大截,難以追趕。
模型與算力的高壓之下,團隊與團隊之間的天花板其實已昭然若揭。在這波ChatGPT浪潮中,阿里頗為低調,但因為在大模型和基礎設施上長期積累的優勢,阿里是一個絕不容忽視的重要玩家,一舉一動都牽動著整個AI行業的神經。
02 長跑者阿里
誠如上文所言,大模型的研究難度極大,門檻極高。
大多數中小企業在聲稱「自研大模型」時,往往是基於已開源的大模型與數據集,用監督學習算法進行微調,獲得一個新的模型後,然後基於這個模型來開發產品。雖然性價比高,但由於底層基礎差異化不大,上層建築在產品體驗上也難以區分開來。
這就造成了,若要從數據、算法與算力的底層部署開始深耕,大模型的開發注定是大廠與大廠之間的軍備競賽(人力、資本、數據)。而且,開始地越早,越有先發優勢。
圖注:大模型訓練需要解決的數據、算法與算力難題(源於心辰科技分享)
作為國內最早入局語言大模型的團隊之一,阿里在超越ChatGPT 上有領先其他團隊的優勢,也意味著其在數據、算法與算力上有先行試錯與解決問題的經驗,甚至在產品落地上有探索與實驗。
公開資料表明,阿里在大模型的研究上有深厚基礎:
•阿里早在2020 年1 月前便開始研發多模態大模型( MultiModality-to-MultiModality Multitask Mega-transformer,簡稱為「M6」),6 月研發出3 億參數的M6,有了一個好的開端;
•2021 年是阿里大模型的快速騰飛時期:3 月發布千億參數多模態大模型M6,4 月發布首個中文語言大模型PLUG(270億參數,號稱中文版「GPT-3」),5月發布萬億參數大模型M6,10 月又發布10 萬億參數大模型M6……
•2022 年,阿里「通義」大模型體係出世,囊括被谷歌、微軟、D eepMind 、M ega等國際頂尖團隊引用的通用統一模型M6-OFA 。當年雲棲大會期間推出國內首個AI 模型社區魔搭ModelScope,貢獻300 多個優質AI 模型,百億參數以上大模型超過1 0個……
對比國內其他互聯網科技大廠在大模型上的投入與產出,阿里的模型研究在前沿領域走得最遠,成果間隔產出時間最短,中文語言模型意識突出,多模態結合與通用架構的研發落實也最透明(尤其體現在魔搭社區上),很難不被人關注。
單看阿里的大模型成果數量,實際不足以窺見它的研發差異化。雷峰網試著從以下幾個角度分析:
首先,阿里大模型從M6、PLUG發展到通義,在訓練方法上已經歷經了一個明顯的轉變:從BERT 到自回歸。
國內的大模型開發,尤其是2021 年出現的許多大模型,基本是以BERT 為先鋒基礎,而阿里在2021 年開始從BERT 轉向自回歸,復刻GPT-3。鑑於大多數對GPT-3 的複刻均以失敗告終,阿里想必也是試錯多次才成功。
目前,在魔搭社區上,我們可以看到復刻成功的GPT-3 多個中文版本,參數從base直到175B。這些版本已經開源開放,最高的下載量達到72k,可見受到AI 算法開發者的廣泛肯定。
Google發布的BERT(Bidirectional Encoder Representation from Transformers)是首個預訓練大模型,BERT 沒有採用傳統的單向語言模型,或者將兩個單向語言模型進行淺層拼接的方法進行預訓練,而是採用MLM(masked language model)以生成深度的雙向語言表徵。
OpenAI 發布的GPT-3 後來者居上,GPT-3 延續了單向語言模型訓練方式,但是將模型尺寸擴充到1750億參數。GPT-3聚焦於更加通用的NLP模型,解決了目前BERT類模型的兩大缺點:對領域內有標籤的數據過分依賴,以及對於領域數據分佈的過分擬合。
BERT 與自回歸的區別在於,基於BERT 架構訓練的語言大模型更擅長「理解」,而基於自回歸(即GPT-3 的方法)更擅長「生成」。達摩院成為國內少有的佈局自回歸的大模型團隊。
此外,值得注意的是,谷歌的一項研究(論文「Emergent Abilities of Large Language Models」)表明,模型的規模從700 億參數到2800 億參數會有明顯質變,驗證了千億級參數是大模型從量變到質變的一個坎。而阿里是國內第一個做出千億參數大模型的團隊。
其次,從大模型背後最關鍵的算力技術來看,阿里在訓練大模型上的工程積累也有明顯提升,這主要體現在算力的部署上。
從2020 年GPT-3 的出現以來,大模型「大力出奇蹟」就成為AI 領域公認最有前景的方向之一,但大模型的訓練難度大,算力要求高。尤其當模型的參數超過萬億、十萬億(如阿里的M6),訓練過程中,已經不是單純靠堆算力就行。
實驗表明,工程師在算法上下功夫,是可以降低計算能耗的。例如,GPT-3 推出兩年後,2022 年Meta 參照它所研發的OPT 模型計算量就降低到了1/7。2022 年還有文章表明,2018 年需要幾千塊GPU 訓練的BERT 大模型,如今只需要單卡24 小時就能訓練完。類似的例子不勝枚舉。
提升訓練速度、降低訓練成本的途徑主要有兩種,一種是注重對訓練數據的優化,而非參數規模;另一種則是依賴算法與架構的創新,如ALBERT、「孟子」等工作。而這兩種方法,都對研發團隊的技術經驗有要求。
據公開資料,阿里在大模型訓練這塊有「兩把刷子」。
一方面,阿里從數據、算法上入手,降低計算能耗。2021 年5 月,阿里達摩院的團隊僅用480 卡GPU 就訓練出萬億參數多模態大模型M6,與英偉達、谷歌等公司實現萬億參數規模相比,能耗降低超八成。同年10 月,他們把M6 的參數規模擴大到10 萬億,訓練號稱只用了512 卡GPU。
另一方面,阿里在雲計算上加大投入,專門建設了一個智能算力系統——飛天智算平台。
飛天智算融合了通用計算、異構計算等多種計算形態,單集群算力峰值高達12 EFLOPS,對萬卡規模的AI 集群提供無擁塞、高性能的集群通訊能力,其中專設的機器學習平台PAI 部署了分佈式訓練框架EPL(訓練M6 的功臣)能大幅度能耗、提升速度。
一個公開的數據是,截至2023 年1 月底,ChatGPT 官網總訪問量超過6.16 億次,每一次與ChatGPT 的互動,算力雲服務成本在0.01 美元,如果用總投資在30.2 億元、算力500P 的數據中心支撐ChatGPT 的運行,這樣的數據中心至少需要7-8 個,基礎設施投入數以百億。
如果不是依托微軟的Azure 雲平台,ChatGPT 難以提供穩定服務。而阿里雲在雲計算產品這塊,是國內第一、全球第三,對於之後支持類似ChatGPT 的產品有天然優勢。
最後,阿里從大模型研究中體現的另一個特點,是「模型服務」與「中文生態建設」的意識。
阿里注重大模型的落地,解決行業問題,在2022 年9 月推出「通義」大模型系列,劃分三層:模型底座層、通用模型層和行業模型層。
模型底座上,他們以統一學習範式OFA(One-For-All)等關鍵技術為支撐,在業界首次實現模態表示、任務表示、模型結構的統一。M6-OFA 模型在不引入新增結構的情況下,可以同時處理圖像描述、視覺定位、文生圖等10餘項單模態和跨模態任務。
2021 年,OpenAI 推出文生圖產品DALL·E,其背後的關鍵技術是為文字與圖像兩種模態搭建橋樑的架構CLIP。阿里達摩院是國內最早注意到CLIP 對多模態影響的團隊,投入研發,在2022年推出了中文版CLIP(ChineseCLIP),對中文跨模態有重要作用。
這為提升模型泛化能力有很大影響。舉例而言,在文本、圖像、語音、視頻等模態結合的基礎上,任務表示和結構統一的設計可以讓上層模型不僅服務單一領域(如電商),還能服務其他領域(如金融、醫療、法律等等)。
在中文生態的建設上,阿里的另一個貢獻是建設魔搭社區,對標HuggingFace。魔搭社區成立不到半年,在促進中文AI 模型的開源上,以清晰的文檔格式、豐富的模型種類、優質的中文模型(包括大模型)吸引了許多開發者。
語言大模型的研究中,中文語料的短缺一直是行業難題。阿里帶頭貢獻自家模型和數據集,促進AI 應用開發,推廣AI 產品與用戶的交互,促進整個中文語言研究的語料積累,並開源佈公。
用一位AI 從業者的評價來形容,在國內追趕ChatGPT 的前赴後繼中,阿里武器齊全,數據、算法、算力三風具備,場景豐富,很難缺席和失敗。
03 假如AIGC 時代全面來臨
ChatGPT 雖然是一款智能對話機器人,但提供問題的能力,本質上還是文本生成,即AIGC 的一個分支。
無論是文本生成,還是圖像生成、文生圖、文生視頻,甚至早已出現的各類語音生成,其技術的成熟與產品的薄發,都代表了人工智能生成數字內容的無限想像力。AIGC,正在造出一個新的賽道,正在改變傳統產品的形態。
比如,語音音箱的市場將被激活和重塑。以天貓精靈為例,其家庭用戶超過4000萬,月交互次數超過80億,這還是在原來AI對話能力下的情況。通過大模型的底座訓練,再結合聲音這種富有情緒的信息媒介,天貓精靈有可能升級成真正的家庭伴侶,成為包含知識、情感、個性、記憶的全新家庭交互系統,展現超乎期待的能力。
更重要的是,我們正在一個轉折點上,AI不僅是產品,更有可能變成一種服務「 AI as Service」,這將成為科技大廠競爭的核心戰場。如何對外輸出AI能力,怎樣以最低的成本來提供最好的體驗,將成為大廠競爭的關鍵。
擅長「為他人做嫁衣」的阿里,已經通過算力基礎設施為客戶減少研發成本。
從之前情況來看,目前國內只有阿里一家具備支撐超萬億參數大模型研發的「雲+ AI」全棧技術實力。同時,因為過去支持超大模型研發的經驗,阿里練出了AI訓練提效11倍、推理提效6倍的獨家本領。這種「低碳訓練」技術,後續無疑也將為阿里雲的客戶提供具有高性價比的AI算力。
在提供產品體驗上,阿里的策略不是與生態鏈夥伴搶終端客戶,而是先做大生態。魔搭社區就是一個典型例子,讓沒有自研能力的AI 開發者或中小企業在魔搭平台上就能體驗五花八門的AI 模型,構建自己所需的AI能力。
換言之,在AI 深入行業的藍圖上,阿里的策略貌似也是為B 端客戶提供技術服務,通過B 端去觸動C 端,形成一張網。在魔搭社區,廣大開發者或者中小企業主可以下載使用免費開源的模型,可以對模型進行二次優化,無需布卡就能快速生成基於AI 模型的服務應用,使AI 真正成為一種觸手可及的生產要素。
截至現在,已經有瀾舟科技、深勢科技、智譜AI、啟智社區、嗶哩嗶哩、IDEA研究院等等十多家知名機構貢獻模型,魔搭社區模型量已超過600個,較2022 年11 月上線之初翻了一番。
除去用大模型服務自己的淘寶、天貓、天貓精靈、釘釘等等業務,阿里安心做一個AI 時代的模型基礎設施服務商,也不失為一個明智的選擇。
根據阿里2022 財年全年財報,過去一年,阿里在技術相關成本費用上的投入超過1200 億元,全球設立7 個研究中心,開源技術項目超3000 個、開源活躍度國內企業排名第一,其中相當比例的投入進入人工智能領域。
對於需要極高投入的AI 研發來說,可以看出,阿里也具備了在這場長跑中堅持到底的決心。在最近一片喧囂沸騰中,真正的主角可能還尚未亮劍,大戲才剛剛開始。(雷峰網)