ChatGPT 不是終點：阿里不出，誰與爭鋒？

2023/03/02

•

hatGPT正在變成一場競賽，中國企業爭先恐後搶發“自研”的ChatGPT，爭當所謂的贏家。

但實際上，ChatGPT並非競賽的終點，而是起點，只是堪堪拉開了人工智能新時代的一角序幕。這場對於通用人工智能的角逐，實際上是一場無盡的長跑、而非百米衝刺。

假設真有一個這樣新的時代到來，哪些力量可以一爭高下？

此前盤點了追趕「 ChatGPT」的學術、創業與大廠三派力量：學術一派，清華大學一騎絕塵；創業一派，王小川、王慧文財大氣粗；大廠一派，則以百度、阿里為代表，它們在2020 年就已經開始佈局大模型研究。

其中，大廠派有技術、有資源、有產品，最為突出。如同微軟之於OpenAI，谷歌之於DeepMind，大廠與科研團隊合作成為群雄逐鹿的主要形式。由於ChatGPT 的成功背後是強科研投入與新產品優化的結合，大廠的資源（數據、算力）與產品平台，將扮演至關重要的角色。

有小型初創團隊就告訴雷峰網，大廠下場是意料之中，國內AI 小公司囿於客觀條件，如OpenAI 依靠微軟也是它們發展與生存的必要條件。

人工智能的市場很大，每個公司都可以在其中找到自己的位置，區分的關鍵點其實只在於：能否在未來的持續競爭中保持投入，並最終以最低的成本提供最好的體驗。

01 ChatGPT 的本質

關於ChatGPT 的討論中，有一個常見的問題是：OpenAI 的ChatGPT 這麼火，中國還有機會嗎？

就模型來看，對ChatGPT 來說，語言大模型是起碼的敲門磚。

作為ChatGPT 的技術基礎，GPT-3 在2020 年首次面世，以1750 億參數，在多項語言任務（包含文字理解、文本生成、智能問答、文本續寫、文本總結等等）中取得優異表現。從此，以GPT-3 為代表的語言大模型成為自然語言處理研究者（NLPer）的兵家必爭之地。在區分各家的ChatGPT 實力時，大模型的實力也就成為重要考量。

科技大廠中，目前在大模型上有佈局的企業包括阿里（通義）、百度（文心）、華為（盤古）等。

自研大模型的訓練難度並不低，涉及數據、算法與算力三個維度，傳言全球不超過200 人能從頭自研、訓練一個大模型：

•數據層面：對於深度學習，當樣本數量較少時，不正確的模型複雜度會導致過擬合和欠擬合。當樣本數量增多時，這種風險就會變小，因此，大模型對數據的數量與質量要求都極高。GPT-3有1750億參數，數據量達到45TB，表現出色。而對數據的採集、清洗與標註，需要人力，也需要資金。

•算法層面：除了海量數據，大模型訓練對AI 框架的深度優化和並行能力提出更高要求。這一塊對AI 人才的科研與工程能力要求最高，也是近日各大廠搶人才的源頭。

•算力層面：這一塊參差不齊，但公開消息表明，為了OpenAI 訓練GPT-3，微軟幫忙建設了一個搭載1 萬張顯卡，價值5 億美元的算力中心，模型在訓練上則消耗了355 個GPU年的算力，單獨一次的訓練成本則是1200 萬美金。

OpenAI 的GPT-4 還未揭曉，面對較為確定的不確定，企業的AI 底層建設也顯得尤為關鍵，算力就是其中之一。

算力層面，據雷峰網了解，早年各大廠雖然如火如荼地建設各自的AI Lab，但在計算資源的投入上卻參差不齊，還有的知名大廠連一萬張顯卡都沒有。更多詳情可添加VX：Fiona190913，持續關注大廠ChatGPT 的後續報導。

除了顯卡數量的不足，企業與企業拉開差距的地方還可能體現在：往期算力積累，以及運用有限算力資源訓練無限大模型的應對能力。這波ChatGPT 中，除了「利好英偉達」的聲量，國內眾多雲計算廠商與計算服務商的聲量微弱，本質在於：芯片需要與算法適配。

也就是說，有算力固然重要，但找到適合大模型訓練、能讓大模型訓練的芯片更為重要。尤其是前兩年大模型的風潮中，部分大廠由於成本顧慮、沒有入局，已經落後一大截，難以追趕。

模型與算力的高壓之下，團隊與團隊之間的天花板其實已昭然若揭。在這波ChatGPT浪潮中，阿里頗為低調，但因為在大模型和基礎設施上長期積累的優勢，阿里是一個絕不容忽視的重要玩家，一舉一動都牽動著整個AI行業的神經。

02 長跑者阿里

誠如上文所言，大模型的研究難度極大，門檻極高。

大多數中小企業在聲稱「自研大模型」時，往往是基於已開源的大模型與數據集，用監督學習算法進行微調，獲得一個新的模型後，然後基於這個模型來開發產品。雖然性價比高，但由於底層基礎差異化不大，上層建築在產品體驗上也難以區分開來。

這就造成了，若要從數據、算法與算力的底層部署開始深耕，大模型的開發注定是大廠與大廠之間的軍備競賽（人力、資本、數據）。而且，開始地越早，越有先發優勢。

圖注：大模型訓練需要解決的數據、算法與算力難題（源於心辰科技分享）

作為國內最早入局語言大模型的團隊之一，阿里在超越ChatGPT 上有領先其他團隊的優勢，也意味著其在數據、算法與算力上有先行試錯與解決問題的經驗，甚至在產品落地上有探索與實驗。

公開資料表明，阿里在大模型的研究上有深厚基礎：

•阿里早在2020 年1 月前便開始研發多模態大模型（ MultiModality-to-MultiModality Multitask Mega-transformer，簡稱為「M6」），6 月研發出3 億參數的M6，有了一個好的開端；

•2021 年是阿里大模型的快速騰飛時期：3 月發布千億參數多模態大模型M6，4 月發布首個中文語言大模型PLUG（270億參數，號稱中文版「GPT-3」），5月發布萬億參數大模型M6，10 月又發布10 萬億參數大模型M6……

•2022 年，阿里「通義」大模型體係出世，囊括被谷歌、微軟、D eepMind 、M ega等國際頂尖團隊引用的通用統一模型M6-OFA 。當年雲棲大會期間推出國內首個AI 模型社區魔搭ModelScope，貢獻300 多個優質AI 模型，百億參數以上大模型超過1 0個……

對比國內其他互聯網科技大廠在大模型上的投入與產出，阿里的模型研究在前沿領域走得最遠，成果間隔產出時間最短，中文語言模型意識突出，多模態結合與通用架構的研發落實也最透明（尤其體現在魔搭社區上），很難不被人關注。

單看阿里的大模型成果數量，實際不足以窺見它的研發差異化。雷峰網試著從以下幾個角度分析：

首先，阿里大模型從M6、PLUG發展到通義，在訓練方法上已經歷經了一個明顯的轉變：從BERT 到自回歸。

國內的大模型開發，尤其是2021 年出現的許多大模型，基本是以BERT 為先鋒基礎，而阿里在2021 年開始從BERT 轉向自回歸，復刻GPT-3。鑑於大多數對GPT-3 的複刻均以失敗告終，阿里想必也是試錯多次才成功。

目前，在魔搭社區上，我們可以看到復刻成功的GPT-3 多個中文版本，參數從base直到175B。這些版本已經開源開放，最高的下載量達到72k，可見受到AI 算法開發者的廣泛肯定。

Google發布的BERT（Bidirectional Encoder Representation from Transformers）是首個預訓練大模型，BERT 沒有採用傳統的單向語言模型，或者將兩個單向語言模型進行淺層拼接的方法進行預訓練，而是採用MLM（masked language model）以生成深度的雙向語言表徵。

OpenAI 發布的GPT-3 後來者居上，GPT-3 延續了單向語言模型訓練方式，但是將模型尺寸擴充到1750億參數。GPT-3聚焦於更加通用的NLP模型，解決了目前BERT類模型的兩大缺點：對領域內有標籤的數據過分依賴，以及對於領域數據分佈的過分擬合。

BERT 與自回歸的區別在於，基於BERT 架構訓練的語言大模型更擅長「理解」，而基於自回歸（即GPT-3 的方法）更擅長「生成」。達摩院成為國內少有的佈局自回歸的大模型團隊。

此外，值得注意的是，谷歌的一項研究（論文「Emergent Abilities of Large Language Models」）表明，模型的規模從700 億參數到2800 億參數會有明顯質變，驗證了千億級參數是大模型從量變到質變的一個坎。而阿里是國內第一個做出千億參數大模型的團隊。

其次，從大模型背後最關鍵的算力技術來看，阿里在訓練大模型上的工程積累也有明顯提升，這主要體現在算力的部署上。

從2020 年GPT-3 的出現以來，大模型「大力出奇蹟」就成為AI 領域公認最有前景的方向之一，但大模型的訓練難度大，算力要求高。尤其當模型的參數超過萬億、十萬億（如阿里的M6），訓練過程中，已經不是單純靠堆算力就行。

實驗表明，工程師在算法上下功夫，是可以降低計算能耗的。例如，GPT-3 推出兩年後，2022 年Meta 參照它所研發的OPT 模型計算量就降低到了1/7。2022 年還有文章表明，2018 年需要幾千塊GPU 訓練的BERT 大模型，如今只需要單卡24 小時就能訓練完。類似的例子不勝枚舉。

提升訓練速度、降低訓練成本的途徑主要有兩種，一種是注重對訓練數據的優化，而非參數規模；另一種則是依賴算法與架構的創新，如ALBERT、「孟子」等工作。而這兩種方法，都對研發團隊的技術經驗有要求。

據公開資料，阿里在大模型訓練這塊有「兩把刷子」。

一方面，阿里從數據、算法上入手，降低計算能耗。2021 年5 月，阿里達摩院的團隊僅用480 卡GPU 就訓練出萬億參數多模態大模型M6，與英偉達、谷歌等公司實現萬億參數規模相比，能耗降低超八成。同年10 月，他們把M6 的參數規模擴大到10 萬億，訓練號稱只用了512 卡GPU。

另一方面，阿里在雲計算上加大投入，專門建設了一個智能算力系統——飛天智算平台。

飛天智算融合了通用計算、異構計算等多種計算形態，單集群算力峰值高達12 EFLOPS，對萬卡規模的AI 集群提供無擁塞、高性能的集群通訊能力，其中專設的機器學習平台PAI 部署了分佈式訓練框架EPL（訓練M6 的功臣）能大幅度能耗、提升速度。

一個公開的數據是，截至2023 年1 月底，ChatGPT 官網總訪問量超過6.16 億次，每一次與ChatGPT 的互動，算力雲服務成本在0.01 美元，如果用總投資在30.2 億元、算力500P 的數據中心支撐ChatGPT 的運行，這樣的數據中心至少需要7-8 個，基礎設施投入數以百億。

如果不是依托微軟的Azure 雲平台，ChatGPT 難以提供穩定服務。而阿里雲在雲計算產品這塊，是國內第一、全球第三，對於之後支持類似ChatGPT 的產品有天然優勢。

最後，阿里從大模型研究中體現的另一個特點，是「模型服務」與「中文生態建設」的意識。

阿里注重大模型的落地，解決行業問題，在2022 年9 月推出「通義」大模型系列，劃分三層：模型底座層、通用模型層和行業模型層。

模型底座上，他們以統一學習範式OFA（One-For-All）等關鍵技術為支撐，在業界首次實現模態表示、任務表示、模型結構的統一。M6-OFA 模型在不引入新增結構的情況下，可以同時處理圖像描述、視覺定位、文生圖等10餘項單模態和跨模態任務。

2021 年，OpenAI 推出文生圖產品DALL·E，其背後的關鍵技術是為文字與圖像兩種模態搭建橋樑的架構CLIP。阿里達摩院是國內最早注意到CLIP 對多模態影響的團隊，投入研發，在2022年推出了中文版CLIP（ChineseCLIP），對中文跨模態有重要作用。

這為提升模型泛化能力有很大影響。舉例而言，在文本、圖像、語音、視頻等模態結合的基礎上，任務表示和結構統一的設計可以讓上層模型不僅服務單一領域（如電商），還能服務其他領域（如金融、醫療、法律等等）。

在中文生態的建設上，阿里的另一個貢獻是建設魔搭社區，對標HuggingFace。魔搭社區成立不到半年，在促進中文AI 模型的開源上，以清晰的文檔格式、豐富的模型種類、優質的中文模型（包括大模型）吸引了許多開發者。

語言大模型的研究中，中文語料的短缺一直是行業難題。阿里帶頭貢獻自家模型和數據集，促進AI 應用開發，推廣AI 產品與用戶的交互，促進整個中文語言研究的語料積累，並開源佈公。

用一位AI 從業者的評價來形容，在國內追趕ChatGPT 的前赴後繼中，阿里武器齊全，數據、算法、算力三風具備，場景豐富，很難缺席和失敗。

03 假如AIGC 時代全面來臨

ChatGPT 雖然是一款智能對話機器人，但提供問題的能力，本質上還是文本生成，即AIGC 的一個分支。

無論是文本生成，還是圖像生成、文生圖、文生視頻，甚至早已出現的各類語音生成，其技術的成熟與產品的薄發，都代表了人工智能生成數字內容的無限想像力。AIGC，正在造出一個新的賽道，正在改變傳統產品的形態。

比如，語音音箱的市場將被激活和重塑。以天貓精靈為例，其家庭用戶超過4000萬，月交互次數超過80億，這還是在原來AI對話能力下的情況。通過大模型的底座訓練，再結合聲音這種富有情緒的信息媒介，天貓精靈有可能升級成真正的家庭伴侶，成為包含知識、情感、個性、記憶的全新家庭交互系統，展現超乎期待的能力。

更重要的是，我們正在一個轉折點上，AI不僅是產品，更有可能變成一種服務「 AI as Service」，這將成為科技大廠競爭的核心戰場。如何對外輸出AI能力，怎樣以最低的成本來提供最好的體驗，將成為大廠競爭的關鍵。

擅長「為他人做嫁衣」的阿里，已經通過算力基礎設施為客戶減少研發成本。

從之前情況來看，目前國內只有阿里一家具備支撐超萬億參數大模型研發的「雲+ AI」全棧技術實力。同時，因為過去支持超大模型研發的經驗，阿里練出了AI訓練提效11倍、推理提效6倍的獨家本領。這種「低碳訓練」技術，後續無疑也將為阿里雲的客戶提供具有高性價比的AI算力。

在提供產品體驗上，阿里的策略不是與生態鏈夥伴搶終端客戶，而是先做大生態。魔搭社區就是一個典型例子，讓沒有自研能力的AI 開發者或中小企業在魔搭平台上就能體驗五花八門的AI 模型，構建自己所需的AI能力。

換言之，在AI 深入行業的藍圖上，阿里的策略貌似也是為B 端客戶提供技術服務，通過B 端去觸動C 端，形成一張網。在魔搭社區，廣大開發者或者中小企業主可以下載使用免費開源的模型，可以對模型進行二次優化，無需布卡就能快速生成基於AI 模型的服務應用，使AI 真正成為一種觸手可及的生產要素。

截至現在，已經有瀾舟科技、深勢科技、智譜AI、啟智社區、嗶哩嗶哩、IDEA研究院等等十多家知名機構貢獻模型，魔搭社區模型量已超過600個，較2022 年11 月上線之初翻了一番。

除去用大模型服務自己的淘寶、天貓、天貓精靈、釘釘等等業務，阿里安心做一個AI 時代的模型基礎設施服務商，也不失為一個明智的選擇。

根據阿里2022 財年全年財報，過去一年，阿里在技術相關成本費用上的投入超過1200 億元，全球設立7 個研究中心，開源技術項目超3000 個、開源活躍度國內企業排名第一，其中相當比例的投入進入人工智能領域。

對於需要極高投入的AI 研發來說，可以看出，阿里也具備了在這場長跑中堅持到底的決心。在最近一片喧囂沸騰中，真正的主角可能還尚未亮劍，大戲才剛剛開始。（雷峰網）