GPT-5接近上線,中美AI差距懸殊?這個中國方案「彎道超車」搶先狙擊



【導讀】
GPT-5「如來」,網路上的小道消息已經傳得漫天飛。然而,無論是GPT-4.5或GPT-5,實際上未必適用於所有場景。

GPT-5真來了?

昨天開始,這張圖傳得滿天飛。

Copilot Pro的付費會員,竟然可以用GPT-5了?


雖然點進詳情頁之後發現大機率是「手抖」打錯了,而且目前已經被修正,但看得出來,大家都在期待OpenAI趕快發布新模型。


同時,網友最近也發現,一款號稱是GPT-4.5 Turbo的模型,竟然同時出現在多個搜尋引擎的結果裡了!

也不怪大家這樣滿城風雨,Altman本人都下場暗示了:OpenAI在前方還有「重要任務」,自己已經「迫不及待想展示我們的下一步計畫了」。


3月9日那天,Altman回覆Jimmy Apples說:「耐心些,Jimmy,等待是值得的」

GPT系列的快速迭代,讓我們看到了AGI的「曙光」。

最近,OpenAI CEO Sam Altman、英偉達CEO黃仁勳都認為,AGI將在五年內實現。而這兩天轟動全網的全自動AI軟體工程師Devin,也被認為是AGI智能體的雛型。


這其中就有不少唱衰的聲音──國內外的差距,果然越來越大了嗎?

其實不然——GPT-5的快,只是在通用模型上,然而AI究竟如何真正產品化、成為生產力,現在誰都沒有一個確切的答案。

不過,許多業內人士有這樣一個共識:在這方面中國很可能彎道超車,實現全球領先。

為何?

首先,中國擁有全球最豐富的商業場景,全球最全的製造業。

另外,中國還有最大規模的創新隊伍,擁有最多的AI人才。


前不久發布的全球AI人才報告顯示,全世界頂尖AI人才中,幾乎每兩人就有一人是中國培養的人才

坐擁這樣的人才寶庫,同時還手握著大把豐富場景,我們很可能會在大模型的行業應用落地上後發製人,趕超國外。

彎道超車的秘訣,就在下面這篇文章裡。


企業,真需要「大」模型嗎?

大家都知道,ChatGPT和Sora,都可謂「力大磚飛」的產物。

不過,這種大力出奇蹟的暴力美學,恐怕在企業側卻不一定適用。

對於企業來講,大模型之「大」可能並不是唯一的訴求,甚至可能恰恰跟客戶所需南轅北轍。

通用大模型的過人之處,在於跨領域的通用,以及追求通用的過程中湧現的能力,如很強的推理能力、邏輯能力。

ChatGPT是什麼新鮮事嗎?顯然,在圖靈獎巨頭Yann LeCun看來,它在技術上並不新。


那究竟是什麼,推動了GPT現象級的成功?

答案很簡單,就是龐大的高品質語料──它們才是模型邁向更深層智慧的關鍵。

如果說有什麼是全世界沒有一個人做到、只有OpenAI想到且做到的,那就是他們系統性地將多源、複雜、資訊密度差異巨大的知識「原料」,轉為了讓模型成長的教科書。

人工和自動化結合的策略,讓「原料」透過「資料飛輪」源源不絕地轉了起來,最終造就了GPT這個性能巨獸。

而企業所需的產業大模型則需要垂直且可靠。

例如你可以讓通用模型幫你寫詩,幫你畫畫,這些都屬於通識。

相較之下,煤礦企業往往需要遠端採煤運煤,這就需要煤礦大模型看得懂採、掘、機、運、通、洗、選七大作業面的場景。

而氣像大模型,則需要掌握歷史天氣預報數據,以便更好得預報天氣。



從力大磚飛,到現實落地

不過,對於大型政企客戶而言,大模型的真正落地,卻仍然困難重重。

1. 資料安全:

企業要想模型用得好,私有資料不能少。

但是企業私有資料離開本地資料中心,上載外網給大模型廠商訓練,對政企來說有安全風險,也不符合監理政策要求。

2. 開發迭代:

既然公有雲上的大模型不能用,那麼企業能不自己蓋一個呢?

但是,大模型是目前為止人類最複雜的IT系統工程,如果企業想從0到1,靠自己訓練出大模型,即便有充分的高品質資料集,但所需耗費的資金、算力、人才依然是一筆龐大且長期的投入,顯然是非常不經濟划算的選擇;同時,直接使用開源模型,也存在著許多問題。

因此,最好的方法就是找到可靠的商業大模型和成熟工程化能力的供應商,提供一站式的建設、部署、訓練等解決方案,自身聚焦到業務創新和場景結合。而且,這個供應商最好還能有成熟的工程化服務。

3. 算力問題:

大模型落地,遠不止大模型本身,還包括一系列配套的領域,尤其是算力。

算力的缺口未來會越來越大,在這個背景下,用好有限算力的重要性就不言而喻了。

因此,一個能同時滿足本地部署、簡單易用、性能優異的行業大模型,就顯得非常必要了。


本地or上雲,二者不可兼得?

我們都知道,大型政企客戶的生產場景複雜多樣,傳統AI方案開發的模型複製到其他生產單位後,通常都會出現識別精度斷崖式下降,無法推廣複製的問題。

因此,把企業的用戶數據、產業數據,甚至圖譜或規則,放到大模型裡繼續訓練,就能解決好產業問題,還能克服許多幻覺。

尤其在政企場景下,存在海量生產碎片化的情況,而工業生產推理因時延要求和頻寬限制,需要在生產邊緣部署管理。

例如在煤礦,一個大型的煤礦集團通常需要將大模型能力部署到分佈在各地的大量礦井,部署點位通常可以達到數千個。

如何有效率地部署、更新、持續收集異常樣本成為企業規模化、密集使用AI的難題。

而且工業生產普遍缺少負樣本數量,原始模型精度往往有限,需要在使用過程中,邊用邊學,把新發現的異常樣本及時上傳到中心幫助大模型持續迭代,並及時把最新的能力快速的發放到海量的邊緣,從而實現問題的精準監測,越用越聰明。


那要怎麼解決這些問題呢?

基於這個需求,一種全新的方案被提了出來──基於本地部署具備邊雲協同、軟硬協同的混合雲,來建構大模型。

具體來說就是,依託公有雲上豐沛的算力資源,打造預訓練基礎大模型,利用混合雲架構將大模型同步到企業本地,用企業私有資料對基礎大模型來微調,然後推送到邊緣做推理。

如此一來,既能滿足業務創新訴求,也能緩解企業對資料安全和隱私的擔憂,同時還能避免大量資金和人力的投入,實現大模型能力的快速建設。

而這無疑是政企實現智能化的更優選擇。同時,也將成為未來產業大模型的重要部署形態。


開源大模型,還是商用大模型?

對於上面的第二個問題,如果想要從0設計開發大模型,所需的不僅僅是上億元的巨額投資,往往還得準備一個至少由十數名AI博士組成的專業人才團隊,最後還不一定能達到預期效果。

顯然,對於企業的應用來說,這種「費力不討好」的重複造輪子,是完全沒有必要的。

那麼,我們是否可以藉助現成的開源大模型,來建構專屬大模型呢?

對不起,很難…


首先,企業選出來的大模型,從參數規模到準確率,再到泛化性等層面,最終能否滿足業務場景的需求,實際上是一個未知數。

其次,大模型的開發與部署是一個系統性工程,而開源大模型往往缺乏完善的工具鏈支撐。如果企業想要對模型進行二次開發或精調,面臨的將會是一連串非常複雜的挑戰。

第三,在整個過程中,企業不僅需要自主選擇AI算力、框架,還有模型的部署模式等等。如果缺乏必要的軟硬結合的調優能力,將難以充分發揮算力潛能。


如此看來,相較於看似「0成本」的開源大模型,商用大模型顯然更適合企業們的體質。

如同先前所討論的,數據的質量,決定了我們能不能微調出可以真正解決實際問題的專屬大模型。

而這裡就牽涉到的,便是模型供應商的資料工程能力了。

在企業中,資料樣本散落在生產的各個環節裡,收集起來非常困難。

在這裡,供應商必須具備從取得、清洗、標註到管理的全鏈路專業服務能力,才能保障企業客戶的高品質樣本資料供給。

並且,還需要了解產業Know-how,讓模型緊密結合產業經驗知識。

因此,成熟的、工程化能力強的商用大模型,將會是企業應用的首選。


建設大模型,更要建設算力

曾經的LLM大戰,Meta遲遲沒有動作。後來被外媒曝出個中原因,竟是因為GPU成本太高,於是一直在用CPU跑AI。

而決定重點科技樹的Meta,即將在今年底部署總共約60萬顆的GPU來運作和訓練AI系統。但後果就是,他們必須費老大勁重組資料中心,來適應這些新的GPU。


如今,算力緊缺已是不爭的事實,如何有效率地運用有限算力,已成為大模型角逐的關鍵。

因此,選擇合適的基礎算力架構,對於大模型的商用來說至關重要。


機器學習先驅Rich Sutton經典文章《苦澀的教訓》前一陣再次爆火:AI如果想要長期獲得提升,利用強大的算力才是王道

在這裡,最核心的底層技術點,主要有兩個:算力靠GPU,協同靠網路。

那麼問題來了,對於算力:

- 由於歷史批次採購、硬體設備持續演進等原因,如何在超異質叢集環境下實現大模型訓練的加速。(其中通常包括不同型號GPU、不同型號伺服器、不同型號NPU等)。

- 在政企場景下,如何在眾多街道、廠區邊緣場景部署安裝的少量推理算力資源上,最大化接入更多的推理(視頻)數據進行分析。

對於網路:

- 當分散式AI模型訓練節點規模不斷增加時,參數同步所帶來的通訊開銷比重也會隨之大幅成長。

- 大模型訓練平台網路的有效頻寬、時延抖動、可靠性是提升訓練效率的關鍵因素。然而,目前的智算中心網路卻面臨著鏈路負載不均衡、擁塞控制機制、叢集網路效能受限等非常嚴峻的挑戰。

為了解決這些問題,幾個可行的方向是:

- 優化技術架構和算子

- 減少計算圖的大小和複雜度

- 降低計算時延

- 減少模型的儲存空間

- 降低模型的部署成本

- 有效率、可靠地實現深度學習應用

在此基礎之上,透過更強的網路和調度演算法,我們就可以讓同樣的GPU算力,發揮200%的性價比。

還有很重要的一點,就是讓AI模型無感覺地相容於不同的架構、不同廠商的算力,不用擔心硬體適配能力。

這是因為,由於現在並沒有業界通用的方案,不同廠商的協同很容易出現問題。

因此,在算力的解決上,需要軟硬體協同的整體方案,做到軟硬配合,才能讓算力發揮更高的價值。

要知道,基礎架構的調優過程,是一個由上而下的過程——

由訓練軟體提出特定的效能指標與可靠性要求,再在IaaS基礎設施層針對各種調度最佳化場景,進行對應的設計最佳化,軟體+硬體的共同配合調優,才能達到最佳。

在這種情況下,擁有全端產品的廠家,才能擁有更大的優勢。


問題何解?

如前文所說,既能兼顧本地部署,又能實現深度用雲,還能確保資料安全與模型效能的方案,就是「混合雲+大模型」了。

根據《深度用雲展望2025》報告預測,中國人工智慧市場空間到2025年將超過4,000億元。其中,75%的企業將會使用AI大模型,而基於混合雲的AI大模型佔比將達到38%。


在這個賽道中,華為雲Stack稱得上是業界佼佼者。

從2019年開始,華為雲就下場大模型研發。盤古大模型從一開始,就是為產業而生,賦能產業創新。

而華為混合雲也是專為大型政企客戶,量身訂製的解決方案,經過了多年的市場和政企用戶的打磨。

可以說,從基礎設施、到算力、演算法、開發框架等全端的AI能力,華為為整個產業打造了一款智慧的AI雲底座。

為政企而生的大模型和混合雲

2023年7月,華為雲端發布了以產業為導向的系列大模型-盤古大模型3.0,包括「5+N+X」三層架構:

其中,L0層包括盤古視覺大模型、自然語言大模型、預測大模型、多模態大模型、科學計算大模型。參數量涵蓋100億、380億、710億和1000億,能配合不同場景、不同時延、不同反應速度的產業多樣化需求。

L1層是針對煤炭、政務、金融、電力、油氣、交通、製造業等產業提供的產業大模型。

L2層是客戶/第三方營運公司基於L1產業大模型並針對業務開發的場景化模型,做到了「開箱即用」。


盤古大模型最大的特點是,採用了完全的分層解耦設計,能快速適配、快速滿足產業的多變需求。

客戶不僅可以為大模型載入獨立的資料集,還可以單獨升級基礎模型,以及單獨升級能力集。

基於L0和L1基礎模型,客戶憑藉大模型產業開發套件,可對自有資料二次訓練,便可客製化專屬自己的產業大模型。

此外,2023年11月,華為雲Stack面向政企客戶重磅推出了業界首個大模型混合雲,可以幫助一站式打造完整的AI生產鏈。

具體講,它提供了堅實的算力底座,透過完整的AI生產鏈,以及雲端服務,可以實現一卡多用,千卡大規模訓練30+天不中斷。

華為雲端Stack將軟硬協同、雲端協同、安全合規等優勢全部呈現,能夠解決傳統方案的供應風險與資料安全問題。

華為雲端Stack目前,已經在10+產業已經落地大模型混合雲,提供了從規劃、建造、開發、培訓、營運端到端專業服務。


例如,承擔了市級公用資料授權營運職責的上海資料集團,就選擇了華為雲端Stack。

雙方共同建構了資料授權營運平台,完成了全市3000+公共資料匯聚。並發布了普惠金融3.0,服務33家金融機構,為產業標準、確權定價、流通交易、安全保障提供了最佳實踐案例。


山東能源也基於華為混合雲平台,建構了一個礦山大模型,讓礦山的AI開發模式從「作坊式」向「工業化」升級,實現了煤炭產業「模」力蛻變。

它採取的正是公有雲測試、混合雲部署的路線。這不僅更好地平衡「安全」與「懂行」的矛盾,而且還滿足了「資料不出企」的安全底線。

如今,已經有40多個AI應用場景是基於盤古礦山大模型開發出來。建構的AI配煤系統,可以為年消耗量數百上千萬噸煤的煉焦廠每年節省成百萬到上千萬。


而急需從「製造」轉變為「智造」的長安汽車,就依托依托華為雲Stack打造了集團+工廠的雲端端協同架構,把渝北新工廠重構為了一座智慧工廠。

現在,工廠的12,000多台設備全部連接到了數位底座上,實現了「衝、焊、塗、總、電池、一體壓鑄」六大整車工藝、七大車間生產過程數據的即時融合分析和全息質量追踪。

借助工業軟體aPaaS,將人、機、料、法、環、全局資料進行了統一的建模。


在政務服務領域,各地政府透過政務大數據平台建設,已經實現了政務一網通辦。

基於大模型的政務服務助手,已經學習了12345熱線、政策法規、辦事流程等數十萬政務數據。

如今民眾辦事不再需要跑多次,就要在手機上動手指就能辦了。

看來,在華為雲Stack的加持下,AI應用落地、產品化的難題,很可能要在中國率先解決了。(新智元)

參考資料:

https://www.huaweicloud.com/product/huaweicloudstack.html