從WAIC談起
周末回了趟上海,WAIC逛了逛然後參加了幾場會, 第一感觸是今年都在卷機器人, 第二個感覺是大模型的垂直場景都在盯著金融和醫療, 第三個感覺是伴隨著多模態, CV大佬們重新站上舞台的中央, 例如階躍和商湯等. 但是大模型落地場景還是有很多困難. 緊接著是一些ScalingLaw的天花板在那裡? 本文分為幾段:
1. 大模型落地相關的探討
2. 演算法的演進
3. 訓練基礎設施
4. 推理基礎設施1. 大模型落地相關的探討
啟明創投有一個很有意思的觀點, 微處理器將計算的邊際成本降至零, 網際網路將資訊分發的成本降為零, 人工智慧將創作的邊際成本降為零. 但是對於最後一條, 我想可能還是需要分為兩個階段: Step-1: 類似文字/圖片/影片的生成類創作Step-2:一些多步驟決策的任務,後一類可能需要走出一條完全不同的路徑. 創作出來的東西能不能用? 是否能夠真的達到kill-time或save-time的目的呢?
1.1 機器人
今年機器人的熱潮主要就是兩方面的技術, 一個是LLM帶來的指令跟隨能力, 另一個就是RL演算法和伺服機構的配合越來越成熟, 成本基本上達到可接受的範圍, 但是真正的變成生產力落地賺到錢還是存在一些難題的, B端的一些產線改造可能還好, 但C端人形機器人大機率短期內只是一個噱頭, 主要原因是當前的大模型還缺乏較強的可信的多步驟決策能力, 因此整個商業邏輯上是沒有閉環的.
1.2 ScalingLaw的天花板
基本上國內外對ScalingLaw的認知還是對於大模型的參數還可以提升兩個數量級,大概到100T左右. 但是另一方面訓練語料大概在15T左右已經不夠了, 那麼合成資料則是一個非常重要的路徑. 另一方面針對100T的模型訓練, 訓練基礎設施的規模和功耗問題也是一個需要解決的問題.當然另一個問題也逐漸顯現出來, 推理系統的ROI如何考慮?
1.3 垂直領域模型
WAIC展廳裡邀請的不少國企都有相應的大模型垂域模型的場景, 某種意義上來說工業/製造這些場景更多的是基於社會責任視角, 從商業上講這些大模型確實可以提高整個社會的製造業效率, 但是從企業經營的角度ROI可能並不好. 這一點上能看到一些國有企業在覆蓋這些場景也是挺不錯的.
另一個就是對於商業化的公司而言,垂域模型基本上都在盯著金融和醫療, 醫療這一塊我完全不懂就不談了. 說說金融吧, 畢竟還是考過FRM周圍也有一些小夥伴都在做金融風控和量化投資這一塊的.
事實上當前的大模型結構上對於金融時間序列分析的能力和多步決策的能力, 以及生成的內容還是完全無法滿足金融業的需求的, 某種意義上來說, 外行的這些模型演算法工程師覺得自己訓練了一個很聰明的大模型,其實在金融領域就是類似於回答弱智吧的問題, 並且這個行業只要大模型輸出結果錯一次,基本上就完全會丟掉信任.
1.4 多模態生成
生樹的視訊Demo現在已經可以很好的配上聲音了, 階躍的1T-MoE多模態的感知能力也非常不錯, 商湯也有蠻不錯的表現. 當然這些1T的模型落地對推理系統的影響是什麼, 基礎建設演進上還有很多路要走.
2. 演算法的演進
2.1 多模態使CV重回舞台中央
想起很多年前, RNN/LSTM的效率問題使得NLP的同學們游離在深度學習的邊緣, 最終ChatGPT把他們送到了風口, 讓一眾CV的公司突然啞火了. 而伴隨著多模態的演進,我們看到階躍和商湯最近都帶來非常不錯的產品. 接下來一些視訊合成資料的訓練或許還能再把一些做CG和物理模擬的人捲進來.
2.2 灰盒模型
漆遠教授帶著「百億參數的可信光語大模型」亮相, 其實這是一個非常值得關注的領域, 那就是灰盒模型, 也是我過去兩三年一直在研究的一個領域
另一方面階躍的CEO姜總也在談到對於多模態的理解上, 以及後面的System2的任務規劃/抽象概念歸納等
從模型結構上來看,Decoder-Only的模型是一個完全的黑盒模型, 當然從資訊壓縮的角度來看,一個1T左右的模型很有可能就可以很好的隱含物理世界的資訊了. 但是我們需要在旁邊掛一個白盒模型來建構大量的邏輯能力.
簡而言之, 現在的Decoder-Only更像是一個直覺判斷的過程, 因此我個人過去十多年對圖神經網路在金融領域的探索, 以及最近兩年結合大模型的一些探索, 觀點和漆遠教授是相同的, 例如通過範疇論和一些其它新的數學工具的引入來建構白盒系統
3. 訓練基礎設施
針對訓練場景, 夏Core昨天寫了一篇《站在AI Scale-Up域的一個岔路口》[1] ,本質上是一個ScaleUP分層的邏輯.
我個人的觀點一直是推進乙太網路ScaleUP, 並且我也不認同那些非對稱的拓樸所帶來的調度和程式設計的複雜系統。當然相關的工作也在推進中, 具體的方案就不便展開闡述了. 對於下一代基礎設施另一個關鍵的因素是分離式架構的引入, 異構算力的引入.這一點對Decoder-Only+白盒模型非常關鍵. 例如GPU還是維持原來的Transformer架構,而在旁路出來Sparse-Encoder和一些GNN/決策樹模型在CPU實例上進行互聯. 這一點推理系統也會用到.
4. 推理基礎設施
針對推理昨天有一篇文章補進來... 知乎上看到方佳瑞博士的一篇文章《LLM分離式推理可能帶來的軟硬體變革的迷思》[2]
恰逢這周工作上有一些和HugeCTR相關的事情, 那麼就從軟硬體一體化的視角來闡述一下整個架構的演進, 特別是在分離式推理架構上. 以下觀點僅代表個人,和作者任職機構無關.
4.1. 推理系統和訓練系統的區別
最簡單的一句話是: 推理系統沒有所謂的DP並行. 背後隱藏的一個含義是兩個系統的Workload是完全不一樣的.
4.1.1 訓練系統
到達速率和服務速率為確定性分佈
在訓練系統中資料以Batch的方式到達, 然後計算時間也相對確定, 一方面是因為backward過程的同步需求, 另一方面是訓練語料本身有長短的分佈但也做了Padding, 當然可以通過一些技術對Padding進行最佳化提升計算效率.
4.1.2 推理系統
到達速率假設為泊松分佈, 服務速率受實現方式和服務策略影響
推薦系統請求到達的分佈假設是一個泊松分佈, 另一方面input token和output token的分佈則會帶來服務時間有一個特定的分佈, 簡單的來看按泊松分佈算, 或者有長尾的情況,例如Pareto分佈.而Prefill-Decoder的方式也會影響這個分佈, 因此在調度系統上該如何考慮是一個更值得深思的問題. 這些問題也是最近一段時間工作的一個方向. (資訊平權)