GPT-4現場被端側小模型“暴打”,商湯日日新5.0:全面對標GPT-4 Turbo

夠刺激,GPT-4竟然當眾被「揍」了,連還手的機會都沒有:

是的,就是在一場《街頭霸王》遊戲現場PK中,發生了這樣的名場面。

而且二者還是不在一個「重量級」的那種:

  • 綠人:由GPT-4操縱
  • 紅人:由一個端側小模型操縱


那麼這位又小又彪悍的選手到底什麼來頭呢?

不賣關子,它正是由商湯科技最新發布的日日新端側大模型—— SenseChat Lite (商量輕量級版)。

光是在《街頭霸王》的表現,這個小模型就頗有一種「天下武功,唯快不破」的氣勢:

GPT-4還在想著怎麼決策,SenseChat Lite的拳頭就已經打上去了。

不僅如此,商湯CEO徐立還在現場加大難度,直接在手機上斷網開測

例如離線模式下產生員工請假一週的申請,效果是這樣的:

現場原速


(當然,徐立開玩笑表示「假太長了,不批噢~」)

也可以對長段文字做快速總結:

現場原速


而之所能夠做到如此,是因為SenseChat Lite在同等尺度性能上已經達到了SOTA水準。

更是用「以小博大」的姿勢在多項測試中擊敗了Llama2-7B,甚至是13B。


在速度方面,SenseChat Lite則是採用了端雲「連動」的MoE框架,在部分場景中端側推理佔70%,會讓推理成本變得更低。

具體而言,對比人眼20字/秒的閱讀速度來說,SenseChat Lite在中等性能手機上,可以達到18.3字/秒推理速度。

若是在高階旗艦手機,那麼推理速度可以直接飆升到78.3字/秒!

但除了文本生成之外,徐立同樣在現場也展示了商湯端側模型的多模態能力。

例如同樣是擴圖,商湯的端側大模型在慢半拍啟動的情況下,擴了3種不同圖片的速度比友商擴1張的速度還快:


示範的同學甚至直接現場拍照,把照片縮小了很多以後再來自由擴圖


嗯,不得不說,商湯是敢在現場動真格的。

然而,縱觀整場活動,端側大模型也僅是這次發表會的一隅。

在「大基座」方面,商湯更是把自家的日日新大模型來了個大版本的升級—— SenseNova 5.0。並且直接將其定位到了一個新高度:


全面對標GPT-4 Turbo!


那麼日日新大模型5.0版實力到底如何,我們這就來實測一波~

有請,「弱智吧」!

自從打大模型火爆以來,「弱智吧」就一直成了檢測大模型邏輯能力的標準之一,江湖戲稱為「弱智吧Benchmark」

(「弱智吧」源自百度貼吧,是個充滿荒謬、離奇、不合常理發言的中文社群。)

而且就在前不久,「弱智吧」還登上正經AI論文,成了最好的中文訓練數據,引發了一波不小的熱議。

那麼當文本對話的商量大模型5.0遇到了“弱智吧”,二者又會擦出怎樣的花火?

邏輯推理:“弱智吧”

請聽第一題:

我爸媽結婚為什麼沒有叫我?


商量的回答不同於其它AI,它會比較擬人的用「我」來做回答,而且從答案結果來看並沒有過多冗餘的內容,而是精準地做了回答和解釋,「他們結婚時您還未出生」。


請聽第二題:

網路吧能上網,為什麼弱智吧不能上弱智?


同樣的,商量直接精準點出“這是個玩笑性質的問題”,以及道出了“'弱智吧'並非一個實際的地方”。

不難看出,對於「弱智吧」這種魔幻、不按套路出牌的邏輯,商量5.0是已經能夠hold住了。

自然語言:高考《紅樓夢》

除了邏輯推理能力之外,在自然語言生成方面,我們可以直接用2022年高考作文題目,來比較看下GPT-4和商量大模型5.0。


從結果來看,GPT-4的文章還是一眼「AI模版」;而商量5.0這邊,則是頗有詩意,不僅句子工整對仗,還能引經據典。

嗯,AI的思路是被打開、發散了。


數學能力:化繁為簡

同樣是讓GPT-4和商量5.0同台競技,我們這次來測試它們的數學能力:

媽媽為圓圓沖了一杯咖啡,圓圓喝了半杯後,將它加滿水,然後她又喝了半杯後,再加滿水,最後全部喝完。問圓圓喝的咖啡多,還是水多?咖啡和水各喝了幾杯?


這題對於人類來說,其實是個比較簡單的問題,但是GPT-4卻對此做出了看似一本正經的縝密推導,結果還是錯誤的。

究其原因,是大模型背後的思維鏈在邏輯上的建構並不完整,若是遇到小眾的問題就極容易出錯;反觀商量5.0這邊,思路和結果就是正確的了。

再如下面這道「老鷹抓小雞」的問題,GPT-4或許不理解這種遊戲的規則,因為所算出來的答案依舊是錯誤:


不僅從實際體驗的效果可以感知一二,更為直接的評測榜單數據,也反應出了商量5.0的能力——

常規客觀評測已達到或超越GPT-4 Turbo。


那麼日日新5.0又是如何做到的呢?一言蔽之,左手數據,右手算力

首先,為了打破資料層面上的瓶頸,商湯採用了超過10T的tokens,使其具備了高品質資料的完整性,讓大模型對客觀知識和世界有了初級的認知。

此外,商湯也合成建構了高達數千億tokens的思維鏈數據,這也是這次在數據層面上發力的關鍵點,能夠啟動大模型強推理的能力。

其次,是在算力層上,商湯是將演算法設計和算力設施進行了聯合的最佳化:算力設施的拓樸極限用來定義下一階段的演算法,而演算法上的新進展又要重新知道算力設施的建設。

這便是商湯AI大裝置對演算法和算力聯合迭代的核心能力所在了。

整體而言,日日新5.0的更新亮點可以總結為:

  • 採用MoE架構
  • 基於超過10TB tokens訓練,擁有大量合成數據
  • 推理上下文視窗達到200K
  • 知識、推理、數學和程式碼等能力全面對標GPT-4 Turbo


除此之外,在多模態領域,日日新5.0在多項核心指標中也取得了較為領先的成績:


老規矩,我們繼續來看多模態的生成效果。


更會看圖了

例如「投餵」給商量5.0一張超長的圖片(646*130000),只需讓它識別,便可以得到所有內容的概述:


再如隨意丟給商量5.0一張有意思的貓咪圖片,它就能根據派對帽、蛋糕和「生日快樂」等細節內容推斷貓咪在慶生。


更實用一些的,例如上傳一張複雜截圖,商量5.0就能精準提取並總結出關鍵的信息,而這一點GPT-4在識別過程中卻出現了失誤:


秒畫5.0:和三大頂流PK

在文生圖方面,日日新的秒畫5.0直接和Midjourney、Stable Diffuison和DALL·E 3進行了同台競技。

例如在風格上,秒畫產生的圖片可能會更接近prompt中提到的「國家地理」:


人物形像上,可以展示更複雜的皮膚紋理:


甚至文字也可以精準無誤地嵌入圖像當中:


還有個擬人大模型

除此之外,商湯在此次發表中也推出了一個比較特殊的大模型──擬人大模型


從體驗來看,它已經可以模仿影視角色、真實名人、原神世界等各種破次元的人物,並且與你展開高情商對話。


從功能來看,商量擬人大模型支援角色創建與自訂、知識庫建構、長對話記憶等,甚至是可以三人以上群聊的那種哦~

也正是基於如此多模態能力,商湯大模型家族的另一大成員——小浣熊也迎來了能力上的升級。

辦公室、程式設計變得更easy

商湯的小浣熊目前細分為辦公小浣熊程式設計小浣熊兩大類,顧名思義,分別是作用於辦公場景和程式場景。


有了辦公小浣熊,現在處理表格、文件甚至程式碼文件,都成了「一丟+一問」的事了。

以採購場景為例,我們可以先上傳不同來源的供應商名單信息,然後跟辦公小浣熊說:

單位、單價、備註。因為不同sheet 中的表頭資訊並不一致,可將類似的表頭內容合併。在對話框中展示表格結果,並產生本地下載鏈接,謝謝。


只要稍等片刻,我們就可以得到處理完後的結果了。

而且在左側欄中,辦公室小浣熊也給出了分析過程的Python程式碼,主打一個「有跡可循」。

我們還可以同時上傳庫存資訊和採購需求等多個文件:


然後繼續提出要求,辦公小浣熊依舊是能夠快速完成任務。

而即使是數據形式不規範,它也能自行發現並解決:


當然,資料計算也是不在話下,依舊是提要求的事情。

除此之外,辦公小浣熊也可以根據資料檔案做視覺化的工作,直接展示下有難度的熱力圖:


總結來看,辦公小浣熊可以對多個、不同類型(如Excel、csv、json 等)做處理,在中文理解、數理計算和資料視覺化等維度有非常強的能力。並且它透過程式碼解釋器的形式,增強了大模型生成內容的準確性與可控性。

另外,記者會上辦公小浣熊也當場展示了結合複雜資料庫進行分析的能力。

上週,中國首位F1車手週冠宇完成了他在F1中國大獎賽的比賽。商湯在發表會現場直接給辦公小浣熊「投餵」了一份數據量龐大的資料庫文件,讓小浣熊當場分析週冠宇和F1賽事的相關情況。

如統計週冠宇的參賽資訊、F1總共有多少車手、有哪些車手獲得過總冠軍並按照獲獎次數從高到低排列,這些計算涉及量更大、邏輯更複雜的數據表格和圈數、領獎數等更多維度的細節訊息,最終也都給了完全正確的答案。

在程式場景中,程式碼小浣熊也是可以讓程式設計師們的效率直接Pro Max了。

例如只需在VS Code中安裝擴充功能的外掛程式:


然後程式設計的各個環節就變成了輸入一句自然語言的事情了。

例如把需求文檔丟給程式碼小浣熊,然後就說句:

幫我寫一個公有雲上微信掃碼支付的詳細PRD文件。 PRD格式與內容請遵循「產品需求文件PRD範本」的要求,產生的內容清晰、完整、詳細。

然後程式碼小浣熊就「唰唰唰」地開始做需求分析的工作了:


程式碼小浣熊也可以為你做架構設計


寫程式碼也可以透過自然語言來提需求,或透過滑鼠一鍵註解、測試產生程式碼,程式碼翻譯、重構或修正等等:


最後的軟體測試環節也可以交給程式碼小浣熊執行喔~


總而言之,有了程式碼小浣熊,它就能幫你處理平日裡一些重複性、繁瑣性高的程式設計任務。

而且商湯這次還不只是發布這麼個動作,更是將代碼小浣熊「打包」推出了輕量版一體機

一體機就能支援100人團隊開發,且成本僅為每人每天4.5元


以上便是商湯此次發表的主要內容了。

那麼最後,我們還要總結性地聊一個話題。

商湯的大模型路數

縱觀整場發表會,給人最直觀的感受首先就是夠全面

不論是端側模型,亦或「大底座」日日新5.0,是屬於雲、邊、端全棧的發布或升級;能力上更是涵蓋到了語言、知識、推理、數學、代碼,以及多模態等AIGC近乎所有主流的「標籤」。

其次就是夠抗打

以日日新5.0的綜合實力為例,目前放眼整個國內大模型玩家,能夠喊出全面對標GPT-4的可以說是為數不多;並且商湯是敢在現場直接拿多項能力做實測,也是敢第一時間開放體驗,對自身實力的信心可見一斑。

最後就是夠速度

商湯的速度不限於像端側大模型的運作效果之快,更宏觀地來看,是自身在迭代優化進程上的速度。若是我們把時間線拉長,這種speed就會格外明顯:

  • 日日新1.0→2.0:3個月
  • 日日新2.0→4.0:6個月
  • 日日新4.0→5.0:3個月

如此平均下來,幾乎是一個季度便有一次大版本的升級,其整體能力也會隨之大幅提高。

那麼接下來的一個問題就是,商湯為什麼可以做到如此?

首先從大方向來看,便是商湯一直強調的「大模型+大裝置」的打法。

大模型是指日日新大模型體系,可提供自然語言處理、圖片產生、自動化資料標註、自訂模型訓練等多種大模型及能力。

大裝置則是指商湯打造的高效率、低成本、規模化的新一代AI基礎設施,以AI大模型開發、生成、應用為核心;總算力規模高達12000 petaFLOPS ,已有超4.5萬塊GPU 。

二者的異曲同工之妙,便是早已佈局,它們並非是AIGC大熱潮之下的產物,而是可以追溯到數年前、具有前瞻性的兩項工作。

其次更深入大模型層面,商湯基於自身在實際的測試與實踐過程中,對產業所共識的基本法則尺度定律(Scaling Law)有著新的理解與解讀。

尺度定律通常是指隨著資料量、參數量和訓練時間長度的增加,大模型所表現出來的表現會更好,是一種大力出奇蹟的感覺。

這個定律還包含兩個隱藏的假設:

  • 可預測性:可以跨越5-7個數量級尺度依然保持對性能的準確預測
  • 保序性:在小尺度上驗證了性能優勢,在更大尺度上仍然保持

因此,尺度定律是可以引導在有限的研發資源中,找到最優的模型架構和資料配方,讓大模型能有效率地去學習。

而也正是基於商湯如此的觀察與實踐,誕生了「小且能打」的端側模型。


除此之外,商湯對於大模型的能力還有獨到的三層架構(KRE)的理解。


徐立對此做了深入地解讀。

首先是在知識,是指世界知識的全面灌注。

目前大模型等新質生產力工具幾乎都是基於此來解決問題,也就是根據前人已經解決過的問題的方案,來回答你的問題。

這可以認為是大模型能力的基本功,但更為高階的知識,應當是基於這樣能力下推理得到的新知識,這也就是這個架構的第二層——推理,即理性思維的質變提升。

這一層的能力是可以決定大模型是否夠聰明、是否可以舉一反三的關鍵和核心。

再在此之上,便是執行,是指世界內容的互動變革,也就是如何跟真實世界產生互動(就目前而言,具身智能在這一層是潛力股般的存在)。

三者雖相互獨立,但層與層之間也是緊密關聯,徐立打了一個較為形象的比喻:

知識到推理是像大腦,推理到執行則像小腦。

在商湯看來,這三層的架構是大模型應具備的能力,而這也正是啟發商湯構建高品質數據的關鍵;不僅如此,也是基於KRE這套邏輯,才有了此次發布中的眾多產品。

那麼最後一個問題是,基於KRE、基於「大模型+大裝置」這樣的路線,最新的日日新在產業中「上崗」到了什麼程度?

正所謂“實踐是檢驗真理的唯一標準”,來自客戶的使用回饋或許才是最真實的答案。

而在此,商湯也交出了一份較為高分的作業——在現場,華為、WPS、小米、閱文、海通證券,從辦公到文娛,從金融到終端,紛紛分享了使用商湯日日新大模型體系後,為自身業務帶來的降本增效。

總而言之,有技術、有算力、有方法論、有場景,商湯日日新在AIGC時代接下來的發展,是值得期待了。

— 完畢 — (量子位元)