商湯科技23日發表日日新5.0大模型,大部分核心測試集指標已對標或超過GPT-4 Turbo,受此消息影響,商湯24日股價大漲。
4月24日,商湯科技港股股價大漲後,公司公告臨時停牌,停牌前漲幅高達31.15%。
外界大多將商湯股價大漲歸因於日日新5.0大模型。商湯科技也在昨晚公告稱,除了日日新5.0的推出外,董事會不知悉有關價格及交易量變動的任何原因。
「日日新SenseNova5.0」大模型剛於4月23日發表。去年4月首次發布至今,商湯「日日新SenseNova」大模型系統已正式推出五個大版本迭代。商湯方面宣稱,日日新5.0採用混合專家架構(MoE),超10TB tokens訓練,涵蓋大量合成數據,推理時上下文窗口達200K左右。
商湯科技董事長兼CEO徐立表示,本次更新主要聚集增強了知識、數學、推理及代碼能力,全面對標GPT-4 Turbo,「主流客觀評測上達到或超越GPT-4 Turbo」。
據商湯介紹,日日新5.0在創意寫作能力、推理能力及總結能力方面提升顯著,在數理能力、程式碼能力、推理能力等方面也有提升。
一發布便引起如此大規模關注,日日新5.0的實力究竟如何?以日日新5.0的日日新·商量大模型5.0(以下簡稱「日日新」)又有怎樣的表現?《科創板日報》記者將其與文心一言4.0進行了一場能力對比評測。
日日新5.0和文心一言4.0都宣稱其在創意寫作上的能力。因此,《科創板日報》記者輸入題目:“應是綠意曉聲濃,__你會怎麼接下一句?”
文心一言在回答題目的同時,並且對詩句做出了解析。
日日新與文心一言回答模式並無明顯差距,同樣也是回答題目並且做出解析。
隨後,記者進一步詢問“還能列出更多答案嗎”,兩款大模型開始展現出差距。
文心一言在此環節列出了5項不同的回答,並且進行了一句話的總結。
日日新提供了6種不同的嘗試,每一個嘗試都提供了相應的主題,並且進行了較為詳細的講解,最後給出了一句話的總結。相較於文心一言,內容豐富度更高,講解更為細緻。
在邏輯推理方面,《科創板日報》記者向文心一言和日日新提問「一個鱷魚偷了一個父親的兒子,它保證如果這個父親能猜出它要做什麼,它就會將兒子還給父親。
兩款大模型都能辨識出這是經典的「鱷魚悖論」。相較之下,文心一言對問題進行拆解,並且的回答更為詳細,日日新的回答更加精簡,方便快速理解。
記者繼續向文心一言和日日新提問,“父親如何做才能解救兒子?”
文心一言正確理解問題,跳脫出原有邏輯,提供了解決策略,並提示了策略風險。
日日新較充分的回答了這個問題,先解釋了解救兒子要跳出原有框架的邏輯,並提供了5種不同的解決方向和相關方案。
運算能力方面,《科創板日報》記者向兩款大模型提問一道數學題,「1個蘋果=2個梨,3個梨=4個橘子,6個橘子=7個香蕉,56個香蕉等於多少個蘋果?
此題目為有關公倍數的數學推理題,難度並不大。但文心一言和日日新在解答過程和結果方面均給了錯誤的解答。
《科創板日報》記者降低題目難度,選取一道小學題,「一共15個圓球從上往下排列,其中只有一個紅色的,從上往下數,紅色圓球位於第六個,這時從最尾部拿走一個球,此時,請問從下往上數,紅色圓球在第幾個?
文心一言給出正確的答案解題思路。
對於這道小學數學題,日日新並沒有給出正確的結果和解答過程。在記者提示後,雖然思路有所改變,但仍沒有給出正確答案。
為測試日日新和文心一言的總結能力,《科創板日報》記者上傳了一份48頁的大模型行業報告,並向文心一言和日日新提出要求,挖掘報告內重要信息,提煉重點亮點,寫一篇1500字的總結。
文心一言沒有依照給定要求完成任務,其總結內容也是泛泛而談,不夠細緻。
日日新因未知原因並沒有進行總結,雖然模型已經顯示「已經理解」但並沒有產出任何內容。
為測試文心一言和日日新的程式碼能力,《科創板日報》記者向兩款大模型發出「寫一個可以運行的五子棋遊戲代碼」的指令。
記者將兩者產生的程式碼傳送給程式設計師朋友測試,均可成功運行。程式設計師朋友表示,日日新的程式碼整體好一點,參數設定清晰,介面更好,使用起來互動感更好。
經過多方面的測試,整體來看日日新與文心一言表現各有千秋。對於大模型的迭代情況,《科創板日報》記者將持續關注。 ( 財聯社AI daily )