商湯「日日新5.0」實力如何？實測來了！

2024/04/25

•

商湯科技23日發表日日新5.0大模型，大部分核心測試集指標已對標或超過GPT-4 Turbo，受此消息影響，商湯24日股價大漲。

4月24日，商湯科技港股股價大漲後，公司公告臨時停牌，停牌前漲幅高達31.15%。

外界大多將商湯股價大漲歸因於日日新5.0大模型。商湯科技也在昨晚公告稱，除了日日新5.0的推出外，董事會不知悉有關價格及交易量變動的任何原因。

「日日新SenseNova5.0」大模型剛於4月23日發表。去年4月首次發布至今，商湯「日日新SenseNova」大模型系統已正式推出五個大版本迭代。商湯方面宣稱，日日新5.0採用混合專家架構(MoE)，超10TB tokens訓練，涵蓋大量合成數據，推理時上下文窗口達200K左右。

商湯科技董事長兼CEO徐立表示，本次更新主要聚集增強了知識、數學、推理及代碼能力，全面對標GPT-4 Turbo，「主流客觀評測上達到或超越GPT-4 Turbo」。

據商湯介紹，日日新5.0在創意寫作能力、推理能力及總結能力方面提升顯著，在數理能力、程式碼能力、推理能力等方面也有提升。

一發布便引起如此大規模關注，日日新5.0的實力究竟如何？以日日新5.0的日日新·商量大模型5.0（以下簡稱「日日新」）又有怎樣的表現？《科創板日報》記者將其與文心一言4.0進行了一場能力對比評測。

日日新5.0和文心一言4.0都宣稱其在創意寫作上的能力。因此，《科創板日報》記者輸入題目：“應是綠意曉聲濃，__你會怎麼接下一句？”

文心一言在回答題目的同時，並且對詩句做出了解析。

日日新與文心一言回答模式並無明顯差距，同樣也是回答題目並且做出解析。

隨後，記者進一步詢問“還能列出更多答案嗎”，兩款大模型開始展現出差距。

文心一言在此環節列出了5項不同的回答，並且進行了一句話的總結。

日日新提供了6種不同的嘗試，每一個嘗試都提供了相應的主題，並且進行了較為詳細的講解，最後給出了一句話的總結。相較於文心一言，內容豐富度更高，講解更為細緻。

在邏輯推理方面，《科創板日報》記者向文心一言和日日新提問「一個鱷魚偷了一個父親的兒子，它保證如果這個父親能猜出它要做什麼，它就會將兒子還給父親。

兩款大模型都能辨識出這是經典的「鱷魚悖論」。相較之下，文心一言對問題進行拆解，並且的回答更為詳細，日日新的回答更加精簡，方便快速理解。

記者繼續向文心一言和日日新提問，“父親如何做才能解救兒子？”

文心一言正確理解問題，跳脫出原有邏輯，提供了解決策略，並提示了策略風險。

日日新較充分的回答了這個問題，先解釋了解救兒子要跳出原有框架的邏輯，並提供了5種不同的解決方向和相關方案。

運算能力方面，《科創板日報》記者向兩款大模型提問一道數學題，「1個蘋果=2個梨，3個梨=4個橘子，6個橘子=7個香蕉，56個香蕉等於多少個蘋果？

此題目為有關公倍數的數學推理題，難度並不大。但文心一言和日日新在解答過程和結果方面均給了錯誤的解答。

《科創板日報》記者降低題目難度，選取一道小學題，「一共15個圓球從上往下排列，其中只有一個紅色的，從上往下數，紅色圓球位於第六個，這時從最尾部拿走一個球，此時，請問從下往上數，紅色圓球在第幾個？

文心一言給出正確的答案解題思路。

對於這道小學數學題，日日新並沒有給出正確的結果和解答過程。在記者提示後，雖然思路有所改變，但仍沒有給出正確答案。

為測試日日新和文心一言的總結能力，《科創板日報》記者上傳了一份48頁的大模型行業報告，並向文心一言和日日新提出要求，挖掘報告內重要信息，提煉重點亮點，寫一篇1500字的總結。

文心一言沒有依照給定要求完成任務，其總結內容也是泛泛而談，不夠細緻。

日日新因未知原因並沒有進行總結，雖然模型已經顯示「已經理解」但並沒有產出任何內容。

為測試文心一言和日日新的程式碼能力，《科創板日報》記者向兩款大模型發出「寫一個可以運行的五子棋遊戲代碼」的指令。

記者將兩者產生的程式碼傳送給程式設計師朋友測試，均可成功運行。程式設計師朋友表示，日日新的程式碼整體好一點，參數設定清晰，介面更好，使用起來互動感更好。

經過多方面的測試，整體來看日日新與文心一言表現各有千秋。對於大模型的迭代情況，《科創板日報》記者將持續關注。 ( 財聯社AI daily )