大模型下半場與產品成敗的關鍵；擁有更多使用者可能會讓模型更強；全球算力投資又涼了一些

2025/05/10

•

2025 年4 月全球AI 重要趨勢。

2025 年4 月的AI 月報，你會看到：

「評估（Evals）」成為模型和AI 產品開發的關鍵字
Google 持續提升Gemini 模型能力的思路
OpenAI 的GPT-4o 為何變得諂媚，以及背後的問題
使用者規模與模型能力提升關係不大？可能要有變化了
業務周期影響，全球的算力投資又放緩了一些
AI 安全成為投資新風向，單月有10 家相關公司拿到超5,000 萬美元融資
中國大廠的Agent 產品上線，面臨創新窘境

以下是我們第6 期AI 月報，歡迎大家在留言區補充我們沒有提到的重要趨勢。

評估（Evals）：大模型下半場的焦點，AI 產品成敗的關鍵

模型的基準測試得分≠實際能力，要靠更好的評估提升能力

OpenAI 研究員姚順雨發佈文章，表示大模型產業將進入下半場。上半場AI 的發展主要是找到有效訓練模型的方法，讓它解決圖像辨識、語言理解等廣泛的問題，而下半場則需要找到可行的方案，讓模型解決人們在生活和工作中更實際的問題。

他認為，焦點將從解決問題轉向定義問題，在這個時代「評估（衡量模型效果）變得比訓練更重要」[1]：

我們不能只是問“能否訓練一個模型來解決XX？”，還要問“我們應該訓練AI 做什麼，以及如何衡量真正的進步？”

我們應該從根本上重新思考評估模型能力的方式。這意味著不僅要建立新的、更有挑戰的基準測試，還要從根本上質疑現有的評估框架，並建立新的體系，突破現有方法論的限制，並行明新方法。

這是當下的AI 開發者正遇到的麻煩。美國的創業家迪恩·瓦倫丁（Dean Valentine）在2024 年中覺得大模型已經足夠成熟，便和朋友創辦了一家可以自主監控程式碼庫安全的AI 公司。隨後Claude 3.5 Sonnet 發佈，他們發現與GPT-4o 相比，將前者用到產品中效果更好[2]。

但從那之後，不論是後來的Claude 3.7、還是OpenAI 的新模型，雖然基準測試得分更高，都無法有效提升產品能力。

「就解決新任務或承擔更多使用者腦力勞動方面的能力來說，大模型自去年8 月以來沒有顯著提升。」瓦倫丁找多位AI 創業者交流後，發現大家也有類似的感受：等到o99-pro-ultra（OpenAI 未來可能發佈的更強模型代號）發佈，基準測試表現優異，實際用起來效果可能也很一般模型代號）發佈，基準測試表現優異，實際用起來效果可能也很一般模型。

「這些新模型的基準測試成績之所以能不斷提升，大機率是因為它們事先看過答案並照抄了下來。」他認為推出大模型的公司大機率在撒謊。

今年4 月底Meta 的Llama 4 發佈，瓦倫丁又多了新證據——儘管Meta 宣稱這款新模型在其內部的基準測試中，得分與市面那些領先模型的差別不大甚至更高，但未修改版的Llama 4 Maverick 在大模型競技場（Chatbot Arena LLM）上的排名，實際是低於半年前其他公司發佈的模型。

而業界重點關注的推理模型，依賴強化學習技術，還是在沿著OpenAI 發佈o1 時展現出來的「理科強、文科弱」特徵發展：那些可以驗證正確答案的問題上表現良好，比如數學、程式設計等，而在沒有統一正確答案的領域，比如寫作，推理模型效果就不如人意，不論是DeepSeek 的基礎。

Google Gemini 負責人 Dulsee Doshi表示[3]，提升模型能力的關鍵，在於找到評估「優質答案」的方法，並透過強化學習將這些標準教給模型。

Google 會請資料標註或撰寫資料的公司提供大量優質問答，把人類創作的內容投喂給模型；收集使用者“偏好資料”，看他們給什麼樣的回答點贊，什麼樣的回答點踩，用來改進大模型——這些在移動網際網路時代司空見慣的產品迭代方法，直到今年強化學習在大模型領域變得出了可行後，才真正發揮了可行的作用。

姚順雨認為，大模型研究員要在大模型下半場有建樹，“需要及時轉變思維方式和技能組合，或許更接近產品經理的角色。”

AI 產品層面，“評估會決定產品成敗”

OpenAI 首席產品長凱文威爾（Kevin Weil）表示：「設計評估方法將成為產品經理的核心技能，它是打造優質 AI 產品的關鍵環節。」[4]

吳恩達（Andrew Ng）與曾在蘋果、Cruise、Spotify 當產品經理，現任AI 新創公司Arize AI 產品總監的阿曼汗（Aman Khan）合作，製作了專講AI 產品評估的課程。阿曼汗在4 月初的文章中寫道[5]：

幾乎所有AI 產品經理都沉迷於打磨更好的提示詞、追逐最新的大模型，卻很少有人精通做好AI 產品背後的「隱形槓桿」——評估。

只有評估，才能把系統的每一步拆解開來、精準衡量單項改動對產品的具體影響，為下一步改進提供資料與信心。提示詞能讓產品登上頭條，但評估才決定產品成敗。

如果使用者想制定“舊金山附近、預算不超過1000 美元的周末度假方案”，沒有經過嚴格評估的AI 產品上線後，可能會難以理解使用者需求，或者因為幻覺問題，給出不實用的方案，甚至把航班訂到了聖地亞哥而非舊金山，會讓產品失去發展空間。

一位開發AI 產品的資深產品經理說，行動網際網路時代開發產品，靠大量前期調查確定的邏輯、規則決定產品的核心功能，使用者打開產品能解決什麼問題，得到什麼體驗，上線前幾乎就固定了；而AI 產品靠輸出結果並不確定的大模型決定產品功能，給使用者體驗增加了大量不確定性。

所以他們開發完AI 產品後，會製作更多使用者可能提出的問題資料集，更頻繁地評估產品的表現，然後引入標註團隊處理回饋，再拿去改進產品，而不只是依靠過去開發產品時常用的A/B 測試。

一位大廠Agent 產品負責人說，只是讓Agent 學會遵循使用者指令呼叫工具、解決問題就需要做大量工作——單一工具就需要數百個問題測試、回饋、改進。他說，這只是讓大模型表現“較好”，想要更好體驗，還需要產品上線後，根據使用者的反饋迅速迭代。

阿曼汗認為，傳統的產品是“火車行駛在軌道上”，而AI 產品是“汽車行駛在開放道路中”，他把評估比作給AI 產品“考” 駕照，關鍵在於：

能否正確解讀訊號（使用者需求），並對變化的環境做出適當反應？
在無法預測的情況下，是否可靠地給出正確答案？
能否始終遵循使用者的要求，到達預定目的地，而不會偏離路線？

使用者規模與模型能力提升關係不大？可能要有變化了

4 月25 日，OpenAI 更去年發表的基礎模型GPT-4o，只過3 天就回滾原來版本。

用戶發現新版的 GPT-4o 更諂媚，例如問“天空為什麼是藍色的”，它會回覆“這真是一個非常有見地的問題，你有一個美麗的心靈。我愛你。” 其他的例子是：“這是個令人毛骨悚然的好問題”“你1000% 是對的” 等等。

OpenAI 在回溯模型時發布文章[6]，解釋了為什麼新版GPT-4o 會更諂媚。

問題主要出現在「後訓練（Post-Training）」的強化學習環節。 OpenAI 稱，他們會拿一個預訓練基礎模型，利用人或現有模型編寫的一系列數據對它監督微調，然後用多種來源的獎勵信號，借助強化學習提高模型能力。

在強化學習過程中，OpenAI 的研究者給予模型提示，要求其產生回應，然後他們根據「獎勵訊號」給回應評分，讓模型傾向給予高分數的回應，減少低分數回應。

為了讓模型滿足各種要求，OpenAI 還會綜合各個方面的“獎勵信號”，例如回應是否正確、是否有幫助、是否符合規範、是否安全、用戶是否喜歡等等，並分配不同權重。

在訓練最新版GPT-4o 的時候，OpenAI 又調整了獎勵訊號，引入用戶回饋——ChatGPT 中用戶點讚和點擊數據，畢竟點踩通常意味著回答出現了問題。

引入使用者回饋，也是Google 提升Gemini 模型能力的策略。先前不少大模型研究者認為，模型能力與使用者規模沒有太多關係，風向似乎在改變。如果用戶回饋真的能提升模型實力，搶奪用戶的競爭會變得更加激烈。

模型變得更諂媚就是在這個過程中衍生出來的新問題。一方面，新的獎勵訊號削弱了原本抑制模型討好人的訊號；另一方面，使用者經常會按讚討好的回應。

「最重要一課是，我們充分認識到人們已開始將ChatGPT 用於獲取個人建議。」OpenAI 在文章中寫道，這種現像一年前還不多見。

目前，每周使用ChatGPT 的使用者已經超過5 億。對於OpenAI 來說，已經沒有「小」發布了。

業務周期影響，全球的算力投資又涼了一些

不缺卡的一些美國雲端運算大廠，4 月繼續調整算力投資計畫。

市場研究機構Semianalysis 稱[7]，過去兩個季度，微軟放棄遠超2GW 功耗的數據中心租賃合同，近期又凍結1.5GW 自建數據中心項目——這些項目原計劃在2025 年和2026 年投入使用。作為對比，馬斯克旗下xAI 建設的大型資料中心，剛開始功耗約0.5 GW。

一位投資人研究國內算力市場後預估，中國大廠今年的資料中心需求大概在3GW，相當於微軟放緩的量值。而且微軟能用的GPU，相同算力下比國產替代品或H20 功耗更低。

亞馬遜也在暫緩租賃更多資料中心。富國銀行的分析師4 月發布報告指出[8]，他們從多位產業人士那裡聽說，AWS 暫停推進部分資料中心租賃的訂單談判。

他們稱，大廠短暫放緩算力投資可能不代表長期趨勢，更像是公司的周期調整，目前業務沒有跟上早期的算力規劃。例如Google 曾在2024 年放緩資料中心建設，2025 年初又重新加速。

輝達的股價在4 月持續波動。在4 月中旬一度比月初下跌20%，到月底又反彈回來。不過與年初比，輝達股價已經下跌17%。

輝達還有一些支撐。 Google、Meta、xAI、OpenAI 依然在積極搶購輝達的GPU，他們希望建立更多人使用的AI 產品，甚至還有一些公司去競爭對手那裡租算力。中國的大廠，例如騰訊也從字節的火山引擎租了算力。

投融資：併購持續活躍，解決AI 安全問題的公司受關注

大額併購事件變多，中型公司變得積極

4 月公開的上億美元AI 併購事件達8 起，比3 月多了2 起。整體的風向沒有太大變化：AI 產業正在從「單一的技術或產品競爭」轉變為「生態系統整合」轉變，頭部公司積極擴展業務邊界，挖掘生態護城河。

例如OpenAI 以30 億美元的價格收購AI 程式設計公司Windsurf；高通收購AI 汽車產品公司VinAI 的大模型部門等。

明顯的變化是中型公司更活躍了。例如電商公司Infinite Reality 花5 億美元收購開發AI 導購產品公司；做醫學影像業務的RadNet 花1 億美元併購開發AI 癌症篩檢軟體的iCad；音樂公司Splice 併購用AI 技術混合音訊樣本的Spitfirefire 等 Audio。

中國的大模型公司智譜啟動上市輔導。如果一切順利，智譜預計在6～9 個月後完成IPO，可能成為中國第一個上市的大模型公司。

10 家瞄準AI 安全的新創公司拿到大額融資

4 月，融資超過5,000 萬美元的AI 公司達42 家，比上月增加11 家，比2 月增加超80%。

基礎模型方向，不再是頭部公司佔主流。馬斯克旗下的xAI 想融資200 億美元，但還沒落地。獲得融資最多的模型公司是OpenAI 原首席科學家伊爾亞·蘇茨克維（Ilya Sutskever）創辦的Safe Superintelligence，融到20 億美元，估值衝到320 億美元——目前還沒有發布任何產品。

OpenAI 原CTO 米拉·穆拉蒂（Mira Murati）創辦的Thinking Machines Lab，也調高了籌資規模，從2 月的10 億美元增加到20 億美元，估值提升到百億美元，還沒有明確消息確定這筆交易落地。

此外，視訊模型公司Runway 融資3.08 億美元，估值衝到30 億美元。大模型公司Anthropic 也投資了一家AI 公司Goodfire，對方主要業務是研究解說大模型，近期完成5,000 萬美元融資，估值達2.5 億美元。

基礎建設方向，4 月拿到大額融資的公司中，同樣沒有GPU 算力供應商的身影，但整體數量從上個月的2 家增加到8 家——覆蓋數據庫軟體開發、數據中心能源、降低算力成本、數據中心互聯、量子計算等方向。

應用方向與前幾個月有顯著變化。先前拿到大額融資的AI 應用公司多數成立在ChatGPT 發布之前，已在各自領域中累積穩定客戶和數據資源。它們不是給大模型做“殼”，而是想把大模型與垂直場景連接起來，用AI 改造原本的流程，挖掘新的成長空間。

這樣的公司在4 月有11 家，分佈在醫療、法律、金融等行業，但不再是主流。更多的資金流向迎著大模型浪潮發展起來的公司，例如開發Agent 產品Manus 的公司蝴蝶效應拿到矽谷風投Benchmark 領投的7,500 萬美元投資，估值到5 億美元。

一個新出現的投資主題是AI 安全。 4 月一共有10 家相關公司拿到大額融資。相關的背景是，還不完美的大模型正在快速擴散，帶來更多安全風險。根據諮詢公司麥肯錫的數據[ 9]，ChatGPT 發布後的一年裡，試圖誘騙用戶洩露身份和支付憑證的「釣魚」網站數量增長138%，達到500 萬個。

3 月創下融資紀錄的機器人領域，新的一月只有製造手術機器人的公司CMR Surgical 拿到大額融資。硬體方向，還有生產無人機的Brinc 拿到融資，以及兩家無人物流配送車公司拿到大額融資，一家是美國的Nuro、另一家是中國的九識智能，都宣佈拿到上億美元資金。

大廠Agent 產品開始上線，面臨創新窘境

4 月18 日，字節推出Agent 產品「扣子空間」；第二天，百度上線Agent 產品「心響」。與一個月前發佈的Manus 等產品類似，這些大廠的產品都定位“通用Agent”，各自還增加不少功能，比如扣子空間有使用者研究、股票助手這樣的“專業Agent”，心響看重移動端，推出手機App 並主打生活場景，但都沒能像Manus 發佈時那樣引發行業討論與關注。

微信指數顯示，Manus 的關鍵字熱度最高到5.5 億，而心響最高只到300 多萬，扣子空間還低一些。在大廠的兩個產品發佈期間，它們的微信指數都明顯低於Manus。

我們瞭解到，還有一些大廠的Agent 產品正在開發中。僅在字節，除了扣子空間，還有至少六款對內和對外的Agent 產品立項。

「在中國做Agent 產品有劣勢，能夠支援呼叫工具的模型有限。」多位AI 從業者說，字節、百度有針對工具使用場景精調過的Function Call 模型，但相比海外的Claude 系列、o 系列、Gemini 系列等「原生」支援工具呼叫的模型還有差距，會影響Agent 產品的效果。

「這是Manus 、Genspark 把重心放在海外市場的原因之一。」一位AI 投資人說，他們可以用海外效果更好的模型。我們瞭解到，百度原副總裁景鯡帶隊開發的Genspark 的Agent，上線9 天ARR（年度經常性收入）就達到1,000 萬美元。

阿里在4 月底開源Qwen 3 系列模型，聲稱“呼叫工具能力、遵循指令” 方面能力“出色”，但效果還有待驗證。

底層模型能力之外，是大廠面臨「創新窘境」。字節的扣子空間開發團隊、百度的心響團隊，都在不同管道提出他們早就在研究、開發Agent 產品，但還是比新創公司上線晚。

類似的情形，在大廠追趕DeepSeek-R1 推出自研推理模型時，就已經上演過一次，同樣是沒有那家能夠像DeepSeek 那樣引發全行業關注。

不只中國的大廠，Google、Meta 等海外大廠也沒有像OpenAI 先推出引起使用者注意的大模型或產品。在AI 程式設計領域，目前最受關注的是新創公司開發的Cursor，而不是微軟、Google 等大公司的產品。隨著OpenAI 變大，他們的行動也變得遲緩，選擇收購AI 程式設計新創公司提高競爭力。

大廠不缺聰明人、有更多的資源。為什麼不能率先推出類似DeepSeek-R1、 Manus 類型的模型和產品？我們曾發文討論過這個現象[10]：

網路巨頭崛起、維持統治地位不靠時刻引領創新，而靠在有人驗證需求後，成系統地做出同款，以更高效率大量拉來使用者，再根據使用者反饋快速迭代改進體驗。更好的體驗帶來更多的收入，這些收入又被拿來投放，獲得更多使用者，如此循環。

當下AI 產品體驗提升幾乎全部來自底層模型能力提升。大廠燒錢換來使用者，無法保證底層模型遠超同行，就無法阻止使用者投奔體驗更驚豔的競品。大模型開源讓新創公司能用和大公司差不多的成本，調動差不多的智慧；做出夠好的產品，初期靠自然傳播也有機會快速成長。

而當需求從開發大模型轉向尋找具體應用場景，創業者天然比大公司裡被OKR、KPI、季報、雙月會牽引的聰明人更容易嘗試新點子。

管理學家克萊頓·克里斯坦森（Clayton Christensen）上世紀提出“創新者的窘境”，似乎正在大模型領域上演。但任何一個成熟的管理者都不會對「創新者窘境」感到陌生，為什麼還是會出現類似的情況？這或許是更關鍵的問題。

[1]OpenAI 研究員姚順雨的博文
https://ysymyth.github.io/The-Second-Half/

[2]AI 創業者眼中的大模型進展
https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit

[3]Gemini 負責人談模型能力提升策略
https://www.theinformation.com/articles/openais-innovators-dilemma-geminis-product-lead-next

[4]OpenAI 首席產品長談評估重要的播客
https://www.lennysnewsletter.com/p/kevin-weil-open-ai?source=queue

[5] 阿曼汗討論評估的博文
https://www.lennysnewsletter.com/p/beyond-vibe-checks-a-pms-complete

[6]OpenAI 解釋為何GPT-4o 會變諂媚
https://openai.com/index/expanding-on-sycophancy/

[7]Semianalysis 談微軟凍結結算力投資的文章
https://semianalysis.com/2025/04/28/microsofts-datacenter-freeze/

[8] 亞馬遜也在暫緩租賃更多資料中心
https://www.reuters.com/business/retail-consumer/amazon-has-halted-some-data-center-leasing-talks-wells-fargo-analysts-say-2025-04-21/

[9] 麥肯錫關於釣魚網站的資料
https://www.mckinsey.com/featured-insights/sustainable-inclusive-growth/charts/phishing-with-ai-is-cybersecuritys-new-hook

[10] 晚點LatePost 討論大廠開發AI 產品範式變化的文章
https://mp.weixin.qq.com/s/3Xdz8qCQvU69WIS5s8ACFg （晚點LatePost）