#AlphaGo | 熱門關鍵字 | 鉅亨號

【新智元導讀】十多年，患者求醫無果、束手無策，但將所有病史輸入ChatGPT，病因竟被一眼識破：基因突變！微軟、OpenAI等巨頭的醫療AI已悄然登場，精準率超越專業醫生！未來的醫療，或將徹底改寫！AI又一次震撼醫療圈！一名患者被莫名病症折磨十多年，數十位醫生無解。直到他把報告輸入ChatGPT——AI一語中的：MTHFR A1298C基因突變！在Reddit上，這則消息傳瘋了！⚠️注意：在採納ChatGPT建議前，該患者和主治醫生多次溝通、反覆確認。請一定結合專業醫生意見，切勿完全依賴AI作為醫療依據。十多年來，患者一直被各種莫名其妙的症狀困擾。脊柱MRI、CT、抽血……能查的都查了，還是一頭霧水。後來，他還做了功能醫學檢測，意外發現他有一種純合子突變：MTHFR基因A1298C突變。這是一種常見的亞甲基四氫葉酸還原酶MTHFR基因變異，而最常見的變異被稱為MTHFR C677T。每個人都有兩份MTHFR基因，分別來自母親和父親。上圖展示了MTHFR C677T可能的基因型。而MTHFR A1298C發生在MTHFR基因的第1298位。這種突變在美國人群中影響7-12%他還見過神經科醫生，檢查過是不是多發性硬化（Multiple sclerosis，MS）。直到他把這些年所有的檢查報告和病史輸入ChatGPT。神了。發生了驚人一幕：ChatGPT發現，雖然血清維生素B12水平正常，但卻與持續性的神經痛和慢性疲乏矛盾。這種反常，指向了一種長期被忽視的可能——甲基化阻滯（methylation block）。幾個月後，患者的刺痛感減輕了，大腦霧氣消散了。主任內科醫生審查了治療報告，震驚地發現，基因變異正是全部症狀的病因！AI工程師、即時追蹤AGI進展的Rohan Paul，聽聞此消息，大受鼓舞。他認為：「現在時機已成熟，醫療AI模型給出的第二診療意見應該成為醫療實踐規範。」相關推文，也被OpenAI總裁轉載。前Forbes撰稿人、作家Derick David則表示這是醫療界的「AlphaGo」時刻：在疾病診斷上，AI現已比人類強。AI醫療奇蹟，正在一幕幕上演類似的例子太多了！Reddit網友crasstyfartman的妹妹被ChatGPT診斷出一種罕見的遺傳性血液疾病——在此之前，她花了十多年時間看醫生和自然療法師，都被告訴那只是心理問題。他們甚至在她提出做檢測時翻白眼🙄。她堅持要求檢測。結果ChatGPT是對的。向醫生抱怨了22年，最後網友buyableblah靠ChatGPT協助才得出診斷。我也是這樣做的，只不過是針對子宮內膜異位症（endometriosis）。終於做了超聲檢查，發現了一個6釐米的子宮內膜異位囊腫（稱為子宮內膜瘤，endometrioma），現在已經長到7.3釐米，我打算今年晚些時候切除。甚至網友用ChatGPT拯救了被獸醫「誤判死刑」寵物狗。Reddit網友sometimelater0212則表達了對醫療體系的強烈不滿：我把ChatGPT提供的發現拿去給醫生看，他們卻全都嗤之以鼻，要麼說：「從沒聽說過類似的診斷建議」，要麼就說「別信ChatGPT」。這種傲慢真是讓人煩透了。但不止OpenAI，微軟、Google、IBM等早已佈局醫療AI。在微軟的消費級AI產品中，每天就有超過5000萬次與健康相關的使用情境。從使用者首次查詢膝蓋疼痛，到深夜緊急搜尋附近診所，搜尋引擎和AI助手正逐漸成為醫療服務的第一道防線。就在上周，微軟發布了MAI-DxO。而這個AI系統表現遠超醫生。研究人員以《新英格蘭醫學雜誌》(New England Journal of Medicine)每周發佈的真實病例記錄作為基準測試。結果顯示，在診斷NEJM病例時，Microsoft的AI診斷編排器（Microsoft AI Diagnostic Orchestrator，MAI-DxO）的精準率高達85%，這一比例是實驗中經驗豐富的人類醫生的四倍多。而且，MAI-DxO還比人類醫生的成本低。微軟：通向醫療ASI之路NEJM每周會發表「馬薩諸塞總醫院病例記錄」，詳細記錄了患者的整個診療過程。這類病例通常診斷難度極高，往往需要多位專家和一系列檢測手段，才能做出最終判斷。NEJM：《新英格蘭醫學雜誌》New England Journal of Medicine，是全球最權威的醫學期刊之一那麼，AI在這些複雜病例中表現如何？為探究這一問題，從NEJM案例中，微軟的研究團隊設計出一套互動式診斷挑戰——稱為「順序診斷基準」（Sequential Diagnosis Benchmark，SD Bench）。304個NEJM案例被轉化為逐步進行的診療模擬：像在真實環境中一樣，讓AI模型或人類醫生可以逐步提問、安排檢測、獲取結果，並即時更新診斷思路，最終給出結論。最後的結論將與NEJM給出的標準答案進行對比。每一次檢測請求都會產生虛擬費用，用以模擬真實醫療資源消耗。據此，研究人員從兩個關鍵角度評估了模型：診斷的精準性和資源的使用效率。圖1：AI智能體推理並解決順序診斷問題的示意輸入初始病例資訊，如：29歲女性，因喉嚨痛、咽旁腫脹及出血入院，使用抗菌治療後症狀未改善。依照「順序診斷」流程，AI開始進行推理：（1）患者回顧病情（2）接下來，AI開始問診，範圍涵蓋：既往病史、用藥史、惡性腫瘤跡象、病毒感染史、牙科史、出血傾向、常規實驗（如血常規、凝血）和影像檢查（如頸部MRI）等。（3）虛擬醫生專家組內部討論（4）逐項檢查，更新診斷（5）AI系統得出診斷結論（6）與NEJM權威診斷結果對比，專家評審意見下面的視訊，項目負責人介紹了基本的流程。邁向準確診斷研究人員對目前最具代表性的生成式AI（Generative AI）模型進行了全面評估，覆蓋了304個《新英格蘭醫學雜誌》(NEJM)的真實病例。參與評測的基礎模型包括GPT、Llama、Claude、Gemini、Grok和DeepSeek等。除了對這些模型進行基準性能測試，研究人員還設計了MicrosoftAI診斷編排器（MAI-DxO）——模擬由多名虛擬醫生組成的協作小組，通過多樣化的診斷思路共同應對複雜病例的系統。圖5：MAI-DxO編排系統概覽與單一模型相比，編排器不僅更善於整合不同來源的資料，還能在醫療環境變化時提供更高的安全性、透明度與適應能力。這種不依賴於特定模型的架構（model-agnostic）也提升了系統的可審計性和韌性，這兩者對於高風險、快速演進的臨床場景而言至關重要。評測結果顯示，MAI-DxO顯著提升了所有模型的診斷表現。其中表現最優的是MAI-DxO與OpenAI的o3模型組合，其在NEJM案例中的診斷精準率達到85.5%。作為對比，實驗中也評估了21位來自美英的執業醫生，他們擁有5到20年的臨床經驗。在相同任務中，他們完成的案例平均精準率僅為20%。MAI-DxO具有可配置性，可以設定成本上限，從而在診斷過程中探索「成本與價值」的權衡。若不加限制，AI可能會傾向於開出所有可能的檢查項目，而不顧費用、患者感受或診療延誤。研究發現，MAI-DxO不僅比醫生和單一模型更準確，其總體檢測成本也更低。在「診斷精準率」與「平均檢測成本」兩個維度上，下面的散點圖對比了不同AI模型。圖中MAI-DxO曲線位於表現最優的左上區域，紅色叉號則代表人類醫生的平均水平。AI+醫生：告別看病貴的第一步醫生通常在專業知識的廣度或深度之間作出選擇。比如，全科醫生需面對不同年齡層和系統的廣泛問題，而專科醫生則專注於某一病種或系統。然而，NEJM案例的複雜程度遠超單一醫生所能全面覆蓋。而AI不受這一限制，能夠兼顧廣度與深度。而且在多個方面，AI的臨床推理能力已超越人類醫生。這種能力有望徹底改變醫療模式——不僅可賦能患者自行處理常規健康問題，也可為醫生提供決策支援。目前，美國醫療支出佔GDP的近20%，其中高達1/4屬於無效支出。AI有望成為遏制這一浪費的關鍵力量。這不是取代醫生，而是開啟一種全新的醫療共治模式：AI+醫生，共同診斷。 (新智元)

2025/05/18

•

史詩時刻！ AlphaGo神之一手突現，GoogleAI顛覆科學研究極限？

太瘋狂了，AlphaGo的「第37步」時刻，已經來臨。 Google的AlphaEvolve，讓我們從此進入AI創造科學的時代，人類科學研究將徹底顛覆！背後的研究者也首次接受採訪，揭露研究過程中的一些驚人細節。這周，GoogleDeepMind丟出了重磅炸彈－AlphaEvolve。但許多人，彷彿還未意識到這個AI的意義。可以這麼說，AlphaEvolve，就是數學界AlphaGo的「第37步」時刻，堪稱瘋狂。Google的這個AI，取得了人類未曾發現的數學成果。例如，它改進了改進了4x4矩陣乘法，將運算次數從49次減少到48次，這是自1969年Strassen演算法提出以來，56年內的突破！另外，它還推進了六邊形填充問題的研究，找到了在更大六邊形內排列11個和12個六邊形的更優解法，超越了人類的解決方案（在停滯16年之後）！甚至，它一舉改進了困擾數學家300多年的「接吻數問題」。而這一切，都是靠AI自我進化、訓練自己所使用的LLM而得到的。透過自我對弈，它擁有了超人的編碼能力，甚至讓人預言—十年內，程式設計將迎來自己的AlphaGo時刻。而且，跟AlphaGo的「第37步」不同，AlphaEvolve展現出AI自主優化演算法的能力，或將徹底改變晶片設計與資料中心效率。GoogleCEO Pichai，對「AI訓練AI」進行了生動的解釋：由Gemini驅動的編碼agent，優化了Gemini的訓練，形成了一個資料飛輪跟以往成果不同的是，GoogleDeepMind這次直接弄出一個通用武器。從此，AI不僅能解決問題，還能發現新的前沿領域。這代表著，人類集體智慧發生了一次真正的飛躍！接下來的劇本，或許就是AI橫掃各大科學難題，直接顛覆人類科學研究。GoogleDeepMind引領全人類未來GoogleDeepMind，一直在AI改造世界這個方向引領著前線。可以說，在將近30年裡，他們都在指引人類文明的方向。AlphaGo透過學習人類對弈，甚至自我對弈，擊敗了人類冠軍李世石。AlphaZero通過自我對弈，學會圍棋、國際象棋和日本將棋，被稱為一種人類從未見過的智慧。AlphaFold預測了數百萬種從未經過實驗測量的蛋白質三維結構。AlphaDev則發現了更快的排序演算法。AlphaTensor用於進行科學發現，將尋找更快矩陣乘法演算法的問題建構成一個遊戲，並實現了重大突破。FunSearch則將我們帶到更遠，透過程式碼演化，利用LLM尋找新的數學解決方案。GoogleDeepMind的下一個Alpha，更是令人無比期待。OpenAI研究員Jason Wei就表示，AlphaEvolve對於像我這樣的強化學習鐵桿粉絲來說，確實令人不安所以，這次打造出AlphaEvolve的團隊，究竟有那些人物，經歷了那些探索？就在最近，Youtube上的人氣大V「Machine Learning Street Talk”，就提前獲取了GoogleDeepMind的這篇論文，並採訪了這項工作的研究者。半個世紀矩陣乘法突破，研究者當場驚呆在電腦科學領域，幾乎沒有問題能像矩陣乘法一樣基礎。半個多世紀以來，此領域的一個特定基準，一直被認為難以突破。因為最優演算法的搜尋空間極為龐大，使得窮舉在實務上幾乎不可能，即使對相對較小的矩陣也是如此。1969年，Strassen透過發現一種演算法，徹底改變了這個領域。此演算法僅需七次標量乘法，即可乘以兩個二乘二矩陣。而就在今天，這紀錄被Alpha Evolve打破了！而它能做到一點，連GoogleDeepMind的研究者都沒想到。對於通常情況下的矩陣，仍然沒有比使用四十九次乘法進行兩次Strassen更好的辦法。開始，研究者也壓根沒有期待，它能找到比四十九次更好的結果，因為他們已經用AlphaTensor嘗試了很長時間了。所以，他們只是出於完整性試了一下，因為想在論文中展示這個表格而已。結果，出乎所有人意料，一個更快的演算法，居然被它發現了！這次，演算法使用了48次，而不是49次乘法，徹底打破紀錄。當看到一位同事發消息通知這一結果時，研究者表示自己簡直不敢相信。反複檢查三次後，他們終於確認——AI不斷增強的能力，可以產生全新的、可證明精準的演算法，從而推動科學的邊界！跟第一個版本有何差別？根據論文，AlphaEvolve是一種進化編程智能體，顯著提升了預訓練LLM在復雜任務上的能力。要知道，先前團隊曾有第一篇論文，講的是FunSearch，原理與之非常相似。所以，二者的區別在那裡呢？研究者介紹說，FunSearch只是在搜尋一個單一的函數，但AlphaEvolve，本質上可以作用於整個程式碼庫。它會在程式碼庫中你標記的區域中進行搜尋，甚至優化這些函數之間的互動。Google昂貴的服務器，不用閒置了所以，AlphaEvolve有沒有可能進化出一個方法，來優化Google的計算基礎設施呢？出於嘗試，Google工程師將一個候選方案放進這個AI，令人驚喜的是，它果然進化出了一個更聰明的啟髮式方法！現在，這個方法已經被運用於優化Google內部的計算基礎設施了。要知道，在Google龐大的資料中心，高效率安排計算任務是一項非常複雜的操作。如果操作不當，昂貴的伺服器就會閒置。而現在結果正式，這個全新方法利用了Google服務器群計算資源的0.7%，對於Google來說，這是一項巨大的節省。盜夢空間成真？甚至，在另一個自我改進的實例中，它甚至找到了加速Gemini模型訓練的方法，這，就為AlphaEvolve本身提供了動力。這個實例之所以如此有趣，是因為它不僅產生瞭解決方案，還產生了產生這些方案的程式。也就是說，Alpha Evolve就像《盜夢空間》一樣。甚至研究者表示，在檢查程式碼時，他不僅想到，這看起來完全就是一種數學洞察，或者一種數學假設！事實也證明了，它們確實對改進結果的非常關鍵。而Alpha Evolve另外一個有趣的點，就是它仍然非常依賴「人類參與其中」。過程中，人類負責識別那些內容是有趣的，找到那些有明確評估標準的問題，將候選解決方案納入循環中。然後，Alpha Evolve就會遍歷這個可能性的錐體，在過程中不斷跳躍，將這個循環繼續下去。所以，Alpha Evolve也預示了一種AI的未來──人類和AI之間，有著強大的協作循環。曾經有一個「死掉的互聯網」的理論，指的是在未來，網上大部分內容都將由AI生成，而且非常表面化、非常膚淺。而此時，就需要人類來指導AI、改進結果，進行迭代。而讓Alpha Evolve如此酷炫且強大的，也正是人與機器之間的這種互動。AlphaEvolve，為何如此適合科學發現在訪談中，主持人向研究者提問：究竟是什麼促使你們走上了進化演算法的道路呢？研究者回答說，這就跟科學發現的過程一樣，是非常自然的選擇。進化演算法能為探索過程帶來多樣性，確保你不會在早期就鎖定在某種特定方法上，因為這種方法有可能是次優解。最終，我們仍然需要不斷探索所有的可能性，尤其是在想要做出新的科學發現時。言簡意賅地說，AlphaEvolve就是一個進化演算法，對於系統給出程式碼片段，我們都可以自動測試它好不好，有多好。一方面，它可以把你限制在你可以解決的問題集上，另一方面，它涵蓋的問題範圍又非常廣泛。LLM會為你提出各種想法，透過這個評估器，我們就可以篩選出真正重要的、能做出改變的想法。最有潛力的代碼，將被識別出來，然後專注於改進這些部分。接下來，採訪者就提出了一個重要的問題：我們什麼時候才知道，這個過程要結束？例如，可能我們覺得該終止了，但如果再多等五分鐘，就會得到一個近乎完美的演算法。研究者解答了他的疑惑。從理論上講，的確永遠無法確定如何讓演算法運作更久，以及會得到什麼結果。但在實踐中，這並未造成任何問題。例如可以這樣設定問題：我正在嘗試解決這個數學中的開放性問題，尋找能取得進展的搜尋演算法，但我希望10分鐘內就能取得進展。也就是說，其實我們只探索了能在10分鐘內做出進展的演算法空間。當然的確存在這種可能性：如果運行更長時間，說不定還會有表現更好的演算法。這個可能性永遠無法消除。那一刻，AI發生了想像力驚人的跳躍主持人問道：你可以舉出一些系統做出真正有想像力的跳躍的例子嗎？研究者表示，一個具體的例子，AlphaEvolve如何發現矩陣乘法演算法的。實際上，他們只是讓它設計了一個基於梯度的搜尋演算法，也也就是一個能找出來的演算法的演算法，或是元演算法。第一個搜尋演算法，是從一個非常簡單的程式碼框架開始的。研究者並未給它任何東西，只告訴它「用梯度」，然後，它就寫出了這些複雜的損失函數和更新函數，而且以完全出人意料的方式引入了隨機性。就在那一刻，研究者驚呼：太厲害了！當然，這種程式碼也有可能是人類寫的，但他們真的會想到要寫出這段特定程式碼嗎？那一刻，他彷彿頓悟了──AlphaEvolve所做的，是一些類似人類的事情，但又顯然不是人類會嘗試的東西。人類具體是怎樣指導AI的呢？研究者提及了一個實驗，在這個實驗中，他們請幾個人花了30分鍾思考這個問題，記下筆記，然後指導系統完成整個過程。可以理解為，AI榨出了這個想法的全部精華，瞭解它的本質，於是引導LLM得出了這樣的目標，同時做了很多優化。聽起來，這就是智慧的本質──嘗試很多事情，總有一件會成功。最震撼之處：改變世界，就在當下研究者表示，在以往，通常我們很難開發出某種科學研究工具，直接、立刻應用到現實世界的挑戰，並產生巨大影響。而AlphaEvolve的意義就在於，在開箱時就能同時在數學和科學問題上做出新發現，甚至還能發現可以直接部署到Google核心計算架構中的演算法。這，是他們以前從未經歷過的事。AI奇點，或許已經到來了。（新智元）

2025/04/02

•

大模型下半場：7個趨勢判斷

推理模型能力的持續提升，推動大模型迎來“可用”到“好用”的拐點。推理強化和應用拓展啟動了大模型下半場的新賽程。個人智能體潛力初步顯現，行業應用漸次走深，開源開放日益成為大模型的核心競爭力組成。大算力、多模態、強推理、廣開源、准資料、智能體、深應用等，成為當前發展的重要趨勢。一、大力出奇蹟的算力投入模式尚未見頂DeepSeek以557萬美金的低成本訓練，給全球帶來很大震動。但這並未顛覆大模型需要大算力的底層邏輯，實際上，該模型單次訓練成本相當於國外同類模型成本的八分之一左右，尚未有數量級的差別，其意義是以更集約化的方式復現已有模型效果的工程創新。此前網路熱炒的中美大模型訓練成本的懸殊對比，其實是拿美國千億美金等級的資料中心建設、晶片購買、網路搭建、科學家薪酬等總支出，來對比DeepSeek的單次訓練成本，裹挾了較大的誇張和情緒因素。用更大算力去探索大模型的能力上限，仍是行業共識。預計今年上半年國外將推出GPT-5、Llama 4等級大模型。美國大算力叢集建設如火如荼，馬斯克的xAI已建成全球規模最大的20萬張H100算力叢集，並在此基礎上訓練出Grok3大模型。Google今年預計投入750億美元，同比增長43%，大部分用於算力中心建設；Meta預計投入為600-650億美元，同比增長53%-66%；亞馬遜預計為1000億美元，同比增長超20%。此外，日本軟銀集團、OpenAI和美國甲骨文公司三家企業聯合開啟星際之門計畫，將在未來4年投資5000億美元，在美國建設超大型算力基礎設施。這些將推動大模型在預訓練方面的更多突破，加上現在流行的強化學習等後訓練增強，大模型能力的躍升可能會進一步加快。有不少大佬預測，AGI的實現可能就在最近的兩到三年。高端晶片供給仍是中國下一代大模型的卡脖子問題，可能再次面臨訓練晶片供應不足的風險。雖然去年以來，中國AI高端晶片企業數量和能力均有提升，華為、燧原科技、摩爾執行緒、海光、壁仞等多家企業已設計出對標輝達A100單卡性能的國產晶片，但由於台積電暫停7nm產能供應及HBM禁令等限制，國產高端晶片的製造仍面臨挑戰。二、慢思考和多模態成標配，多領域將迎來AlphaGo時刻包含了強化學習等在內的後訓練過程，把預訓練積累的模型潛力發揮了出來，模型慢思考帶來了推理能力的大幅提升。受DeepSeek效應刺激，國內外大模型公司正加速推出下一代大模型，如OpenAI的基礎大模型GPT-4.5，推理模型o3；Anthropic整合了深度思考和快速輸出的混合推理模型Claude 3.7；Google相繼發佈 Gemini 2.0和更強大的推理模型Gemini 2.5 Pro，以及xAI的Grok 3。國內騰訊混元發佈了可以秒回的強推理模型T1，將快慢思考相結合，並首次將混合Mamba架構無損應用於超大型推理模型，顯著降低了訓推成本。DeepSeek更新了一版名為DeepSeek-V3-0324的模型，在數學、程式碼類相關評測集上取得了超過 GPT-4.5 的得分成績。多模態是人類世界的本來樣貌，大模型的發展趨勢一定是走向多模態，從單一的文字、圖像、視訊、3D，向聲、光、電，甚至分子、原子等各類模態擴展，達成對真實世界的理解和生成，原生多模態是未來方向。近期發佈的GoogleGemini 2.0 Flash可實現一句話編輯圖片，堪比專業Photoshop軟體的編輯效果； GPT4o最新推出的風格化文生圖能力火爆全網。騰訊剛開放原始碼的混元3D模型，同時支援文生3D和圖生3D，可一鍵換皮膚、一鍵變動畫，一鍵生成3D遊戲視訊。隨著模型能力的躍遷，可以預見，更多領域將迎來“AlphaGo時刻”，即大模型在各領域的能力超過該行業90%以上，甚至最高水平的人。OpenAI的o1在在美國數學邀請賽拿到接近滿分成績，在物理、生物和化學問題的基準測試上超越了博士水平的精準率。Anthropic 首席執行官Dario近日預言，未來3-6 個月 AI 將能夠編寫 90% 的程式碼。三、模型開源和開放協議成為新競爭力組成之前行業爭執不下的開源與閉源之辨，倒向了開放原始碼的一邊。DeepSeek的火爆，一定程度上得益於開源，其採取的MIT License協議支援完全開源，不限制商用，也無需申請，讓全球開發者都有機會上手使用和評測，依靠口碑效應快速形成了全球影響力。原來堅定走閉源路線的OpenAI也被迫考慮開源，奧特曼近日公開表示，之前選取的閉源策略可能站在了歷史錯誤的一邊，同時還在社交平台公開徵集開源方案，未來要做端側的開源大模型和o3 mini等級的開源模型。國外Meta，國內騰訊、阿里、智譜等企業很早就開啟了開源戰略。如，混元文生圖模型是業內首個中文原生的DiT架構文生圖開源模型；文生視訊大模型是當前最大的視訊開源模型，且全面開源，包含模型權重、推理程式碼、模型演算法等完整模型。國外Hunging Face等社區也成為全球大模型開發者活躍的重要平台，在Hunging Face上彙集了152萬款開源大模型，33.7萬個開放資料集。同樣重要的還有大模型的開放協議，可以類比為網際網路興起時的HTTP協議，HTTP讓各類網頁都能以統一的格式展現在瀏覽器中，方便使用者獲取資訊。大模型的資料通訊開放協議則可以讓大模型更方便地呼叫各種工具，從而自主完成各類任務。如，近期火爆的MCP（模型上下文協議）是Anthropic於去年11月發佈的一個模型資料通訊協議，成為連通大模型和各類工具之間的橋樑。四、“後真相”時代，打造可信大模型迫在眉睫技術對知識資訊的影響，第一次從傳播和互動環節向前延伸到生產環節。大模型知識輸出的精準度、專業度，即大模型的“可信度”，正在成為人工智慧的核心競爭指標。大模型帶來資訊極大豐富的同時，內容中所包含的幻覺等噪聲問題也困擾著使用者。《哥倫比亞新聞評論》研究發現，美國用於新聞搜尋的生成式人工智慧模型存在嚴重的精準性問題。研究人員測試了8種具備即時搜尋功能的AI搜尋工具，發現有60%以上的新聞來源查詢錯誤。大模型的幻覺問題，是伴隨人工智慧底層技術路徑與生俱來的，和創新能力是一體兩面的，難以僅僅依靠技術徹底解決。引入權威的圖書、雜誌、新聞資訊、論文等優質內容資料，並打造新的、“可信”的知識共識機制和供應體系，是大模型未來在生產、生活應用領域產生更大價值的關鍵所在。OpenAI與新聞集團去年簽署了為期5年的合同，獲得了訪問該集團旗下媒體歷史內容的授權，包括《華爾街日報》《巴倫周刊》《泰晤士報》《每日電訊報》等主串流媒體，以增強大模型回答內容的可信度。騰訊混元正在與大百科出版社、人民衛生出版社、上海辭海出版社、化工出版社等優秀的傳統出版機構開展合作，支援其推出圖書智能體，探索基於搜尋增強技術的可信大模型合作模式。如，在元寶APP應用廣場中，人衛智能體可以為使用者提供心腦血管等特定醫學知識領域的權威解答，同時提供相關書籍原文的引用，並可以引流到電子書閱讀平台，跳轉到實體書購買頁面。既能實現類似腳註尾注、文獻索引等傳統知識溯源機制的遷移，確保輸出知識的共識性、精準性，也將為出版機構和大模型平台帶來可持續共贏的模式。未來，誰能夠接入更多可信的資料來源，建構起可信的評價和共識機制，誰就能在人機內容共創的時代獲得領先優勢。五、個人應用在智能+網際網路邏輯下有望開啟馬太效應GPT-4.5，DeepSeek V3、騰訊Turbo S等基礎大模型，OpenAI o3、DeepSeek R1、騰訊T1等推理模型的陸續發佈，標誌著基礎大模型進化到了好用的階段，推動個人應用迎來發展新起點。過去個人應用之所以不夠豐富，核心是由於基礎大模型的能力所限，在複雜問題分析、多模態生成和理解等領域的效果還不盡如人意，使用者使用大模型時驚喜不足。而且個人應用的資料，更多是使用偏好資料，並不能反哺基礎大模型智能的提升，因此過去花錢買流量和使用者的應用也沒能構築護城河，使用者替換應用的成本較低，粘性不足。在當前基礎大模型能力相對成熟的背景下，過去移動網際網路賴以成功的平台效應有望再次發揮作用。更多使用者使用AI應用，可以沉澱更多的優質共享知識、積累更多的使用者反饋和社互動動等，從而讓應用得以持續最佳化，並吸引更多的使用者使用，形成良性的正循環。以騰訊元寶為例，採取DeepSeek+混元雙模型引擎驅動的戰略後，使用者數直線上升，今年2月至3月DAU（日活）增長超20倍。中國應用領先的優勢有望進一步發揮，提效類的生產力工具日益強大，殺時間的陪伴類和文娛類應用體驗不斷最佳化。根據a16z投資機構3月發佈的全球Top 50生成式AI應用報告，中國公司的應用有11款上榜，而去年8月僅有3款產品上榜，增速明顯。AI新搜尋、文生圖/視訊工具和角色扮演應用是排名前三的熱點方向。但同時，個人應用創新仍然面臨“苦澀的教訓”（ The bitter lesson），即人們反覆嘗試用工程手段提升性能，最終卻總是被簡單堆算力的方式超越。大模型能力的不斷提升，會“吃掉”不少應用創新的功能，特別是工作流類的應用，更容易被大模型的新能力取代。如何在應用中加深護城河，需要更多第一性原理的思考，從而嵌入使用者決策鏈條的關鍵節點去提升價值，增加使用者的情感性認同，並通過生態協同，提升自身的不可替代性。可以說，技術迭代是矛，場景滲透是盾，生態協同是土壤，個人應用有時候要跑得快一點等大模型能力的提升，有時候又要慢一點思考大模型的演進路徑，去建構技術+場景+生態協同的“動態能力組合”。六、個人AI應用的終點是超級智能助理基礎大模型能力的升級，帶來應用深度的能力解鎖。第一波以ChatGPT為代表的大模型擅長對話，催生了AI新搜尋Perplexity等應用。第二波以Claude 3.5 Sonnet為代表的大模型擅長程式設計，推動了估值百億美金的Cursor和當紅程式設計明星Devin等的火爆。第三波以Open AI o1為代表的大模型擅長深度推理，讓Agent應用成為可能。特別是隨著多模態、強化學習技術持續突破，模型的效果大幅提升、成本不斷降低，可以預見，智能體應用將加速滲透到更多垂直領域，開啟人機協作新紀元。智能體新時代正在走來。近期國內Manus應用的火爆，讓業界對AI智能體的未來給予更多期待。無獨有偶，OpenAI的自主電腦使用智能體Operator和深度研究智能體Deep Research已開啟商業化試水，從實驗室走向大眾市場。據外媒報導，OpenAl計畫以每月2000美元的價格向“高收入知識工作者”出售低端代理;中端代理每月收1萬美元，用於軟體開發；而高端代理作為博士級研究代理，每月收費 2萬美元。據Gartner 預測，到2028年，33% 的企業軟體應用將包含代理式人工智慧，而2024年這一數字不到1%，且至少15%的日常工作決策將通過人工智慧代理自主做出。人工智慧代理市場將顯著增長，從 2024年的51億美元增長到2030年的471億美元。Agent應用的深入，將推動Token消耗量呈百倍甚至更高量級的增長，由此帶來推理算力需求的更大爆發，並超過訓練算力需求。為提升能效比和降低成本，Google、亞馬遜、Meta、OpenAI等大型雲端運算和大模型廠商均加速佈局定製化ASIC，ASIC正逐步發展成為輝達GPU之外的重要新技術路線。摩根士丹利預計，AI ASIC市場規模將從2024年的120億美元增長至2027年的300億美元，複合增長率達34%。與此同時，Agent的廣泛使用將要求模型能處理更大規模的上下文，對模型基礎能力的提升也帶來更大挑戰。七、智力即服務是行業落地的終極方向以雲的方式，讓智能變成一種千行百業可按需呼叫的服務，將最終形成智力即服務（Intelligence as Service）的新形態。過去衡量經濟發展和數位化水平，會看用電量、用雲量，以後我們衡量智能的水平，可能要去看“用詞量”（Token）。DeepSeek等大模型的火熱，帶來了模型效果的全面升級，激發了中國各行業擁抱大模型的新熱潮。但當前，中美企業的生成式AI應用程度存在一定差距，中國企業應用大多處於試驗階段，離規模化使用還有距離。而美國企業應用更加廣泛和深入，2024年美國企業全面實施生成式AI的比例達24%，明顯高於中國的19%。美國政府和企業普遍採用公有雲部署AI，支援AI快速迭代，超過70%的組織使用雲端AI。受此推動，美國大公司最新一季度的雲端運算收入高速增長，如微軟達到409億美元，同比增長21%；亞馬遜為287.86億美元，同比增長19%‌；Google119.6億美元，同比增長30%。高性價比正在推動行業應用走深。自ChatGPT發佈兩年多來，大模型性能持續提升，推理成本顯著下降，如GPT-4o的API呼叫價格為每百萬輸出tokens 20美元，相比發佈時下降了三分之二。當前國內DeepSeek V3的每百萬Token 8元，混元多模態大模型TurboS每百萬Token低至2元。在模型能力效果大幅提升的同時，還為各行業大範圍部署提供了很高的性價比。近兩個月來，行業大模型落地成效顯著，已有政務、金融、醫療、教育、傳媒、文旅等30多個行業落地，大幅提升效率的同時，也在重構原有流程。包括深圳寶安政務、深圳醫保、上海徐匯城運中心、深圳大學、瑞金醫院、上海醫藥、重慶農商行、榮耀等公司都積極部署並探索大模型應用。以深圳寶安政務大模型應用為例，已覆蓋民生訴求、企業服務、政務辦公、社會治理等31個業務場景，覆蓋全區14個領域、20個行業近3萬餘條政府服務知識，整合了60多種模型能力，並可結合業務場景需要快速部署新的智能應用。行業應用中，優質資料是提效護城河。行業大模型比以往任何時候都更需要行業和企業內的優質資料，因為行業應用需要更準確、專業的知識，且對幻覺零容忍。在資料治理上的投入將獲得事半功倍的效果。而這往往需要很大的投入，也被經常認為是苦活兒和累活兒，是行業落地中最容易被忽視的部分。未來，大模型不僅在各行業縱深發展，更將通過跨領域協同、中小企業普惠、社會系統重塑等路徑，實現深度應用的立體化演進：從“場景適配”到“價值創造”，大模型從效率工具升級為業務增長引擎；從“資訊孤島”到“生態融合” ，跨領域資料的協同推動應用邊界擴展；從“企業級應用”到“社會系統重構” ，技術滲透進入深水區，引發企業和社會組織模式、就業和分配結構、社會倫理規範等全方位變革。 (騰訊研究院)