#模型發佈
“表現極其驚豔”,Google大模型罕見發佈前“造勢”,Gemini 3.0本周登場?
預測市場押注Gemini 3.0將於下周發佈,Pichai在社交平台微妙舉動被解讀為對發佈時間的確認。內部人士形容新模型“極其驚豔”,預計將在編碼和多媒體內容生成方面實現重大改進。分析認為,新模型可能讓Google有機會奪得領先地位,特別是在OpenAI的ChatGPT-5未能立即產生重大影響之後。Google即將發佈的Gemini 3.0人工智慧模型正引發行業廣泛關注。預測市場顯示該模型將於下周推出,首席執行官Sundar Pichai在社交媒體上以"思考表情"回應相關猜測,幾乎確認了這一時間表,這是Google首次在大模型發佈前進行如此大規模的內外部造勢活動。而且接觸過該模型的人士對其能力評價極高,據Business Insider周一報導,內部人士形容新模型“極其驚豔”,預計將在編碼和多媒體內容生成方面實現重大改進。Google員工已開始在社交媒體上流露對發佈的興奮之情,這種現像在Google以往的模型發佈前並不多見。該模型在專業領域的測試結果顯示出突破性進展。加拿大勞瑞爾大學歷史學教授Mark Humphries通過Google AI Studio測試了疑似Gemini 3.0的未發佈模型,發現其在識別18世紀手寫文稿方面接近完美,字元錯誤率僅為0.56%,詞錯誤率為1.22%,相比前代Gemini 2.5 Pro提升50%-70%,達到專家級人類水平。對於自2022年底ChatGPT發佈後一度陷入"紅色警報"的Google而言,Gemini 3.0被視為重塑市場地位的關鍵一步,尤其是在OpenAI備受期待的ChatGPT-5發佈後未能立即產生重大影響的背景下。01 罕見的發佈前熱度Google此次大模型發佈前的氛圍與以往明顯不同。預測市場已開始押注Gemini 3.0將於下周發佈,Pichai在社交平台X上用一個"思考表情"回應相關討論,這一微妙舉動被廣泛解讀為對發佈時間的確認。Google員工在社交媒體上的活躍表現也不同尋常。眾多員工公開表達對新模型發佈的興奮情緒,這種集體性的預熱行為在Google以往的模型發佈中並不常見。不僅內部人員,許多提前瞭解模型能力的外部人士也在網上發表熱情洋溢的評價。據Business Insider報導,內部人士將該模型描述為"極其驚豔",預計將在編碼和多媒體內容生成領域帶來顯著提升,可能包括對Google熱門圖像工具NanoBanana的重大升級。02 專業測試顯示突破性能力Mark Humphries的測試為理解新模型的能力提供了具體案例。他使用自己的專業工作——分析18世紀手寫會計帳簿——作為基準測試。這項任務難度極高,不僅需要識別潦草字跡,還需要整合歷史背景、語言細微差別和邏輯推理。Humphries指出,解讀歷史手寫文字需要超越視覺識別的能力。"當你回到過去,就進入了一個不同的國度。人們說話方式不同,使用不熟悉的詞彙或以不熟悉的方式使用熟悉的詞彙。過去的人們使用不同的測量和會計系統、不同的措辭、標點、大寫和拼寫。"測試結果顯示,前代Gemini 2.5 Pro在這些複雜文件上的字元錯誤率約為4%,大致相當於專業人類轉錄員的水平。新模型將字元錯誤率降至0.56%,詞錯誤率降至1.22%,達到專家級人類表現標準。更值得注意的是模型展現出的推理能力。Humphries發現模型能夠自發進行逐步符號推理,例如在18世紀商人帳本中將"145"推斷為"14磅5盎司",這不僅是文字識別,而是對生成這些記錄的經濟和文化系統的理解。03 GoogleAI戰略的轉折點對於Google而言,Gemini 3.0的發佈具有戰略意義。自2022年底ChatGPT發佈以來,Google一度被認為在AI競賽中處於追趕狀態,甚至內部發佈了"紅色警報"。Business Insider援引內部人士稱,新模型可能讓Google有機會奪得領先地位,特別是在OpenAI的ChatGPT-5未能立即產生重大影響之後。該模型預計在編碼和多媒體內容生成方面實現重大改進。Google的圖像生成模型NanoBanana近期已獲得使用者好評,該名稱源於一位名為Nina的員工建立的預留位置名稱。據GoogleGemini App產品經理David Sharon在Made By Google播客中透露,Google將模型匿名提交到開放AI評估平台LM Arena進行公平測試時使用了這個名稱,結果在網路社群意外走紅,Google因此正式採用了這一名稱。最深遠的意義在於,如果新模型的能力得到系統驗證,AI可能正從複雜的"隨機鸚鵡"過渡為具有真正理解能力的系統。Humphries指出:“如果這種行為被證明是可靠和可複製的,它指向了一些深刻的東西:真正的推理可能不需要明確的規則或符號框架才能出現,而是可以從規模、多模態和接觸足夠的結構化複雜性中湧現。”對歷史學家而言,接近完美的手寫文字識別結合情境理解能力,將允許快速數位化和分析數百年來被困的知識,可能改寫對過去的理解。而對更廣泛的應用場景,能夠推理的AI可以開始自動化此前被認為是人類專家專屬領域的複雜認知任務。 (硬AI)
阿里Qwen3系列模型發佈,中美基礎大模型競爭強度加大
中美十家主要大模型公司平均每8.5天就會發佈一款新的基礎大模型,全球大模型賽程加快全球基礎大模型玩家主要在中國和美國,兩國核心玩家自今年初開始,在新一代大模型的發佈節奏上越來越密,一代比一代強——大模型的競爭中,卷模型這件事情依舊是確定的。4月29日凌晨4點,阿里發佈了Qwen3系列模型,這是阿里的大模型系列中最強的。它再次縮小和美國頭部基礎大模型之間的能力差。Qwen3在全球開發者社區GitHub發佈後四個小時獲得1.7萬個星標,刷新了開源大模型的熱度紀錄。Qwen3系列模型包含2個混合專家(MoE)模型和6個稠密(Dense)模型,覆蓋6億、17億、40億、80億、140億、320億、300億、2350億全尺寸參數規模。其中,Qwen3-235B-A22B是Qwen3系列模型中性能最強的,它僅次於全球性能最強的大模型——OpenAI旗下的o3。阿里Qwen3技術文件披露,它在基準測試中的得分,和DeepSeek-R1、OpenAI旗下的o1、o3-mini,Google的 Gemini-2.5-Pro等全球一流大模型不相上下。讓模型性能提升的有效方式包括,準備更多算力或更多資料。Qwen3沒有披露訓練過程使用的算力規模,但披露了使用的資料量。Qwen3技術文件披露,訓練使用的資料量相比上一代顯著增長。上一代Qwen2.5是在18兆個token(詞元,大模型推理算力單位,每個字元都是一個Token)上進行預訓練的,但Qwen3使用的資料量幾乎是其兩倍,達到了約36兆個token,甚至涵蓋了119種語言和方言。全球大模型行業在2024下半年一直存在一個共識——“Scaling Law”(規模定律,模型性能由算力、模型、資料規模決定)在放緩。簡單的堆砌算力已經無法讓模型性能得到大幅度提升。然而,沒有任何一家大公司因此放棄訓練基礎模型,它們仍在探索新的模型性能提升的方法。僅在今年1月至4月末,包括阿里、騰訊、字節跳動、百度、DeepSeek等中國主要的大模型公司,以及OpenAI、Anthropic(亞馬遜投資的AI創業公司)、xAI(特斯拉創始人馬斯克旗下的AI創業公司)、Google、Meta等美國主要的大模型公司均發佈了新款基礎大模型。2025年過去了119天,中國、美國參與模型競爭的10家主要大模型公司,發佈或更新了14款基礎大模型。平均每8.5天就會更新一款新的基礎大模型。大模型的軍備競賽,仍然在提速。大模型的軍備競賽強度加大2023年-2024年,全球大模型的性能提升幅度極大。2024年下半年開始有所放緩,但各家競爭強度依舊沒有降低,基礎模型能力的競爭仍然激烈。因為,模型能力始終是決定客戶規模的核心因素。一位科技公司演算法負責人今年1月曾對我們表示,大模型是長跑,模型每3個-6個月就會有一輪重大升級。長期迭代並保持性能領先很重要。一旦模型能力落後,就會被競爭對手搶走客戶。這也是為什麼,幾乎每一家大型科技公司,仍然在訓練自己下一代大模型。那怕需要萬卡、十萬卡,訓練也始終不會停止。中國大模型創業公司DeepSeek是加快賽程的鯰魚。DeepSeek在倒逼大廠重拾緊迫感。今年2月,一位中國科技公司大模型領頭人形容,“幾個大廠不緊不慢地賽跑。現在,賽道上突然橫插進一匹黑馬,但現在賽道上突然橫插進DeepSeek這匹黑馬,格局完全亂了。”他的團隊對DeepSeek-R1迅速參考借鑑後,在2月末上線了自研的推理大模型。他承認,這款模型是“趕鴨子上架”,整個訓練周期不到兩周,甚至沒有經過反覆測試就上線了。中國在這場模型競爭中,目前緊緊咬住了美國公司。國際市場調研機構Artificial Analysis今年1月末發佈的《人工智慧現狀:中國報告》顯示,美國大模型的性能依舊領先,但中國不落後,且差距在縮小。全世界最頂尖的21款模型,阿里的通義、DeepSeek等中國公司一共躋身六款,其中阿里有兩款。2025年大模型除了卷性能,另一個競爭方向是,降低算力成本。阿里雲通義大模型業務總經理徐棟4月9日對《財經》表示,2025年中國大模型的發展主脈絡之一仍是,提升精度並降低算力成本。這在工程化上有很多工作可以做。中國客戶最希望用到的模型,簡單說就是多、快、好、省。比如,阿里最新發佈的Qwen3家族模型,一共有八款。模型參數(可以理解成模型大小,參數越大往往性能越強、精度越高)覆蓋了6億、17億、40億、80億、140億、320億、300億、2350億等不同範圍。模型參數覆蓋廣,意味著可以適用於不同的業務之中,可以滿足多種需求。其中小尺寸模型可以在滿足基本需求的情況下節省算力成本,大尺寸模型則適合追求極限性能的使用者。Qwen3模型的部署成本大幅降低。其中Qwen3-235B-A22B這款旗艦模型參數雖然高達2350億,但由於採用了MoE(混合專家模型)架構,提問時它會把問題分派給不同的專家模型。因此,每次呼叫時只啟動220億參數。它所需要的算力也大幅減少。阿里方面稱,使用Qwen3-235B-A22B大致需要4張輝達H20 AI晶片。它消耗的算力僅為DeepSee-R1旗艦671B版本的25%-35%,模型部署成本可以降低60%。商業化是賽點為什麼一定要降低算力成本?邏輯很簡單。其一,2025年大模型的競爭焦點從訓練走向推理,低成本、高性能的模型變得更重要。其二,AI應用正在爆發,固化多年的網際網路應用格局可能會出現新的生機。對大廠來說,現在比兩年前大模型爆發初期的機會更多了,但競爭難度在變大。前兩年,它們只需準備萬卡算力、訓出千億參數的模型,然後看別人“卷”應用。現在,它們得買十萬卡的算力,訓又好又便宜的模型,還要自己下場在To B(面向企業級)、To C(面向消費者)兩個方向同時探索AI應用。不過正是由於模型性能不斷提升、成本不斷降低,它的商業模式正在逐漸跑通。某科技公司的一位戰略規劃人士透露,2024年中國各個模型廠商的模型呼叫收入普遍只有千萬元、數億元。這部分收入寥寥無幾。但模型呼叫帶來的算力消耗、公共雲四大件(計算、儲存、網路、資料庫)收入增長,反而更可觀。因此,阿里雲等廠商願意用免費開放原始碼的方式,刺激市場需求。國際市場調研機構IDC資料顯示,2024年12月中國大模型日均呼叫量9522億次,2024年6月這個資料只有963億次。也就是說,2024年6月-12月中國大模型日均呼叫量增長了近10倍。阿里、字節跳動等大廠的模型呼叫增長速度更快。《財經》瞭解到,阿里、字節跳動近一年日均Token呼叫量增長已經超過100倍。阿里方面預期,通義模型2025年模型呼叫增長量還將增長數十倍。這意味著阿里、字節跳動的這部分收入的規模將遠超2024年。某中國頭部科技公司的一位戰略規劃人士分析,以字節跳動旗下的豆包大模型為例,豆包日均token使用量12兆。如果模型呼叫價格不變,按照每百萬tokens平均定價0.8元計算,單月收入約為2.88億,全年收入有可能在30億元左右。不過這只是靜態、粗略的計算方式。因為隨著模型呼叫量數十倍增長,模型價格可能也還將以十倍的速度下降。另一家中國頭部科技公司的一位戰略規劃人士則認為,目前在雲端運算的賽場上,阿里和字節跳動競爭是最激烈的。字節跳動旗下雲服務火山引擎正在全力投入人工智慧,不惜用價格戰的方式爭奪阿里雲的市場份額。由於不計成本投入,火山引擎目前暫時尚在虧損。某雲端運算頭部公司的一位一線銷售人士今年1月曾對《財經》表示,火山引擎甚至用2折-3折的方式挖角阿里雲的客戶。《財經》獲得的一份資料顯示,火山引擎預計2025年營收將超過200億元,預計營收增速遠超60%。不過,阿里雲的優勢是,營收、利潤規模更大,目前有足夠厚的家底應對競爭,而且已經走上了正向循環。2024年阿里雲營收1135億元,同比增長7.3%;EBITA(阿里雲通常把EBITA利潤作為盈利指標,該口徑剔除了股權激勵、無形資產攤銷等非現金因素)利潤96億元,利潤率8.4%。阿里雲也是大模型的最大受益者之一。在大模型的帶動下,阿里雲2024年營收增速、利潤水平都在不斷回升。2024年四季度,阿里雲營收317.4億元,增速回升到兩位數,達到13.1%;EBITA利潤31.4億元,利潤率為9.9%,達到歷史最高水平。 (財經雜誌)