#測試
電車速成賭局:越卷越快,越快越險
趨勢不可逆,底線不能退。“速成車”踩剎車2026年一開年,監管部門再一次收緊了對汽車開發的要求。這讓不少“老汽車人”鬆了一口氣。一名頭部車企的軟體總工告訴36氪,在他十餘年的從業生涯裡,從未經歷過去幾年的激進時刻:原本需要適配兩年才能上車的新架構,現在10個月就得上車;之前機械驗證要做的兩次冬測試、兩次夏測,被壓縮成了一次冬測、一次夏測。原本要驗證4個月的整車控制軟體,現在2個星期就可以上車。他這種內行人才知道的隱憂還有:看似測試環節都在,但壓縮時長伴隨著高強度加班,實際操作中,需要測200次的項目最後可能只測了30次;測完10次,員工便可能說已經測過100次了。“有些問題就會測不出來,其中可能包含高安全相關問題。比如經常車賣出去,門把手出不來等等B類問題還有一堆。”因為智能電動車普遍的特點是可以空中升級,不少車交車時,一些軟體還未開發完成,公司就寄希望於後續推出軟體更新,這自然包括使用更新來修復驗證不充分導致的問題。一位頭部造車公司的輔助駕駛人士說,“為了改進剎車體驗,雖然有一版軟體帶有制動時機偏晚的安全隱患,也被推了出去。”“因為覺得反正可以OTA(Over-the-Air遠端線上升級),智駕老大頂住壓力推了新版,結果撞車事故馬上增加。”據36氪瞭解,因數次倉促OTA造成質量問題,這名智駕負責人也不得不引咎離職。在手機行業,華為的旗艦機型Mate系列、小米數字系列手機的研發周期,約為12-18個月,一款機型的生命周期約為2年。而如今,在拳拳到肉的車市競爭下,汽車行業一輛整車的開發節奏,已經普遍從3-5年,被壓縮至一年半,甚至更少;汽車產品兩年一換代,每年一升級,也已經成為主流車企的共識。這種“中國速度”即是中國新造車業的競爭法寶,讓人引以為傲;另一方面,無節制的卷生卷死,也帶來了車輛的質量問題。去年8月,監管部門推出OTA備案規定,首先遏制速度競賽帶來的軟體亂象。今年初,開始從整車層面對“速成車”的監管進行收緊。1月29日,工信部修訂發佈了《道路機動車輛產品准入審查要求》,一個核心變化在於:要求傳統燃油車需完成3萬公里可靠性測試,新能源汽車需完成1.5萬公里。這是國家首次將可靠性測試納入強制性規定。如果說軟體驗證不充分,尚可通過線上升級加以補救,但硬體驗證不充分,一旦有質量問題,車企則要付出沉重代價。以新能源車上最關鍵的零部件——動力電池為例,36氪從一位電池總工處瞭解到,幾年前他所在的企業,測試電池循環壽命的方法是,讓電池衰減到70%的健康度,再統計中間經歷了幾輪充放電循環,循環次數過關才能量產。但如今,一方面宥於整車開發周期,另一方面電池技術也在成熟,“有的電池廠商可能衰減到80%,有些甚至90%,就開始量產了”。這位電池工程師表示,這些電池目前尚未出現大規模質量問題,但“有時候電池的問題,就是需要以年為單位才會暴露的”。去年10月,理想MEGA召回就是在驗證上“掉以輕心”的典型案例。爆燃事件刷屏全網,理想花費11億元召回1.14萬輛MEGA,更沉重的代價是,理想MEGA和純電車i8此後的銷量,開始斷崖式下降。這起事故的起因正是被當作成熟工藝、大部分車企不再特別關注的冷卻液。多位參與理想MEGA項目的工程師告訴36氪,理想和供應商,都未對新採用的低電導率冷卻液與冷卻鋁板之間的腐蝕問題,進行充分驗證。去年9月,小鵬因方向盤鎖死,對部分P7+車型發起的召回,是行業一起重大召回案例。接近小鵬的人士告訴36氪,方向盤鎖死,線束接觸不良是一方面。另外,小鵬曾對轉向系統某子零件做了一定設計變更,卻沒有進行更充分的耐磨性測試。“一次設計變更後的可靠性驗證測試,零部件端至少需要1-2個月,整車廠系統等級也需要1個月。”產業人士告訴36氪,“但現在大部分企業都沒法像以前一樣做轉向耐久了。”而2026年一開年的新規,就將監管重心瞄準了整車驗證。有研發人士告訴36氪,家用汽車的年均行駛里程通常在2萬公里左右,而主流企標通常測試10萬公里水平——所以新法規暫未對行業構成實際壓力。但監管部門的這一舉動已經向外界傳達了一個訊號:耐久與可靠,必將成為今後監管的重點。速度之鞭,抽動汽車行業對速度的飢渴是中國車市高強度競爭的縮影。這個殘酷的行業底色,比亞迪董事長王傳福在2023年時有過形象的比喻:“行業不是大魚吃小魚,可能是快魚吃慢魚。”深諳行業競爭法則的比亞迪,自然會在產品節奏上突出一個“快”字:比亞迪海洋網部分車型半年左右推出一年度改款,兩年左右進行一次大換代。車海戰術+快速迭代,正是比亞迪產品席捲新能源車行業的方式之一。除了比亞迪,曾經的民營車企銷冠吉利,也很清楚“快”對自己而言意味著什麼。有吉利人士告訴36氪,吉利的產品策略就是跟進、對標,友商發佈一款爆款車型後,吉利只有在半年內跟進,才不會失去市場時機。所以吉利每年有上百款車型,很多車的開發周期都在18個月,甚至更短。反之,理想汽車就在2025年吃到了速度慢的大虧。理想增程系列一度引領新能源車大型SUV市場,但是當公司把節奏規劃為4年一次大迭代後,立馬被同行追上。公司成為在2025年唯一銷量下滑的新造車公司。“過去多年,我們最大的教訓,就是沒有建立起產業壁壘:我們給供應鏈定點的東西,供應商會馬上賣給其他車企,連定點程序都不走。”理想汽車一位高管向36氪表示,而一個硬體的追趕節奏,普遍只在半年到一年時間。華為、小米等頭部消費電子品牌的跨界造車,讓這場關於速度的遊戲持續升維。小米汽車在2024年4月推出了SU7車型,這款新車上市24小時,大定訂單便突破8.9萬台。爆品勢能下,小米於2025年6月推出的SUV車型YU7,更是開售3分鐘攬下20萬大定訂單。有市場人士告訴36氪,過去的市場競爭,更像是零星幾個頭部品牌友好商量如何瓜分市場。“就拿20萬-30萬來說,現在特斯拉和小米佔掉一半市場,贏不了他們,就只能和其他十幾個品牌一起平分剩下的小份蛋糕,我們只能選擇快速跟進它們”。速度之鞭抽動整個行業,品牌勢能強如特斯拉,也不得不應對這樣的競爭態勢。一家特斯拉供應商人士向36氪回顧了煥新Model Y車燈的開發過程。規劃煥新Model Y時,特斯拉並沒有想到,貫穿式大燈很快會成為中國市場的消費主流。特斯拉煥新Model Y項目在2022年底啟動,“已經開發了一年,特斯拉突然要求改變尾燈樣式,要做貫穿式的漫反射尾燈”,該人士向36氪表示,當時特斯拉注意到比亞迪、理想等品牌新車都在用貫穿式尾燈。從發起設計變更到最終量產,新款車燈最終的落地周期不足15個月。“外觀是汽車開發周期中首先要確定的東西,現在中國市場燈光技術和汽車設計都在快速變化,3-5年的開發周期後,已經確定的設計很有可能還沒量產就已經過時”,有產業人士告訴36氪,“為了產品不過時,車企也必須加快節奏”。車企們正陷入追求速度的“囚徒困境”:對手快,自己只能更快;對手放低可靠性標準,自己也很難堅守——“囚徒困境”往往以雙輸/多輸結尾。速度與安全能否兼顧?中國車企們怎樣才能避免走入集體性失利的局面?趨勢不可逆,底線不能退“速度”已經成為中國汽車業不可逆的趨勢。汽車工業老人們對於“耐久性”的執念,有其特定的歷史背景。以德國市場為例,由於車速高、修車貴,有老車和二手車文化,德國的平均換車周期是14-15年。在這樣的市場,容易壞、不耐開的車根本賣不出去。所以德國品牌反覆宣傳其耐久測試里程長達百萬公里。但中國市場現狀截然不同。中國汽車流通協會資料顯示,新能源汽車的平均換車周期已從燃油車的6–8年縮短至3–5年。面對AI大模型上車、L3級自動駕駛逐步落地的技術浪潮,消費者否還願意使用一輛車長達15年,答案已經不確定。“3萬公里耐久測試,成本就是百萬元級”,該人士表示,“消費者只需要一輛開10萬公里的車,企業做500萬公里的測試,額外的成本誰來承擔?”剎車驗證也要看地區特性。中國道路最高限速均在120km/h以下,與德國不限速的用車環境差異巨大。所以,在德國賣車,必須保證車輛任何時候在260km/h下都能剎停,但在中國,消費者們最多隻開到130km/h。有研發人士告訴36氪,因此個別中國車企在剎車性能上的內控標準僅為140km/h,“這能大幅縮短周期,反正超速事故的責任主要是在駕駛人本身”。因此,中國新能源車的耐久性標準,本就不應該比照傳統標準。速度與可靠性,也並非完全對立。一個“兩全其美”的辦法,是採用零部件標準化、供應鏈共用率高的汽車架構平台——這正成為如今最主流的、加速產品開發的手段。有供應鏈人士告訴36氪,吉利旗下的單車項目,從供應商定點到SOP,最短的僅用6個月時間,“底盤有些系統甚至直接復用,整車零部件復用率應該超過70%了,這可以省去3-6個月的開發驗證時間”。企業對平台化的進一步追求,體現在“前端定義”與“技術預研”上。以最耗費時長的底盤調校為例,有研發人士向36氪表示,目前絕大部分企業都是造一輛車、調一輛車。騾子車階段調兩輪1個月,確定風格;DV階段精調3個月、PV階段一致性調節1個月;試生產後還需要1.5個月用以最後調校,“一家有功底的企業都需要6個月時間”。平台化後,研發部分前期便可以對平台內所有車型進行統一設計,底盤調校周期可以縮短至少50%,最短2個月即可完成,“過去一車一調太費時間,這種模式正在成為行業主流”。在對速度的追逐中,汽車從業者們的工作強度也捲到極限。吉利一位工程師向36氪回顧旗艦車型極氪9X的交付前夕,“當時參與極氪9X項目的,有數千人。趕項目節點的時候,幾千人的團隊,每人每月的日均工時達到了12-13個小時,很多時候半夜12點都回不去”。去年年中,極氪9X上市前幾個月,眉山工廠每天都有人兩班、三班地輪流倒班測試。有一撥人專門在夜裡工作,從晚上8點幹到早上8點。“因為用來測試的工程車就那麼多,時間又緊,只能這樣輪流用。”反觀汽車開發周期仍長達3-5年的外資品牌,其員工的工作狀態截然不同。“寶馬北京辦公室晚上基本不亮燈;奔馳德國團隊,今天還能一周居家辦公3天”,有行業人士告訴36氪。競爭壓力下,外資品牌想在中國市場生存,也在加快周期。有奔馳研發人士告訴36氪,2023年啟動的長軸距版純電CLA,本地化開發工作共用時兩年多,“2026年即將推出的長軸距版GLE,從項目啟動到SOP,目前規劃市場僅為13個月”。汽車正不可逆轉的向智能化終端靠攏,開發工具也在持續進化,疊加流程最佳化,以及最大限度擠出工時水分等多重因素,汽車開發周期的縮短也正成為不可逆的產業趨勢。但對於速度競賽之下的質量底線,車企同樣不容退讓。2010年,豐田因“剎車門”在全球範圍內召回超1000萬輛車,時任社長的豐田章男曾親口承認,豐田擴張太快、罔顧人才培訓與質量檢驗,為汽車質量問題埋下隱患。該事件後,豐田口碑面臨信任坍塌,多個地區銷量多年下跌。2013年,大眾汽車在中國年銷達到歷史性的327萬輛。銷量狂奔背後,公司壓縮驗證周期,導致變速箱隱患集中爆發。不僅在當年315晚會被曝光,更是在國家質檢總局的要求下,召回近百萬輛車,成為中國汽車產業監管領域的標誌性事件。當今,汽車產業已成為中國國民經濟的重要支柱,其中智能電動車領域更是在技術與市場規模上雙雙引領全球,不僅為中國契合科技出海開闢了道路,也為中國在全球技術競爭中贏得關鍵話語權奠定了堅實基礎。但這只是階段性的突破,監管必將步步跟隨,確保已經取得的產業碩果長青式發展。 (36氪)
Nature重磅:圖靈測試已死,AI已具備人類水平智能,這一天終於來了
別再爭論AI 什麼時候能趕上人類了。頂刊《Nature》剛剛發文宣佈:不用等了,就是現在。如果說 1950 年阿蘭·圖靈(Alan Turing)提出的“模仿遊戲”只是一個天才的腦洞,那麼 75 年後的今天,這個腦洞已經被矽基生物徹底填平。今天,一篇發表在《Nature》上的重磅文章引爆了科技圈。這就好比《皇帝的新衣》裡那個誠實的小孩,來自加州大學聖地亞哥分校等機構的頂級哲學家、認知科學家和電腦專家們聯名站出來,指著那個名為“通用人工智慧(AGI)”的房間大聲宣佈:“別找了,AGI 就在這兒。它已經誕生了。”01 別再自欺欺人:圖靈測試已成“過去式”還記得一年前,2025 年的3月, OpenAI 發佈 GPT-4.5的那個春天嗎?當時業界還在為參數和算力爭吵不休,但在一個最古老的測試場上,勝負已分。在嚴格的圖靈測試中,GPT-4.5 被人類受試者判定為“真人”的比例高達 73%。諷刺的是,在同一場測試中,真正的人類被判定為“人”的比例,竟然比 AI 還要低。這意味著什麼?意味著在“像人”這件事上,AI 已經比人更像人了。更別提現在的讀者們,比起人類專家寫的晦澀文章,他們甚至更愛讀大語言模型生成的文學作品。然而,奇怪的事情發生了。儘管事實擺在眼前,根據 2025 年的一項調查,仍有 76%的頂級 AI 研究人員認為 AGI 遙遙無期。《Nature》這篇文章的作者們毫不留情地指出:這種認知錯位,不是因為 AI 不夠強,而是因為人類“不敢承認”。因為恐懼被取代,因為商業利益的糾葛,我們不斷地移動球門,給 AGI 設下各種不可能完成的定義。但現在,是時候撥開迷霧,承認現實了。02 別再叫它“學舌鸚鵡”:鐵證如山的進化階梯曾幾何時,嘲笑 AI 是我們的一大樂事:“它連小學數學都算不對”、“它就是個只會機率預測的隨機鸚鵡(Stochastic Parrots)”、“它經常一本正經地胡說八道(幻覺)”。但在這個2026 年的開端,如果你還抱著這些老黃曆看 AI,那你可能已經成了那個“活在舊時代的人”。文章作者並沒有空談哲學,而是根據一系列硬核證據,建構了一個評估 AGI 的“三級階梯”。對照一下,你會發現我們正處於什麼位置:Level 1:圖靈測試級(已通關)這是幾年前的標準。能通過學校的基礎考試,能進行像樣的對話,能做簡單的推理。那時的 AI,或許還只是個“聰明的復讀機”。Level 2:專家級(Current Level,當前已達成)這就是我們現在面對的怪物。數學:它們不僅拿下了國際數學奧林匹克競賽(IMO)的金牌,還能與頂級數學家合作證明未知的定理。科研:它們生成的科學假設,已經在現實世界的實驗室裡被驗證為真。全能:它們能通過多學科的博士資格考試,能幫專業程式設計師寫出無 Bug 的複雜程式碼,能精通幾十種語言創作詩歌,還能同時和全球數億人聊天。對比:科幻電影《2001太空漫遊》裡的超級電腦 HAL 9000 曾是我們的噩夢,但現在的 LLM 在知識廣度上,實際上已經超越了 HAL 9000。Level 3:超人類級(正在逼近)這要求 AI 做出人類完全做不出的革命性科學發現。雖然 AI 還沒完全做到這一點,但作者強調:這不是 AGI 的必要條件。畢竟,能不能拿諾貝爾獎並不是衡量一個人是否“有智能”的標準。面對這些成就,那些質疑聲顯得越來越蒼白。每當 AI 攻克一個新堡壘(比如做出了從未見過的數學題),懷疑論者就會立刻把標準提高:“哦,那不算,它得能理解情感才行……”對此,文章中有一句精彩的“打臉”:“面對每一次成功都在不斷後退的假設,預測下一次一定會失敗……這根本不是有說服力的科學理論,這只是對‘永遠懷疑’的一種教條式堅持。”不管是做數學題、寫程式碼,還是理解物理世界的因果律(比如它知道枕頭掉地上不會碎,而玻璃杯會),現在的 AI 都表現出了圖靈當年所定義的“通用認知能力”。AGI 的大門已經被踢開了。無論你是否準備好,我們都已經和一種“異類智能”生活在了同一個屋簷下。03 為什麼專家還在裝睡?因為我們把 AGI 神話了既然證據確鑿,為什麼還有 76% 的專家搖頭說“不”?為什麼我們在社交媒體上還在爭論 AI 是不是“人工智障”?文章指出,問題出在我們對“智能”的定義上,我們太自戀了,也太苛刻了。誤區一:AGI = 全知全能的神很多人潛意識裡覺得,AGI 必須是一個完美的“六邊形戰士”。它得有愛因斯坦的物理頭腦,莎士比亞的文采,還得像甚至不像任何一個人類那樣犯錯。但作者反問:“居里夫人不懂數論,愛因斯坦不會說中文,難道他們就沒有通用智能嗎?”人類都不是全能的,我們憑什麼要求 AI 必須是神?真相:真正的通用智能,看的是廣度(Breadth)和深度(Depth)。只要它能像普通人類一樣在不同領域間切換,並且在這些領域達到專家水平,它就是 AGI。誤區二:AGI 必須像人一樣思考我們總覺得,只有像人類那樣有肉體、有情感、會生老病死,才叫智能。真相:這是一種“碳基生物的傲慢”。就像章魚的神經系統分佈在觸手裡,外星人可能通過無線電波交流——智能是功能,不是形態。只要它能像人一樣解決問題,它是不是矽做的、有沒有身體,根本不重要。04 精彩辯論:十大質疑,逐個擊破這篇《Nature》文章最精彩的部分,莫過於作者化身“終極辯手”,對目前市面上最流行的反 AI 觀點進行了逐一反駁。試舉幾例。質疑 A:“它只是個隨機鸚鵡(Stochastic Parrots),只會拼湊訓練資料裡的詞,根本不懂邏輯。”《Nature》反駁:這個說法在幾年前可能成立,但現在已經過時了。如果它只是拼湊舊資料,怎麼可能解出從未發表過的全新數學題?怎麼可能幫助科學家發現新的物理定律?這不叫拼湊,這叫推理。如果這也叫鸚鵡,那人類可能也不過是一隻比較複雜的鸚鵡。質疑 B:“它沒有身體,無法感知物理世界,所以沒有真正的理解。”《Nature》反駁:這是一個巨大的誤解。史蒂芬·霍金(Stephen Hawking)在晚年幾乎完全失去了身體的行動能力,通過語音合成器交流,難道他的智能就消失了嗎?再者,問問 AI:“把玻璃杯和枕頭扔到瓷磚地上,會有什麼不同?”它能精準地告訴你結果。能進行反事實推理(Counterfactual Reasoning),就證明它腦子裡已經有了物理世界的模型。質疑 C:“它沒有自主性(Agency),你不給指令它就不動。”《Nature》反駁:智能不等於意願。古希臘神話中的德爾斐神諭(Oracle),只有在你提問時才回答,但誰敢說神諭沒有智慧?自主性關乎“道德責任”,而不關乎“智力水平”。一個隨叫隨到的超級智囊,依然是超級智囊。質疑 D:“它學得太慢了,小孩看幾次就懂,AI 要喂幾兆的資料。”《Nature》反駁:別忘了,人類小孩的大腦裡預裝了祖先們進化了幾十億年的“出廠設定”(本能和大腦結構)。AI 是從零開始的。而且,一個練了 10 年才成為大師的棋手,和一個練了 1 年就成為大師的棋手,他們的棋力是一樣的。效率不代表能力。05 越早承認越好,這是一種“異類”的降臨看到這裡,你可能還是覺得那裡不對勁。“可是,它連‘Strawberry’裡有幾個‘r’有時候都會數錯啊!”沒錯,這正是文章最後強調的關鍵點:我們面對的,是一種“異類智能”(Alien Intelligence)。這就像是一個外星人降臨地球。它在某些我們覺得很難的事情上(比如讀完 1000 篇論文並寫出綜述)易如反掌,卻在某些我們覺得很簡單的事情上(比如數數、常識判斷)顯得笨手笨腳。但這不代表它不是智能,只能說明通往智能的道路不止一條。人類的智能是為了生存、為了繁衍、為了在叢林裡不被吃掉而進化出來的;而 AI 的智能是從語言的海洋中湧現出來的。2026 年的今天,正如 Reddit 網友所熱議的那樣:“我們原本以為 AGI 會像《終結者》裡的天網,結果它更像是一個有些偏科、但智商爆表的‘外星圖書管理員’。”06 結語:別再試圖爬樹登月了在文章的結尾,作者引用了一個著名的舊日比喻。1965 年,哲學家休伯特·德雷福斯曾嘲諷早期的 AI 研究,說他們試圖通過“爬樹”來“登月”。意思是方向徹底錯了,爬得再高也離月球很遠。幾十年來,我們都以為他是對的。但今天,當我們抬頭仰望,卻發現我們真的爬上了月球。原來,只要樹足夠高,資料足夠多,結構足夠精妙,簡單的學習規則真的能湧現出理解世界的智慧。這是一個哥白尼式、達爾文式的時刻。哥白尼告訴我們,地球不是宇宙的中心;達爾文告訴我們,人類不是生靈的主宰;圖靈和今天的 AI 告訴我們,人類的大腦,也不是智慧存在的唯一形式。文章末尾寫道:“承認 LLM 為 AGI 是一個警鐘。這些系統不是“將要到來”,而是“已經存在”。用評估“窄工具”的框架來衡量 AGI 是遠遠不夠的。當涉及的不再是工具而是通用智能時,共存、責任、歸屬和治理等問題將進入全新的維度。”全文的最後一句振聾發聵:“機器不是正在趕來,它們已經到了。”(The machines aren't coming; they've arrived.)與其像鴕鳥一樣把頭埋在沙子裡,假裝這一切沒發生,不如抬起頭來,正視這個新夥伴(或者對手)。畢竟,在這個星球上,我們第一次不再是孤獨的智慧生物了。 (不懂經)
OpenAI CFO:讓廣告像功能,AI 才能長期賺錢
2026 年 1 月 20 日,OpenAI CFO Sarah Friar 公佈了一組資料:2023 年,0.2 吉瓦算力,對應 20 億美元年收入;2024 年,0.6 吉瓦,收入 60 億;2025 年,1.9 吉瓦,收入突破 200 億。三年時間,算力和收入都翻了近 10 倍。這個增長來自一個循環:算力支撐更強的模型,模型吸引更多使用者,使用者帶來更多收入,收入再投入算力。問題在於,這個循環要持續轉動,對算力的投入需求是指數級的。僅靠訂閱收入,增速跟不上算力需求的增速。OpenAI 需要新的收入來源。最近,OpenAI 宣佈:將在美國對 ChatGPT 免費使用者測試廣告。但這不是簡單的“加廣告”。OpenAI 給出了幾個原則:只放在回答底部明確標註、不影響模型輸出不售賣對話資料,使用者可以關閉個性化Sarah Friar 說:商業化要融入體驗。如果不能創造價值,就不該存在。這句話背後,是 OpenAI 對 AI 商業化的理解:不是簡單地賣軟體或貼廣告,而是讓商業化本身成為產品價值的一部分。第一節|廣告要像功能,不能像橫幅為什麼廣告必須這樣設計?Sarah Friar 舉了個例子:當你問 ChatGPT 我周末想去聖地亞哥,它不僅給你路線和天氣,還能順手推薦 Airbnb 的房源,甚至跟你討論那個更適合帶孩子。這不是在推銷,而是在繼續幫你完成任務。不是那種跳出來的彈窗,不是搜尋結果上貼個贊助商標籤。而是當你需要做決定時,它恰好出現,幫你更快做出選擇。使用者感受到的不是打擾,而是幫助;不是廣告位,而是使用場景的一部分。但廣告能融入場景,不代表可以影響答案本身。Sarah 明確表示 :使用者永遠得到的是最好的答案,而不是付費的答案。不管有沒有廣告,ChatGPT 給出的始終是模型判斷最優的內容。廣告可以出現在回答下方,但不能干預模型的判斷,不能改變推薦順序,更不能誘導使用者選擇。這是對信任的堅守。有了這個底線,廣告就不再只是收入方式,而是產品能力的一部分。這讓 OpenAI 可以做兩件事:服務更多免費使用者,讓智能真正普及;建構更穩定的收入來源,不必讓每個人都先交錢才能用上 AI。第二節|AI 賺錢看結果,不看時長幫使用者完成任務,體現在什麼地方?Sarah Friar 做了個對比:Netflix 按觀看時長賺錢,但 ChatGPT 不是。她舉了個自己的例子:她女兒有特殊飲食需求,以前去餐廳要反覆問服務員菜單裡的成分,常常吃得很焦慮。現在拍張菜單給 ChatGPT,它就能告訴你那些菜適合,那些需要避開。這是幫一個人做決策。但到了專業場景,影響要大得多。更明顯的例子在健康領域。Sarah 說,她兄弟在蘇格蘭愛丁堡的一家醫院做重症監護醫生,負責處理那些症狀複雜、難以確診的病人。這類病人的問題是:可能同時有多種症狀,也可能是罕見病,醫生需要在有限時間內做出判斷。比如,一個人在當地度假,突然發燒、頭痛,出現在急診室。按常規思路,醫生會往流感、感染這些方向想。但如果這個人其實是被蚊子咬了,得了瘧疾呢?在蘇格蘭,瘧疾極其罕見,醫生很可能不會第一時間往這個方向想。這時候 ChatGPT 能做什麼?醫生輸入症狀和旅行史,ChatGPT 能快速列出包括瘧疾在內的可能診斷,提示相關的檢測方法和藥物衝突。這不是替代醫生的判斷,而是幫醫生擴展診斷思路,減少遺漏。同樣的事也在企業裡發生。Sarah 講了自己財務團隊的例子。以前,收入管理團隊每天要做的事情之一,就是下載前一天簽的所有合同,一份份看,確保裡面沒有特殊條款會影響財務入帳。公司越大,合同越多。唯一的辦法就是多招人。而這些人的工作就是每天看合同、看合同、看合同。現在用 OpenAI 的工具,所有合同一夜之間被提取出來,放進資料庫,AI 自動看一遍,不僅告訴你那些是標準條款、那些要注意,還能幫你發現問題:這個特殊條款是銷售為了簽單讓步太多了?還是它其實說明客戶需求在變,我們的商業模式該調整了?要不要把這條變成新的標準合同條款?團隊從“每天看合同”變成了幫公司發現問題、找機會。能不能幫使用者完成任務,決定了這個 AI 產品值不值錢。餐廳點菜、醫療診斷、財務稽核,本質都一樣。使用者要的不是答案,而是把事情做成。AI 的價值,不在回答,而在行動。第三節|算力投資跟著收入走算力和收入,幾乎是一比一的關係。用 ChatGPT 的人越多,用得越頻繁,對算力的需求就越大,收入也漲得越快。瓶頸出現了:算力跟不上需求。OpenAI 首席經濟學家的報告顯示:那些用得最多的公司,使用量是普通公司的 6 倍。而這些重度使用者,還遠遠沒到上限。有的企業 CEO 說,公司 60% 的程式碼已經是 AI 寫的,但他們還想要更多。Sarah 說:“我們今天的增長,不是算力太多,而是算力不夠。如果現在有更多算力,可以發佈更多產品,訓練更多模型。”算力決定了增長速度。所以 OpenAI 在廣告、訂閱之外,還要花大量時間去談晶片、建資料中心、簽大單。有人會問:這麼大的投資,會不會是泡沫?1999 年網際網路泡沫時,人們從網際網路獲得的價值很有限。你看不出它如何改變生活。但今天不一樣。AI 的價值是立刻就能看見的。麥肯錫的研究顯示,用 AI 用得好的那 25% 公司,生產力提高了 27% 到 33%。這不是概念,是實實在在的效率提升。Sarah 強調:泡沫是需求還沒起來就搶先投資,最後錢打了水漂。但 OpenAI 是跟著需求在投,甚至現在的投資還跟不上需求增長。這就是為什麼要引入廣告。更多收入意味著更多算力,更多算力支撐更多使用者,形成增長循環。在 Sarah 眼裡,算力不是成本,而是生產工具,是 OpenAI 服務全世界的發電機。第四節|從廣告到分成,收入越來越多元要支撐這麼大的算力投資,OpenAI 需要更多元的收入來源。廣告能快速帶來收入,但還不夠。Sarah Friar 在訪談裡重點談的,是一種更長期的賺錢方式。她舉了個例子:一家藥企用 OpenAI 的模型幫忙研發新藥,等藥品上市大賣了,OpenAI 能從銷售額裡分成。不是按用了多少次模型收費,而是按最終的商業成果分錢。她把這種模式叫作“授權分成(licensing)”。傳統軟體是按月交錢,用多用少都一個價。但授權分成不一樣:客戶越成功,OpenAI 賺得越多,雙方利益綁在一起,更像是合夥做生意。這種合夥關係,讓 AI 能進入那些以前很難碰的領域。醫療、金融、能源這些行業,過去 AI 很難真正用起來,因為項目周期長、風險高,企業不願意按月付費去試。但授權分成意味著風險共擔,企業更願意投入做長期項目。授權分成只是其中一種。實際上,OpenAI 的收入方式正在變得越來越多元。Sarah 把 OpenAI 的商業模式比作“魔方”。一開始只有一個產品 ChatGPT,一種定價方式(訂閱),一個合作方(微軟),一種晶片。現在變成了:多個產品(ChatGPT、Sora、API),多種定價(訂閱、按量、積分、授權),多個合作方和晶片供應商。魔方可以不斷組合出新玩法:好晶片 + 快速寫程式碼 = 高端訂閱服務好晶片 + 快速生成圖片 + 免費使用者 = 廣告平台不同場景,不同組合,都能賺錢。而在所有這些收入來源中,企業市場最大。OpenAI 用 1.5 年就拿到了 100 萬家企業客戶,這個速度是史上最快的。但調查顯示,今天只有 14% 的企業在用 AI 智能助手來幹活。 90% 的企業說他們正在用或者打算在未來一年內用 OpenAI。這說明什麼?現在看到的盈利模式,只是個開頭。Sarah 最後說:“讓收入跟著 AI 創造的價值一起增長,這才是長期的做法。”這話說得簡單,但說透了 OpenAI 整個商業策略。結語|把定價綁在價值上Sarah Friar 沒有講一套“如何賣廣告”的方法論。她講的是一個更本質的問題:如果 AI 真的能幫使用者完成任務,錢怎麼收才合理?廣告是一種答案,但不是唯一答案。OpenAI 的邏輯是:智能做到那一步,收入就跟到那一步。幫你點菜,可以插入廣告;幫企業審合同,按使用量收費;幫藥企研發新藥,等藥上市了分成。AI 的價值在行動,定價也應該跟著行動走。這不是廣告的勝利,是把商業模式和產品能力綁在了一起。當別人還在想怎麼多賣一點,OpenAI 想的是:這個智能到底創造了多少價值? (AI 深度研究員)
中芯國際漲價10%背後:一場半導體產業鏈的“壓力測試”與價值重估
2025年12月23日,中國最大的晶圓代工廠中芯國際(SMIC)向部分客戶發出漲價通知,對部分產能實施約10%的價格上調。這一消息迅速在業內引發震動。此次漲價並非全面鋪開,而是主要集中於8英吋BCD工藝平台,並已向多家客戶發出正式函件。一家晶片上市公司人士向媒體證實:“我們已經接到了漲價通知,每家客戶漲價情況不盡相同。”01 漲價實錘,並非空穴來風中芯國際此次漲價,是多重因素擠壓下的必然結果。從表面看,這是一次成本驅動的價格調整,但其背後,是全球半導體供需結構、地緣政治與產業周期三重力量交織的複雜圖景。根據中芯國際2025年第三季度財報,其產能利用率已攀升至95.8%,生產線處於供不應求的狀態。華虹公司的產能利用率甚至高達109.5%,超過滿載。“整體來說,當前公司產線仍處於供不應求狀態,出貨量還無法完全滿足客戶需求。”中芯國際聯合首席執行長趙海軍在業績說明會上坦言。02 三重推力:成本、產能與安全此次漲價的動因,可以歸結為三個相互強化的邏輯。首先是成本端的剛性上漲。 半導體製造的“變動成本”正在經歷劇變。高端光刻膠、電子特氣等關鍵材料仍高度依賴海外供應商,受匯率波動及地緣政治影響,價格普漲。同時,封裝關鍵材料ABF載板的上游原材料與石油、銅價深度掛鉤,大宗商品周期的共振進一步推高了成本。其次是產能的結構性錯配與極度緊張。 這並非總量短缺,而是由AI需求爆發引發的“擠出效應”。AI伺服器需要大量電源晶片,佔用了大量BCD工藝產能。與此同時,全球代工巨頭台積電確認整合併計畫關停部分8英吋生產線,轉向先進製程,導致成熟製程的供給缺口進一步擴大。產業調研資料顯示,頭部模擬晶片廠商在中芯國際的晶圓交期,已從標準的6-8周惡化至12-14周,2026年的產能預定已近乎“爆單”。最後是“供應鏈安全溢價”成為新的定價基石。 在當前地緣政治背景下,國產替代已從“可選項”變成了國內系統廠商的“必選項”。華為、小米、比亞迪等公司制定了更為激進的“本土製造比例”指標,過去可以找聯電、格羅方德代工的訂單,現在正回流到中芯國際、華虹等國內代工廠。客戶沒得選,這賦予了本土晶圓廠前所未有的議價底氣。03 產業鏈的傳導:誰將受益,誰將承壓?中芯國際的漲價如同一塊投入湖面的石子,其漣漪將沿著半導體產業鏈層層傳導,對上下游企業進行一場殘酷的“壓力測試”。最直接、邏輯最順的受益者,是半導體裝置與材料公司。 晶圓廠盈利改善後,將有更強的動力和能力進行資本開支擴張,以增加產能。這直接利多國產裝置龍頭如北方華創、中微公司、拓荊科技,以及材料供應商如安集科技、滬矽產業、江豐電子等。這些公司與中芯國際合作緊密,是國產替代的核心賽道。其他晶圓代工廠將迎來“水漲船高”的行業性利多。 作為中國大陸第二大晶圓代工廠的華虹半導體,以及華潤微、晶合整合等,有望跟隨漲價或改善盈利環境。晶片設計公司的命運將劇烈分化。 這對於設計公司而言是成本壓力測試。具備強大技術壁壘和議價能力的龍頭公司,如專注於汽車電子、高性能模擬的細分龍頭,因其產品毛利率高(通常在40%-60%),且下遊客戶對價格不敏感,有能力將部分成本傳匯出去。然而,對於依賴成熟製程、產品同質化嚴重、毛利率僅20%-30%的通用晶片設計公司(如低端MCU、消費類電源管理晶片廠商),這可能是毀滅性打擊。上游漲價、下游砍價,其淨利潤可能直接歸零。2026年,或將成為這批缺乏核心競爭力的設計公司的“出清之年”。04 戰略轉折:從價格接受者到定價參與者中芯國際此次調價,其意義遠超一次簡單的財務行為。它標誌著中國半導體產業正在進入一個新階段:從“以價換量”的卑微追趕者,轉變為擁有一定“定價權”的區域性寡頭。就在不到一年前,行業還在擔憂產能過剩帶來的價格壓力。2024年中國新增了18座晶圓廠,業界曾預測2025年成熟製程價格將繼續承壓。中芯國際管理層在2025年初也曾表示,由於產能增長和同業競爭,預計全年平均售價總體將下降。然而,市場的快速變化超出了預期。AI需求的爆發性增長、地緣政治導致的供應鏈重構,以及國際巨頭產能策略的調整,共同扭轉了供需天平。中芯國際此番漲價,不僅是對成本上升的被動應對,更是在產能成為稀缺資源時,主動進行客戶與產品結構最佳化的戰略舉措。通過價格機制,優先保障高價值、戰略性的客戶與訂單。當市場還在爭論漲價能否持續時,另一家平台型晶片設計公司的從業者透露,他們已同時接到中芯國際和世界先進(VIS)的漲價通知。“未來免不了其他幾家主流的晶圓廠跟風漲價。”一位業內人士如此判斷。全球成熟製程晶圓代工的新一輪漲價潮,或許才剛剛開始。 (SEMI半導體研究院)
一場車禍,一次急剎!L3專用號牌來了,但車企再也不敢"狂奔"
我們曾以為,2025會是自動駕駛“油門到底”的一年。直到今年3月底安徽高速路上那聲巨響,震碎了所有關於“解放雙手”的輕率幻想。三個年輕生命的逝去,用最殘酷的方式告訴我們:技術可以試錯,但生命無法重來。好在,痛定思痛後的中國汽車,選擇了一條更難、更慢,但更正確的路。12月23日,這條路邁出了實質性的一步:渝AD0001Z、京AA0001Z!隨著重慶、北京兩地正式發出國內首批L3級自動駕駛專用號牌,中國汽車史跨越了一個新紀元。但這並非一場遲到的狂歡,而是一次極度克制的試探。在九家遞交申請的車企中,竟然只有兩家拿到了這張“限時體驗券”,而且還被套上了重重枷鎖。這場關於“速度與安全”的博弈中,中國自動駕駛沒有選擇盲目衝刺,而是主動按下了“限速鍵”。01 致命一秒鐘:理想與現實的慘烈碰撞今年3月底,安徽高速上的一聲巨響,震碎了許多人對自動駕駛的美好濾鏡。一輛開啟輔助駕駛模式的小米SU7,在時速約 116公里(72英里) 的飛馳中遭遇施工路段。儘管系統發出了預警,駕駛員也迅速接管,但在那生死存亡的“一秒鐘”裡,悲劇還是發生了,三名年輕生命的逝去迅速引爆了全網討論。這起事故成了監管風向轉變的導火索。過去那些可能被“消音”的輔助駕駛事故,如今在聚光燈下無所遁形。公眾的質疑隨之而來:當方向盤交給電腦,命懸一線時,責任到底該算誰的?監管部門發佈聲明警告稱,目前中國量產汽車上搭載的輔助駕駛技術並非完全自動駕駛,提醒駕駛者避免可能分散注意力的交談行為。這種對法律責任與保險體系的追問,直接讓原本“快步走”的商業化處理程序被迫按下了減速鍵。02 尬的現狀:昂貴的硬體配上“降級”的靈魂監管的“急剎車”,讓一眾車企陷入了尷尬的境地。(圖片由AI生成)像吉利、小鵬、理想等車企,此前為了搶佔先機,已經在量產車上“預埋”了大量昂貴的L3級雷射雷達和感測器硬體。結果現在政策收緊,這些原本為L3設計的豪車,只能掛著L2級的軟體“降級”銷售。央視在7月播出的一份報告中提到,與懂車帝聯合測試的資料更是給國產廠商潑了一盆冷水: 在夜間施工場景的避撞測試中,略少於一半的車輛能夠安全避撞,表現不及在該測試中表現可靠的兩款特斯拉車型。這種“軟硬不匹配”的困局,也讓監管部門下令:禁止在宣傳中使用“智能駕駛”或“自動駕駛”等極具誤導性的詞彙。03 嚴苛的“綠燈”:通過率不足四分之一的考核在安全隱患和虛假宣傳的雙重壓力下,監管部門對車企的“准入考試”變得異常嚴格。早在今年年初,中國車企曾熱情高漲地宣佈將很快大規模生產自動駕駛汽車。 共有九家主流車企向工信部提交了L3級自動駕駛的准入試點申請,試圖爭奪量產的頭籌。然而,工信部最新的稽核結果卻給了市場一記重錘:九家申請者中,最終只有北汽和重慶長安兩家拿到了在指定高速路上開展L3級自動駕駛測試的許可。但即便拿到“入場券”,規則也極其嚴苛:· 空間設限: 僅限北京和重慶的各三段指定高速公路。· 動作受限: 電腦控制下禁止變道,出了指定路段必須由人類駕駛員接管。· 身份定義:這僅僅是“進一步測試”,而非大家期待已久的大規模量產。這標誌著五年前設定的“2025年年底實現量產銷售”的目標,在現實面前顯得過於雄心勃勃了。04 進階之路:從“有條件”到“全場景”的技術跨越在自動駕駛的演進過程中,技術層級的界定直接決定了“誰在開車”以及“出了事誰負責”。根據目前的行業共識與監管邏輯,中國市場討論最集中的是以下三個層級:(圖片由AI生成)L2級輔助駕駛:目前已廣泛普及的“輔助手”這是目前大多數市售“智能汽車”所搭載的技術水平。在這一階段,系統可以輔助控制方向盤和速度,但駕駛員依然是絕對的主角,要求雙手必須扶著方向盤,且眼睛必須時刻注視路況。雖然L2級已深入千家萬戶,但其實際表現仍面臨考驗,例如在夜間施工等極端場景下的可靠性,仍是擺在各大廠商面前的難題。L3級有條件自動駕駛:作為當前行業博弈的核心,L3級被視為真正的分水嶺。它允許駕駛員在特定條件下雙手脫離方向盤,甚至眼睛可以短時間離開路面,實現所謂的“放手脫眼”。但“有條件”意味著責任並未完全移交:駕駛員必須坐在駕駛位上,且隨時準備在系統發出接管請求時立即介入。目前,儘管車企在硬體預埋上已“卷”至極限,但監管審批依然保持高度審慎,僅有極少數品牌獲准在特定路段開展受限試點。L4級高度自動駕駛:當技術跨越到L4級,便進入了真正的“無人駕駛”階段。 此時,車輛已能自主完成所有駕駛任務,無需人類干預。在武漢等十多個城市正在測試的自動駕駛計程車(Robotaxi)中,乘客只需坐在後排,前排甚至可能設有物理隔離裝置,徹底切斷了人與駕駛機構的接觸。此外,技術圖譜的終極目標是L5級完全自動駕駛。這是自動駕駛的最高境界,意味著車輛可以在任何環境、任何路況下,完全無需人工干預地自由馳騁。從輔助駕駛到真正的自動駕駛,這絕非簡單的硬體堆砌,而是一次對安全底線與責任歸屬的極限挑戰。05 專家視角:不是停止,是設定“防護欄”對於這次車企集體的“放慢節奏”,業內專家看得透徹。上海電動汽車專家比爾·拉索(Bill Russo)直言不諱地指出,之前的L3推廣更像是一場“由行銷驅動的超前衝刺”。當監管框架、保險體系和公眾信任還沒準備好時,盲目衝鋒只會適得其反。現在的放緩,並不是進步的終結,而是政府在為這項技術設定必要的“防護欄”。將範圍縮小、穩步推進,或許才是通往完全自動駕駛最快、也最安全的路徑。無論是“001號”車牌的發放,還是對“自動駕駛”宣傳的禁令,都在指向同一個終局:重建信任。當技術跑得太快,把倫理和安全甩在身後時,事故是唯一的結局。對於車企而言,現在的任務不再是繼續畫大餅,而是要證明:當那個生死攸關的“一秒鐘”再次來臨時,你的AI,真的能救命嗎? (網易科技)
Gemini 3 Flash 可能是 Google 最狠的一步棋
剛剛Google正式推出了Gemini 3 Flash,這可能是 Google 這幾年最重要的一次模型發佈如果只看名字,Gemini 3 Flash 很容易被誤解成一個閹割版,快但不聰明的模型。但實際情況恰恰相反——它可能是 Google 到目前為止,戰略意義最大的一次模型選擇一句話先給結論:Gemini 3 Flash =前沿大模型智商 + 閃電級速度 + 超低成本的組合拳。它不是縮水版,而是把快和強第一次真正合在了一起不知道Google是怎麼訓練的,在複雜推理測試ARC-AGI-2和衡量真實程式設計能力測試SWE-bench Verified 基準中,Gemini 3 Flash都超過了Gemini 3 pro過去兩年,大模型世界裡一直有一道隱形分界線:一邊是能力最強、但又慢又貴的旗艦模型,另一邊是響應快、成本低,但明顯沒那麼聰明的輕量模型Gemini 3 Flash 做的事情,就是把這條分界線直接抹掉了它在多個博士級推理和多模態基準上,已經逼近甚至追平 Gemini 3 Pro 這樣的重型選手,卻同時保留了 Flash 系列最核心的特性——極低延遲和極高吞吐。更關鍵的是,在真實使用場景中,它平均比上一代 2.5 Pro 少用 30% 的 token,卻把正確率做得更高這件事對開發者的衝擊尤其明顯在 Agent、自動程式設計、高頻互動系統裡,真正的瓶頸從來不是模型能不能想明白,而是想明白要不要等三秒。Gemini 3 Flash 在 SWE-bench 這類面向程式碼 Agent 的評測中,甚至跑贏了 Gemini 3 Pro,本質原因只有一個:它足夠聰明,同時也足夠快,快到可以被反覆呼叫而當這種能力開始變便宜,事情的性質就變了Gemini 3 Flash 的定價已經低到一個明確的訊號:它不是拿來偶爾用一次的,而是拿來當基礎設施用的Google 直接把它設成了 Gemini App 的默認模型,全球使用者免費使用;同時,它也開始成為搜尋裡 AI Mode 的核心大腦。你在搜尋裡問一個複雜問題,它不只是給你答案,而是能拆解問題結構、結合即時資訊,再給你一個可以立刻行動的方案,而這一切幾乎和傳統搜尋一樣快這一步,其實比參數更重要如果說前兩年的競爭重點是誰的模型更像人類博士,那麼 Gemini 3 Flash 代表的,是下一階段的方向,誰能讓這種水平的智能,真正跑在每一次點選、每一次呼叫、每一次搜尋裡從這個角度看,Gemini 3 Flash 並不是一個Flash 模型,而是 Google 對 AI 規模化落地的一次明確表態:智能本身已經不是稀缺資源了,稀缺的是能被高頻使用的智能不得說GoogleTPU+強悍的研發能力已經成為事實上領先者了,Sam 昨天緊急推出的圖像模型追Nano Banana Pro,接下里要追的可能就多了,這在幾個月前甚至都不能想像 (AI寒武紀)
Gemini 3 再次大更新!全球免費享 Pro 級智商,奧特曼又要失眠了
年底了,Google又開始沖業績了。就在剛剛,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。而從今天起,你將能在 Gemini 產品線裡用到三種模型:Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。倒反天罡!Gemini 3 Flash 跑分超越 Pro基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。Gemini 3 Flash 快是真的快,但 ……Google官方展示了幾個很有意思的應用場景。比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。我也用 Gemini 3 Flash 跑了幾個案例。不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。最後再強調一遍價格,因為這個真的太香了。輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。Google最大的底牌還是流量。搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。這種打法 OpenAI 和 Anthropic 是學不來的。一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (APPSO)