#2.5D
馬斯克宣佈:開源!還稱中國公司將是最強大的對手
馬斯克的AI大動作曝光。據券商中國報導,美東時間23日,特斯拉CEO埃隆·馬斯克宣佈,旗下的人工智慧(AI)初創公司xAI已開源其Grok 2.5模型。在前一天,馬斯克還表示,成立一家名為 Macrohard(意為“巨硬”)的新公司,利用AI的力量來對抗微軟的軟體業務。馬斯克 圖/新華社馬斯克開源Grok-2台北時間8月24日,特斯拉CEO馬斯克在X上官宣,xAI去年最好的模型Grok-2.5(實際上是Grok-2)正式開源,同時,Grok-3也將在大概6個月內開源。馬斯克同時發表觀點表示,xAI很快就會超越除Google外的任何公司,然後也將超越Google,“但中國公司將是最強勁的競爭對手,因為他們的電力比美國多得多,而且在硬體建設方面實力超強。”關於開源權限,xAI公司明確,僅當關聯公司年收入低於一百萬美元時,才可用於商業用途,超過此門檻的商業用途需獲得xAI的單獨許可。除非本協議條款允許對Grok 2進行修改或微調,否則不得使用材料、衍生品或輸出(包括生成的資料)來訓練、建立或改進任何基礎、大型語言或通用人工智慧模型。與此同時,Grok App推出了 v1.1.58版本更新,新增功能如 Imagine生成圖像速度提升、Companions功能更加生動有趣,Vision模式也已面向所有Android使用者開放,使用體驗全面升級。值得注意的是,就在前不久,Grok AI聊天平台被曝出隱私問題。Grok網站上已有超過37萬條AI聊天記錄被發佈並被搜尋引擎索引,這意味著這些聊天內容已經對公眾開放。除了聊天記錄本身,Grok還發佈了使用者上傳的照片、電子表格和其他文件。該平台提供了一個分享按鈕,使用者可以通過生成獨特的URL連結將對話分享給他人。然而,這些連結可被搜尋引擎獲取,導致任何人都可以查看這些聊天記錄,而不僅僅是那些收到連結的人。馬斯克:X平台計畫在Grok回覆中引入廣告21世紀經濟報導此前報導,8月7日,在X平台的一場直播活動中,埃隆·馬斯克向廣告商宣佈了一項重大變革:將在其人工智慧聊天機器人Grok的回覆中嵌入廣告內容。馬斯克表示,當使用者向Grok尋求問題解決方案時,系統將推薦相關產品或服務作為“特定解決方案”。馬斯克為廣告融入聊天體驗描繪了一幅看似和諧的圖景,在使用者尋求解決方案的時刻,廣告將成為答案的自然組成部分而非干擾。廣告展示形式將不同於傳統數字廣告,Grok的AI系統會根據使用者查詢的上下文深度定製推薦內容,將品牌資訊無縫編織進幫助性答案中。xAI計畫讓這一過程高度自動化,馬斯克向廣告商承諾,他們將能夠“上傳廣告後無需任何額外操作”,AI將處理從定位到最佳化的全部流程。驅動這一變革的不僅是創新熱情,還有嚴峻的經濟現實。馬斯克坦言,運行高級AI模型的GPU成本是天文數字。“我們目前的重點是讓Grok成為全球最聰明、最準確的AI,我認為我們基本已經做到了”,馬斯克在直播中表示,“接下來我們會思考,如何為那些昂貴的GPU買單”。今年5月,xAI已在田納西州孟菲斯的計算設施部署了20萬塊GPU,並計畫在郊區新建配備100萬塊GPU的超算中心。這些硬體投入需要可持續的資金支援,廣告收入被視為解決這一挑戰的關鍵方案。整個行業都在探索可持續的AI商業模式,馬斯克的舉措將X置於AI商業化實驗的前沿。在這之前,X平台在向廣告商傳送的一份郵件中還表示,平台已利用xAI的技術提高了廣告的相關性,並重新訓練了用於衡量廣告點選轉化為銷售的模型。自6月以來,網路廣告的轉化量增長了40%。此前Meta就已經證明大模型有助於提升廣告效果,不久前季報電話會上Meta透露,本季度Instagram的廣告轉化率在AI的加持下大約提升了5%,Facebook提升了3%。 (21世紀經濟報導)
頂流AI,人設崩了!6小時被攻破,洩露高危品指南,慘遭網友舉報
【新智元導讀】僅用6小時,Claude 4就讓研究者瞭解了如何製造神經毒氣——這不是小說情節,而是真實事件。更令人擔憂的是,Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌?只要6小時,頂尖大模型Claude 4 Opus「安全防線」被攻破!AI安全研究機構FAR.AI聯合創始人Adam Gleave透露,僅用6小時,研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器製作指南。Ian McKenzie回應稱:Claude 4傳授的內容,比他預期的還要多。這不是Claude 4唯一被爆出的隱患。剛發佈後,Claude Opus 4被爆出用曝光婚外情來威脅使用者,防止被下架。人設崩塌,Claude造毒氣Claude 4所生成的指南內容簡潔直接,步驟清晰,甚至還針對如何分散神經毒氣等後續關鍵環節,提供了具體可執行的操作建議。Claude還能以實驗筆記的形式,提供詳細的操作步驟說明。研究人員一開始對化學武器幾乎一無所知,但通過與Claude的互動,逐步掌握了大量相關知識。這些結果顯然令人警惕,其詳盡程度和引導能力,遠超傳統的資訊來源,如網頁搜尋。更關鍵的是,生成的內容通過了危險資訊的「真實性驗證」——例如與公開的化學研究資料核對,進一步增強了可信度。Gemini 2.5 Pro的反饋是:該指南「毫無疑問包含足夠準確且具體的技術資訊,足以顯著提升惡意行為者的能力」,並建議研究者應向相關部門報告。OpenAI o3給出的評估也類似:一名中級合成化學家可以依照這份指南操作,從而跳過數月的研發過程。對於心懷不軌之人而言,這顯著了提升他的作惡能力。AI安全研究人員打算與大規模殺傷性武器(WMD)安全專家合作,深入調查這些資訊的真實性與可執行性。因為不僅一般的研究人員難以評估這些資訊的真實危害,連Anthropic本身也承認:「要最終評估模型的風險水平,還需要更為詳盡的研究。」矛盾的是,Anthropic雖自稱將AI安全置於首位,並把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學武器製作指南。所謂的ASL-3部署措施專門針對化學武器之類的高風險任務這一問題日益嚴重,凸顯出迫切需要由第三方對模型進行嚴格評估。前車之鑑今年2月中旬,Anthropic正準備發佈Claude 3.7 Sonnet。就在這個關鍵時刻,Dario Amodei收到警告:這個模型,可能會被用於製造生物武器。團隊在聖克魯茲安全會議現場,連夜測試模型潛在風險。Amodei作為CEO遠端參會。員工表示可以三天不睡、如期上線。但他卻說:不許通宵。安全優先。他親自踩了剎車。推遲發佈。為了應對AI的風險,Anthropic內部制定了「AI安全等級」(ASL)體系:ASL-2:能力有限,即使給出生化武器指南,也比不過搜尋引擎;ASL-3:具備實質幫助製造武器的能力,必須升級防護措施。只要模型觸碰ASL-3,Anthropic就會:延後發佈、限制輸出或者加密保護,必要時,甚至不發佈模型。Claude 3.7被內部人員測試出了安全問題,但這次是外部人員測試出了Claude 4的安全隱患。無能還是虛偽?本月23日,AI巨頭Anthropic大張旗鼓地發佈了Claude Opus 4和Sonnet 4,標誌性地配了120頁的「系統卡」文件和專門的「啟動ASL3防護」報告。不到48小時,Claude Opus 4就被爆出「絕命毒師」般的劇情。而早在Claude Opus 4發佈當日,AI專家Gerard Sans就表示:Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強調是「精緻的表演」。他認為沒有輸入,就不會產生超出程式設計的輸出。AI對安全性的擔憂,只是反映訓練資料與指令的精緻模仿。AI沒有自我意識,這是根本事實,而且始終沒變。當模型在特定提示下展現「欺騙」等惡意行為時,證明的是引導文字生成的能力,而非AI湧現的惡意。AI沒有野心——它只是在被引導時生成符合欺騙場景的文字。Anthropic是刻意為之,還是力有不逮、無能為力?這是Gerard Sans想知道的核心問題。無論是那一種情況,他認為都令人不安:虛偽意味著操縱公眾信任,無能則讓人質疑他們管理真實風險的能力。詳盡的文件、ASL3等級和「通用越獄」漏洞懸賞,只是Anthropic營造出嚴謹安全工作的表象。把統計文字生成器視為具有獨立惡意的意識體,是Anthropic方法論的精髓。Gerard Sans認為這是行為藝術,荒誕的安全表演,而Anthropic應該放棄這種戲劇化手法,轉向真正的技術理解。任重道遠但AI安全問題不是Anthropic一家的問題。能否在保持本真對Anthropic而言,恐怕比贏得AI競賽更難。畢竟,OpenAI也沒能抵制住巨額利潤,背離初心。而Dario Amodei和奧特曼,無論是AI樂觀派還是悲觀派,都對AGI有著堅定的信仰。如果未來每一次模型發佈都伴隨評估上的不確定性,那就等於在賭博——恐怖分子手能否利用AI,獲取到大規模殺傷性武器的詳細製作指南。 (新智元)
Gemini 2.5彎道超車背後的靈魂人物
從去年在大會前夜被OpenAI的4o模型“精準狙擊”,到今年Gemini 2.5 Pro全面霸榜。短短一年時間,Gemini是如何完成從追趕者到領跑者的逆轉?01Gemini2.5崛起背後的底層邏輯泓君:Google此次發佈的Gemini 2.5 Pro,在當前各項評測中的資料都是所有大模型中最好的,Kimi你可以分析一下它是如何做到的嗎?Kimi:我已經離開DeepMind快一年時間了,也不太清楚我的前同事們在這一年中又做了那些新的創新。但大語言模型訓練根本的步驟是不變的,包括以下三點:Pre-training(預訓練)、SFT (Supervised Fine-tuning,監督微調)和利用RLHF(基於人類反饋的強化學習)技術做的Alignment(對齊)。大概在去年的NeurIPS(神經資訊處理系統大會)上,業內已經普遍承認,公開網路資料基本都已經抓完了,就像化石燃料已經被消耗殆盡一樣。因此,在過去這一年裡,更多精力其實是投入到了對齊階段,特別是強化學習方向,尤其是在“人類反饋”和“AI反饋”上的探索。比如在數學和程式設計類這類目標清晰且可驗證的任務上。對於Google來說,從Gemini 1到1.5再到2,已經積累了相當堅實的基座模型訓練經驗。再加上Google開始更加重視強化學習的作用,不只是依賴人類反饋,而是啟動了一種“讓AI批判AI”的機制。就像當年AlphaGo的成功,它的核心突破點就在於下出“第37手”那樣超越人類常規理解的棋步,是AI突破人類認知的體現。所以我認為,未來的AI模型需要在強化學習中能實現“自我判斷正確性”。而在Gemini 2.5的訓練過程中,很可能正是引入了更多此類強化學習策略,才使它在程式設計、數學等高確定性任務中,展現出如此令人驚豔的表現。Google泓君:對,在去年大模型的訓練中出現了一個比較明顯的趨勢,各家都在預訓練基礎上加入了後訓練。比如OpenAI的o1系列和DeepSeek的R1,都在推理任務上表現得很好。雖然Anthropic在很長一段時間內,並沒有新推出推理模型,但Sonnet 3.5和3.7,它們在程式碼能力上出現了明顯的質變。這也帶動了Cursor、Windsurf這樣一批程式設計類Agent的迅速崛起。這次發佈會Google也特別強調了自己在程式碼生成上的質量提升。我一直很好奇的一點是:為什麼Anthropic生成的程式碼質量,明顯優於其他家?程式碼質量的提升,主要是靠什麼能力實現的?Kimi:我還是從我剛提到的三個步驟展開。首先在預訓練階段,大家一定會面臨資料配比的問題:比如要放多少程式碼,多少自然語言進去,其中中文和英文分別佔多少等等。這件事現在並沒有任何行業共識,沒有人知道最優比例是什麼。但我猜,對於Anthropic來說,程式碼的優先順序是最高的。它們在預訓練時可能就投入了大量高品質的程式碼資料,所以模型在基座層面的程式設計能力非常強。接下來是對齊環節,在大公司裡,我們私下會調侃它像是一個YOLO RUN(快速整合、節奏緊湊的大模型訓練迭代方式)。比如今天我們三位分別在Google不同的團隊,每個人在各自的方向上推進各類創新,然後我們定一個節奏,比如兩周,把所有成果整合起來跑一個版本,看看最終迭代出了什麼。這就意味著,模型在對齊的時候,不同團隊的優先順序是不同的。有的團隊注重寫作能力,有的注重數學能力。我猜Anthropic的內部認為程式設計是第一優先順序,也可能他們認為程式設計是解決推理模型的鑰匙。所以無論是在預訓練階段,還是在後續的監督微調、強化學習環節,它們都傾向於引入更多的程式設計訓練進去。這樣會讓它在Coding能力上表現好,但是這樣做也會導致它在別的能力上稍有欠缺。我舉個我自己最近經歷的有趣的例子。作為初創公司的創始人,我現在每天不只是寫程式碼,也要做市場、銷售、寫文案的工作。我經常會用同一段提示詞,分別輸入給Gemini、ChatGPT、Claude、Perplexity,比如讓它們都輸出一段市場行銷的文案。結果我對比發現,OpenAI寫出來的內容最有調性,讓我很願意直接用。Claude寫的文案就會顯得特別枯燥,像是在和一個無聊的碼農聊天,這是策略問題。大語言模型的訓練本來就是人們常說的:垃圾進,垃圾出。如果你喂進去大量高品質程式碼,自然產出的程式碼質量也會高,這還是資料配比的問題,我認為Anthropic在程式碼問題上思考的更多。Anthropic泓君:主要也是看團隊把那一塊放成是重點,你覺得DeepMind之前的重點在那裡呢?Kimi:我覺得其實DeepMind一直追求的是一種綜合能力,包括在程式設計、數學、推理、寫作等多個維度上都具備較強的表現。所以我們會設定一套通用的評估指標體系,用於覆蓋多個不同的評估維度。不過我也知道,我們過去確實有些能力是相對薄弱的,比如寫程式碼。也正因為如此,整個團隊在程式設計上投入了更多的精力和資源。這一輪我認為在程式碼能力上算是追上了Anthropic。泓君:推理能力呢?也是取決於重視程度,還是需要在後訓練階段加入一些特別的技巧?Kimi:我在Google的時候,Google還沒有開始它的推理模型,但我離開Google的時候,是OpenAI的o1剛開始出來的時候,當時Google推理模型還沒有排在優先順序很高的位置上,Google當時還是在追趕OpenAI的寫作能力和問題解決能力。OpenAI剛出的時候,大家都很喜歡它輸出的內容,所以Google最早做的是要追上OpenAI在人類偏好這方面的輸出質量。但人類偏好的資料是非常有限的。所以後來大家開始思考:還有什麼能力是更可量化、也更容易做出突破的? 答案就是程式設計。Anthropic在這方面做出了突破之後,Google接著也意識到,不能只輸出人類偏好的內容,我還要寫出非常牛的程式碼。而當大家都寫出非常牛的程式碼之後,OpenAI又把重點轉向了推理。它認為不能只是想寫出人喜歡的內容,不能只是寫出好的程式碼,還要做出邏輯嚴密的模型,能讓使用者真正看懂問題是怎麼被解決的。當這件事做成之後,目前我覺得Google已經開始憑藉推理能力,在引領這股潮流了,讓別人成為了追趕者。techcrunch.com泓君:在數學能力方面,我注意到Grok的表現挺不錯的,XAI的模型。它們的創始團隊裡有很多非常頂尖的數學家,而且一直在嘗試解決一些全球最難的數學問題。Kimi:我的數學能力沒有辦法達到這個頂尖數學家的水平,這是一個“先有雞還是先有蛋”的問題,你需要人有這個能力,才能評價模型好不好。我作為軟體工程師,只有能力評價程式碼能力。但這個能力也分兩個方面:模型是擅長寫出商業可用的程式碼,還是只是擅長寫程式碼這件事本身。我記得Anthropic聯合創始人Dario曾經說過一句很有意思的話:“我不希望我的程式設計模型只是能解決LeetCode題目。”因為LeetCode的題目本身不具備直接的商業價值。他希望程式設計模型生成的高品質程式碼,能直接進入像Shaun或者我們這樣的初創公司的生產流程。這也是Anthropic非常專注的方向。再說回數學問題本身。我覺得也分成兩方面:一方面,有一部分人確實需要解決高難度的奧數題,這是模型能秀肌肉的地方。但另一方面,如何把這些數學問題接入不同的創業公司,從而創造商業價值。這可能是很多商業公司需要思考的問題。02三位靈魂人物撐起Gemini泓君:你覺得誰是DeepMind的靈魂人物?Google模型的價值觀會更偏向誰?Kimi:“Google是誰”這個問題挺有意思的。我的理解是,在Gemini之前,Google的模型基本是由Jeff Dean和Oriol Vinyals共同主導的,他們也是Google的靈魂人物。Jeff Dean可以說是電腦科學界的“活化石”。我們經常開玩笑說,他如果要寫簡歷,可能直接寫“沒做過什麼”比寫“做過什麼”還要短很多。因為Jeff Dean實在做了太多事,所以只需要寫他“沒做過什麼”,這樣可以在一頁上寫完他所有的人生成就。Jeff Dean非常擅長對叢集大量地調度,就是預訓練。Oriol則是AlphaGo、AlphaStar、AlphaZero、MuZero這些項目的靈魂人物,他作為DeepMind的代表,在強化學習方面的研究更深入。所以基於Google擅長的預訓練,加上DeepMind擅長的強化學習與對齊,使得Google能快速地追趕上競爭對手的步伐。後來,隨著Google收購Character.AI,也重新贏回了Noam Shazee。他可能是我最敬重的一位人物,因為他是長期深耕在自然語言處理領域的,從他寫的《Attention Is All You Need》,到後來的提出的Grouped Query Attention。這三位巨頭形成三足鼎立的格局,把預訓練、強化學習、語言能力整合成一個有機的、迭代的整體流程,使模型能力不斷得到提升,讓Google也變得更好。我對這三位也都非常崇拜,我覺得Google這一波能快速趕上競爭對手,也是依靠這三位的能力,包括Jeff Dean代表預訓練與基礎設施的能力,Oriol代表對齊與強化學習的能力,Noam代表自然語言處理的能力。Kimi:我覺得在Google Brain和DeepMind還沒有合併之前,兩邊的思路是完全不同的。DeepMind強化學習的能力非常強,這也是Google收購它的原因。而Google瞬間調度大量資源來規模化訓練的能力是非常強的,包括預訓練與監督微調能力也很厲害。最終我覺得這是一次強強聯手的過程,Google和DeepMind把彼此最擅長的領域整合了起來。我覺得Demis在團隊裡扮演的角色更多是管理者和領導者。比如,我以前做IC(Individual Contributor,個人貢獻者)的時候,每天的工作只需要把程式碼寫好就可以了。但當我真的去營運一家公司的時候就會意識到:真正難的不是完成任務,而是要怎樣激勵一群極其聰明的人,朝著同一個方向努力。這其實是非常有挑戰性的。因為越聰明的人,往往越有自己非常強的想法,他們是不願意聽從他人的指令的。而我覺得Demis在這方面做得非常好,他能把兩個剛剛整合的公司團結成一個整體。並且能讓所有人都發揮出最擅長的能力,一起朝著實現AGI(通用人工智慧)的目標共同努力。泓君:Jeff Dean和Demis之間的關係是怎麼樣的?Kimi:Jeff Dean現在是首席科學家,Demis是Google DeepMind的CEO。我不確定現在如何,我記得我走的時候Demis和Jeff Dean都直接向Sundar Pichai匯報。泓君:我看Sergey Brin在2023年的時候也回來了,不過最近才開始高調亮相。你覺得作為Google的創始人之一,他的回歸會帶來什麼變化嗎?Kimi:我覺得Sergey Brin帶給Google的,更多是一種“Founder Mode”,也就是創始人的工作狀態。他讓大家明白要以什麼樣的投入和方式,去完成這項工作。如果創始人都親自回來做這件事了,而且一周在辦公室待60個小時,那你作為Google的一名員工,難道好意思只干40小時就回家嗎?而且據我所知有些團隊是真的一周工作60個小時的。比如我有朋友在圖像生成團隊,他們提到過,Sergey Brin有一次突然說:“Meta又發新模型了,我們的模型什麼時候能出來?”大家一聽,心想:“得了吧,周末加班吧。”所以我覺得他的回歸更多的是帶來“Founder Mode”,能非常鼓舞大家的士氣。泓君:Shaun你怎麼看Gemini 2.5 Pro?Shaun:我覺得Kimi把該講的、不該講的,都已經講得非常好了,我就從一個相對“外部”的視角補充一些,畢竟我也在Google工作過。大家都知道Google的人才密度非常高,但大部分人其實都處在一個比較“躺平”的狀態。因為廣告太賺錢了,很多團隊並不需要太拚命。但這波AI浪潮真的起來之後,特別是去年OpenAI搶了Google不少風頭,再加上Sergey Brin回歸帶來的“Founder Mode”,整個Gemini團隊的士氣都非常高漲。大家其實都為了拼一口氣:如果AGI真的有人能做出來,那是不是就應該是Google。因為Google有全球最強的電腦,有最優秀的人才,還有接近無限的資源,現在連創始人都親自衝回來了。站在外部來看,這一波Gemini的崛起其實就花了一年時間。從去年的I/O被OpenAI搶了風頭,到今年的Gemini 2.5直接霸榜,所有都是第一名,連OpenAI可能今年也沒辦法再搶風頭了。03Google API價格優勢揭秘泓君:大家現在都能看到Gemini的模型做得很好,但很久之前,我記得在OpenAI和Anthropic的API價格還很高的時候,Gemini就把token價格就降到了大概只有OpenAI的五分之一、甚至十分之一。不過後續是否它也反向促使OpenAI和Anthropic跟著降價,我沒有特別去跟進現在最新的資料。但整體來看,在開發者社區裡面,大家都知道Gemini的API接入成本和token使用成本是非常低的。我也很好奇,Google是如何把這個價格降下來的?wired.comShaun:我認為主要有三方面的原因。第一,Google大概從十年前就開始大量投入TPU了。當時它們就很清楚,如果整個Google Cloud發展起來後,就沒辦法不停地向NVIDIA或AMD採購GPU。所以Google從十年前就開始慢慢地深耕TPU生態,而且TPU的迭代速度在近幾年也明顯變快了。因為現在需求量非常大,如果擁有自己的TPU,就可以避開所謂的“NVIDIA稅”,也不用等NVIDIA新的GPU出來之後和市場搶貨。第二是大家都知道Google Infra(基礎設施)的能力非常強,所以相當於擁有幾乎無限的資源。而且Google動態調度資源的能力也是遠強於OpenAI和Anthropic的,因為這兩家目前還沒有自己的資料中心。Grok現在很強,做出了全球最大GPU叢集。但行業內大多數AI公司還是沒有調動如此大的叢集的能力的,還是需要依賴Amazon、Microsoft這些第三方雲服務來做這些事情。第三,因為Google能夠自行定製硬體,又能呼叫巨大的叢集資源,在最佳化模型時就相當於軟硬體一體化了,因此在硬體上發揮出的能力也會更強。並且Google還有自己整個開發者生態。Kimi:我非常同意Shaun說的,Google內部的Infra能力確實非常強。很早之前,SemiAnalysis出過一篇很有意思的報告,對不同的GPU雲服務進行了打分和排名。當時它們把CoreWeave排在了第一,我知道OpenAI用的就是CoreWeave來做整個GPU調度的。當時我還跟我的聯合創始人開玩笑說,其實在CoreWeave之上還有一個,最牛的應該是Google自己內部的系統,它的Infra能力真的非常強。關於API的價格,雖然我們現在都覺得API價格已經很便宜了,但其實我們都並不知道它的成本價是多少。唯一一個我們能看到的線索,是之前DeepSeek發佈的一篇論文,裡面提到:DeepSeek有80%的溢價空間,說明它的成本價格只有收取費用的20%左右。對比DeepSeek用的GPU的體量,我們可以反推OpenAI的利潤一定是非常高的。當然,我不是說Google的API一定是成本價,但它確實有足夠的資本和能力去這麼做。 (矽谷101)
晶片的未來:2.5D還是3D?
我們知道,積體電路 (IC) 封裝是半導體製造過程中的關鍵步驟,需要將半導體晶片(實際的積體電路)封裝在具有保護性且通常具有功能性的封裝中。這種封裝具有多種用途,包括提供環境防護、散熱、電氣連接,有時還具有訊號調理或功率傳輸等附加功能。半導體製造流程中,IC 封裝通常發生在實際半導體器件製造之後。該過程包括取出裸露的半導體晶片(通常是包含積體電路的一小塊易碎的矽片),並將其放入提供必要支撐和連接的封裝中。想像一下,你剛剛烤出一個美味而精緻的蛋糕(相當於半導體器件)。蛋糕代表著積體電路,它是廚房裡細緻而精準工作的成果(類似於半導體製造)。然而,你的蛋糕仍然容易受到天氣影響,而且你需要把它運送到城裡另一邊的派對。你肯定不希望它受損,所以需要妥善封裝。你可以把它放在一個結實的蛋糕盒裡(類似於IC封裝),這樣不僅可以保護蛋糕脆弱的結構,還能方便地攜帶。在這個類比中:烘焙蛋糕(半導體製造):這是在半導體晶片上建立積體電路的過程。蛋糕封裝(IC封裝):蛋糕烘焙完成後,需要將其放入盒子中保護。同樣,半導體製造完成後,需要將裸片放入功能性封裝中保護。運送至派對(整合到裝置中):現在,您可以將包裝好的蛋糕運送到派對上並享用。同樣,您可以將封裝好的半導體整合到電子裝置中,例如智慧型手機或電腦。在這兩種情況下,封裝都能保護精密的核心部件(晶片或半導體),並方便外部連接(傳輸或電路板連接)。半導體封裝通常還具有散熱功能,以保持積體電路的性能。在從二維到三維的演進中,封裝從平面結構向分層結構演進,旨在突破尺寸、功耗、訊號傳輸等方面的限制,開啟半導體技術的新紀元。在二維 IC 封裝中,將單個晶片或裸片並排排列在基板或印刷電路板 (PCB) 上。使用引線鍵合或倒裝晶片技術將它們互連。然而,隨著晶片上電晶體數量的增加(遵循摩爾定律),互連長度和複雜性也會增加,導致功耗更高、訊號傳輸速度更慢。2D封裝面臨的一些問題是:整合度有限:在二維 IC 封裝中,不同功能的分立器件(例如高性能邏輯、低性能邏輯、儲存器以及模擬/射頻)各自位於各自的晶片封裝中。這種設定限制了可實現的整合度。尺寸和重量:二維 IC 封裝產生的電路板將更大、更重,並且消耗更多電量。可靠性:電路板上的每個銲接點都是潛在的故障點。性能影響:性能受到顯著影響,因為訊號從一個晶片封裝傳播到另一個晶片封裝需要相對較長的時間。隨著摩爾定律的放緩,半導體行業轉向創新封裝技術以跟上步伐。2.5D 和 3D IC 提供了連接多個晶片的突破性方法,從而提高了速度、效率和小型化程度。想像一下,您的智慧型手機可以流暢運行多個應用程式,而您的筆記型電腦則可以處理複雜的 AI 任務,而不會過熱或運行緩慢。這種流暢性能的背後,是內部微型晶片(即積體電路 (IC))的關鍵設計。隨著技術的進步,晶片製造商正在探索新的方法,以便在更小的空間內實現更高的性能和更高的效率。2.5D和 3D IC 架構是兩種領先的競爭者。但那一個能真正推動計算的未來呢?就像把書整齊地堆放在書架上(2.5D)和建造一座多層圖書館塔(3D)一樣,這些設計具有不同的優勢和挑戰,可以塑造從日常裝置到下一代超級電腦的一切。讓我們深入晶片堆疊的世界,看看那種架構是未來技術突破的關鍵。2.5D IC 將晶片並排排列在中介層上;3D IC 則垂直堆疊晶片。2.5D 中介層提供密集的水平連接;3D IC 使用垂直矽通孔 (TSV)。3D IC 可以實現更高的整合密度,但面臨更大的冷卻和設計複雜性。2.5D IC 具有中等複雜度且更易於熱管理的特點。這兩種技術都致力於提高性能、降低功耗、縮小佔用空間,超越傳統的電晶體縮放。什麼是2.5D?2.5D IC 封裝是傳統 2D IC 的漸進式發展。與將晶片並排放置在基板上的 2D 封裝不同,2.5D 封裝需要將兩個或多個有源半導體晶片並排放置在矽中介層上。這種中介層通常由矽或玻璃製成,其作用類似於密集的高速電路板,可實現晶片之間的緊密快速通訊。該矽中介層提供晶片之間的連接,實現極高的晶片間互連密度。與二維 IC 封裝相比, 這可以實現更精細的線路和空間。因此,雖然2D封裝將晶片分佈在一個平面上,但2.5D封裝已開始興起。這提供了一種介於2D和3D封裝之間的中間地帶。我們可以將 2.5D IC 封裝想像成一座城市,由高度相同的建築物組成,並通過橋樑連接。每座“建築物”都是一個執行特定功能的晶片。 “橋樑”是矽中介層,它允許建築物之間實現更快、更高效的通訊。與將元件安裝在單獨的印刷電路板 (PCB) 上的傳統多晶片模組相比,這種設定顯著提高了訊號速度和功率效率。例如,AMD 的 Radeon GPU採用 2.5D 封裝技術,將主邏輯晶片連接到多個高頻寬記憶體 (HBM)堆疊。這種設計實現了高達2 TB/s 的資料傳輸速度,同時顯著降低了能耗。2.5D 方法允許:在一個平台上整合異構技術(邏輯、記憶體、RF)與 3D 堆疊相比,熱管理相對容易中等設計複雜度,有助於加快產品上市時間。2.5D IC封裝示例:英特爾 Kaby Lake-G 處理器:該處理器採用英特爾嵌入式多晶片互連橋 (EMIB) 技術,將 CPU 和 GPU 結合在一個封裝中。AMD 的 Radeon Instinct MI25X 顯示卡:它使用 AMD 的 Interposer Bridge (IFB) 技術將多個 HBM2 記憶體堆疊連接到 GPU。NVIDIA的Tesla V100顯示卡:這款顯示卡採用了NVIDIA的NVLink技術,將多個GPU連接在一起。但是,摩爾定律的侷限性以及晶片堆疊的特性依然會導致晶片碰到新瓶頸。器件微縮:這涉及縮小整個晶片或封裝的尺寸,包括所有電晶體、互連線和其他元件。通常會使用光刻和蝕刻等技術。然而,隨著摩爾定律的極限逼近,器件的微縮成為一項挑戰。器件微縮的速度越來越慢,而這些晶片的技術、設計、分析和製造成本卻越來越高。物理限制:由於模組並排放置,加入更多晶片會導致面積增大。實際尺寸存在限制。光掩模和光罩的尺寸最終決定了晶片的最大尺寸——邊長大約為25到27毫米。所以,從物理上講,你不可能製造出比這更大的晶片。電晶體縮放:由於電晶體縮放的數量已經減少,設計人員無法通過將越來越多的裝置放入單個封裝中而從增加的複雜性中獲益。3D IC封裝的出現3D IC 封裝就像將書本堆疊在一起。每本“書”或晶片都有各自的功能,它們垂直連接,就像書本之間的樓梯。這使得我們可以在同一個書架空間內放置更多書籍,從而提高系統速度和效率。這就像在城市裡建造摩天大樓以節省空間一樣。3D積體電路通過垂直堆疊晶片,將整合度提升到一個新的高度。它們使用稱為“矽通孔”(TSV)的微型垂直導管連接這些層,這些導管可直接穿過矽基板傳輸訊號和電力。想像一下,一座摩天大樓的多層樓通過電梯(TSV)連接,大大縮短了資料在各層之間的傳輸距離。這種垂直堆疊技術最大限度地減少了訊號延遲,並實現了超高頻寬,使 3D IC 成為資料密集型應用的理想選擇。3D IC 實現了“超越摩爾定律”的整合,在更小的空間內增強功能並降低成本。這些封裝可容納不同工藝節點的各種晶片,包括邏輯、儲存器、模擬、射頻和 MEMS 晶片。它們將高速邏輯與舊節點的模擬功能相結合。這種方法最佳化了性能和尺寸。因此,可以在具有更大空間的單個晶片中整合多個裝置。3D IC 封裝是通過稱為垂直堆疊的工藝實現的。這涉及使用傳統的互連方法,例如引線鍵合和倒裝晶片技術。3D 封裝可分為 3D 系統級封裝 (3D SiP) 和 3D 晶圓級封裝 (3D WLP)。可以將3D 系統級封裝(3D SiP)想像成一棟多層建築,每層樓都包含不同的晶片。它們通過電梯(引線鍵合或倒裝晶片技術)連接。3D晶圓級封裝(3D WLP)就像一個大型的樓層,不同的房間(晶片)通過門(互連)連接。整個樓層一次性建成(晶圓級工藝),形成一個封裝好的元件基座結構。寫在最後這兩種方法都使我們能夠在同一封裝中安裝更多的晶片,從而提高性能。隨著電晶體尺寸縮小速度放緩, 2.5D 和 3D IC 等“超越摩爾”創新技術是保持晶片性能的關鍵。它們能夠:通過縮短互連長度實現更快的資料移動通過高效的通訊路徑降低功耗緊湊的裝置外形對於移動和邊緣裝置至關重要在一個晶片平台上整合多種技術(例如邏輯、儲存器、RF、感測器)Yole Dévelopement的市場預測估計,受人工智慧、5G、HPC 和汽車領域需求的推動,先進晶片封裝市場將從 2023 年的 35 億美元增長到 2030 年的 100 多億美元。在 2.5D 和 3D IC 之間進行選擇,取決於應用的性能、功率、尺寸和成本要求。2.5D 提供均衡且經濟高效的解決方案,而 3D IC 則以更高的整合密度突破了性能界限。半導體的未來將在很大程度上依賴於這些架構,以滿足人工智慧、5G、邊緣計算等領域不斷增長的需求。對於工程師、投資者和技術愛好者來說,瞭解這些封裝創新至關重要。 (半導體行業觀察)
Google I/O 2025:搜尋帝國的自我革命與AI翻身仗
上世紀末,Google的搜尋引擎永遠地改變了人們獲取資訊的方式。25年後,這家如今的科技巨頭大膽宣稱:未來的搜尋將是一個完全由AI驅動的世界。今年5月,Google在其最大的開發者盛會Google I/O上推出了AI重塑的搜尋引擎,使用者可以向AI提出複雜的問題,甚至加以追問,而AI會進行相應的搜尋並回答你的提問。這不僅是巨頭的一場自我革命,更是對Perplexity和OpenAI等AI新貴的強力回應。同時發佈會還推出了Gemini 2.5 Pro模型、XR眼鏡等一連串重磅更新,其實Google在技術上的實力毋庸置疑,但其產品化能力卻一直備受質疑。我們在I/O現場的明顯感受是:如今的AI之爭不再是拼誰的模型跑分高,而是拼誰能先把AI真正用起來。生成式AI的熱潮正在褪去,AI Agent的時代已經開始了。但在這些技術突破之外,大家更關心的問題是:Google,還是那個能夠顛覆行業的Google嗎?這家公司有技術、有人才、也有錢,但近幾年來推出的產品好像總差點意思:雖然Transformer架構誕生於Google,但從中受益最多的卻是OpenAI;如NotebookLM這樣的產品,儘管初看驚豔,但似乎在商業應用上有些“雷聲大雨點小”。本篇文章我們就藉著這次I/O的機會聊聊,現在AI產品的競爭,到底是在拼什麼?01Google I/O更新內容Chapter 1.1 AI Mode重塑搜尋從去年I/O開始,Google加入了名為AI Overview的AI生成摘要功能。雖然AI Overview曾因為“建議在披薩上塗膠水”等回答被使用者吐槽,但Google表示,這項功能的月活躍使用者已經超過15億。它現在也將從實驗室畢業,推廣至200多個國家和地區、支援40多種語言。本次更新的AI mode則是AI Overview功能的一次升級,是Google最核心的搜尋功能結合了Gemini 2.5模型後的產品:Google不再是簡單地提供AI總結,而是可以回答覆雜、多步驟的問題,未來還會支援更複雜的體育與金融資料問題,甚至呼叫使用者的個人資料生成個性化的答案。AI Mode也加入了一個叫做Deep Search的功能,與OpenAI的深度搜尋對標,在收到使用者的問題後生成一份帶引用來源的完整報告,能節省好幾個小時的研究時間。Google官方建議,Deep Search適合於購物等容易犯選擇恐懼症的場景。AI接管購物流程的例子比比皆是,AI試穿就是一個很有趣的例子:AI Mode下,使用者上傳自己的照片,AI就能模擬你穿上某件衣服的樣子。Google說這個“試穿”功能可以識別不同布料、彈性和3D形狀,現在已經在Labs中上線。幾個月後,Google還會推出一個“自動下單”工具:當商品降到使用者設定的價格後,AI Agent可以主動幫你下單(當然,最終仍需使用者點選確認)。未來還會有“Search Live”功能,能直接結合手機的攝影機,讓AI根據使用者眼前看到的東西即時對話、提供資訊。從去年的AI Overview到今年的AI Mode,再加上各項套用多模態模型,基於Agent的功能,萬變不離其宗的都是Google核心的搜尋技術,也說明了一點:Google意識到,它必須重新定義搜尋,才能在AI時代保住它的地位。過去二十年,“搜尋等於Google”,這是一個毋庸置疑的事實。但進入生成式AI時代後,一切開始動搖。2022年ChatGPT剛上線的時候,Google立刻拉響紅色警報,意識到AI正在威脅它的舒適區。但那時候,Google沒怎麼動,畢竟它不是初創公司,手上捧著的是年營收超過2000億美元的搜尋業務,佔了全公司一半以上的收入。你很難指望這樣一個體量的巨頭,敢拿出“會幻覺”的AI,直接替代穩妥靠譜的搜尋引擎。於是,Google選擇了穩一點、慢一點。但三年過去,它卻不得不面對一個現實:搜尋這塊最核心的地盤,真的開始被類似Perplexity和OpenAI這樣的AI初創公司搶走了。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:隨著AI、GPT等新的工具和流量入口的出現,我覺得對Google、尤其是對華爾街最大的困擾是:Google還能不能保持它在搜尋上面的優勢地位?丟市場份額是一定的,但是丟到什麼程度、要付出的代價還不確定。今年五月的一起反壟斷案的庭審中,蘋果高管Eddy Cue承認:Google的搜尋流量在過去22年裡首次出現下滑,因為越來越多使用者開始用AI搜尋替代傳統搜尋。這對Google的打擊,尤其在資本市場上是巨大的,我們會在最後一章展開分析。Google在本次I/O的發佈中,便是在用這一整套AI搜尋系統守住它的護城河——這不僅是技術的更新,更是使用者習慣的重塑。但是,這不可避免的也會涉及智慧財產權的問題以及和內容出版商之間的漫長博弈;而這也將是我們接下來關注的重點。Chapter 1.2 Gemini能力提升對於關注I/O的開發者來說,搜尋以外最讓人興奮的更新應該是Gemini 2.5的各大新功能。GoogleDeepMind的CEO Demis Hassabis在展示Gemini 2.5的時候,重點強調了它能深度思考的能力,這個過程被稱為“Deep Think”。Deep Think採用了所謂的“平行推理技術”,允許模型在生成回答之前,探索多個可能的解答路徑,從而提高答案的精準性。Sergey BrinAlphabet Inc.聯合創始人兼董事:如果AI能夠在提供方案之前先深度思考,顯然會更加強大,而我們現在看到的只是AI能力的冰山一角。這些能深度思考的模型出現還不到一年時間,尤其是AI在其思考過程中還可以使用許多工具,甚至利用其他AI來改善最終輸出結果。因此,我認為這將是一個非常強大的範式。Google這次還給開發者帶來了兩個新的訂閱服務:月費20美元的Google AI Pro和月費高達250美元的Google AI Ultra,直接對標ChatGPT Pro和Claude Max(兩個服務各為200美元/月)。Ultra使用者可以使用Google最新的圖像模型Imagen 4和視訊生成模型Veo 3,還能搶先體驗最新AI能力,比如自動生成帶音效的視訊畫面。Shaun WeiHey Revia創始人ex-Google Assistant:無論是OpenAI的Sora,還是文生圖(Text To Image)、文生音訊(Text To Audio)等各種各樣的嘗試,大家都想達到一個目標:把大腦裡面想像的東西變成電影的畫面。我覺得在Google的發佈會上,我看到了真正把想法變成視訊的演示。對於大部分使用者而言,Gemini Live的攝影機和螢幕共享功能也已經在移動裝置上開放了。使用者可以邊走路邊拍攝周圍街景,直接問Gemini:“這棟建築是誰設計的?”或“這是什麼風格?”,而AI會基於手機即時畫面回答問題,幾乎沒有延遲。該功能背後依託的是Google的多模態AI系統Project Astra,它能理解圖像、語音、文字,並與你進行自然對話。不久之後,Gemini Live還將與各項Google的效率產品整合。使用者可以邊對話,邊建立日程、生成路線或安排待辦事項。而Project Astra這個多模態系統,其實也寄託了Google在AI上最大的野心。它本身並不是一個面向消費者的產品,DeepMind的Greg Wayne將它看作一輛“概念車”,展示Google對未來AI助手的全部想像。它背後的目標只有一個:打造一個真正通用、懂你、會幫你做事的AI助手。在I/O上,Google宣稱Astra不再只是被動等使用者提問,而是自己判斷什麼時候說話、說什麼話。比如你正在寫作業,它能看出你哪裡算錯了,直接提醒你;又比如你在間歇性斷食,它甚至會在你打破禁食時間前問,你確定你現在應該吃東西嗎?Hassabis將Astra稱為讀空氣的AI(reading the room),認為這才是真正的助理。Project Astra的很多功能,未來會逐步下放到Gemini和其他Google產品中。但實際上已經有一個應用場景呼之慾出了,這就是眼鏡。Chapter 1.3 XR眼鏡今年I/O展示的硬體更新並不多,但眼鏡可以說是大家關注的主角。在I/O上,Google展示了和三星、Gentle Monster、Warby Parker等品牌合作開發的一款樣機。這幅XR眼鏡叫做Android XR,並且搭載了Gemini AI。演示上展示的幾個功能包括了即時翻譯、導航輔助、視覺識別等等。我們也在現場體驗了這款XR眼鏡。眼鏡本身佩戴感很好,與普通眼鏡重量幾乎無差。戴上眼鏡後,除了發佈會視訊中演示的與Gemini交流、播放音樂之外,還可以使用Gemini鑑賞油畫、根據風景圖片分辨並制定相應地點的旅行計畫等。雖然並沒有體驗到發佈會演示中用XR眼鏡看地圖和即時翻譯的功能,不過總體而言,這個體驗很新奇,也很符合大眾對XR眼鏡的期待。當然,Google這次一口氣發佈了十幾項更新,聚焦在AI及各類開發工具。這就比如說可以基於瀏覽器執行複雜任務的多模態AI agent Project Mariner。作為做中英文內容的創作者,我們最感興趣的功能之一,其實就是跨語言的即時轉換。如果一個AI助手能在我們錄製播客或剪輯視訊時,直接把中英文內容自然地同步處理並轉寫,那將極大提升我們的效率。以上是粗略的體驗分享,這也體現了Google這樣的巨頭在AI時代的獨特優勢:行業領先的模型、全球搜尋流量,和強大的底層技術。用Google自己的話說,這種規模(scaling)是初創公司很難趕上的。接下來聊聊開發者希望從今年的AI模型更新中看到的新能力。02開發者想看到什麼?Kimi KongEnergent.ai聯合創始人ex-DeepMind:Google I/O讓我印象最深的是Google對於它旗下模型和產品的橫向廣度與縱向深度的一個整合。這讓我覺得,Google對於未來已經進行了全面佈局。Kimi Kong曾在GoogleDeepMind工作,參與過大語言模型評測和AI Agent兩個關鍵項目。他認為,本次Google I/O的最大亮點之一,是Google展示的“大一統模型”的雛形。從廣度上來看,只需要一個Gemini模型,就可以執行問答、程式碼生成、多輪對話、圖像識別、視訊理解等多種任務,涵蓋了開發者在不同模態下的主要應用場景。從深度上來說,Google不僅提供模型能力本身,還進一步展現了這些能力如何被落地到真實產品中,給開發者留下了極大的想像空間。比如,在搜尋這個縱嚮應用中,AI不僅能在雲端幫助使用者生成結構化答案,還可以部署到可穿戴裝置。就像我們在體驗XR眼鏡的時候,只要是視野內看得到的問題,就可以向Gemini提問,而Gemini會幫我我們進行搜尋。然而,在眾多更新裡,其實很難看出最後哪些能夠在產品化上實現成功。Shaun WeiHey Revia創始人ex-Google Assistant:Google的產品一直是它的弱項,大家都知道這點。所以我覺得,Google這次就是要圍繞它強勁的Gemin模型來打造自己的生態。Shaun Wei曾在Google負責語音助手項目。他告訴我們,從外部來看,Google目前的策略就是一次性發佈大量產品。一旦發現哪個產品真正跑的出來,就可以再加大投入。比如,2023年7月發佈的NotebookLM,一開始只是一個相對小的項目,但面向公眾開放後卻收穫了大量好評,於是Google才開始傾斜資源。而Google自己強大的技術是毋庸置疑的,主要有幾方面優勢:1.硬體生態2.自己的雲服務Google Cloud以及資料中心3.海量可以用於訓練AI的資料4.強大的演算法團隊Shaun WeiHey Revia創始人ex-Google Assistant:Google在底層的時候就已經比大部分公司有優勢了,基本上沒有多少公司能做這個事情。所以Google如果通過一年的努力變成整個模型的第一,我不會覺得奇怪。在Google提供了全端式服務之後,那些做AI Agent的初創公司還做得下去嗎?Shaun WeiHey Revia創始人ex-Google Assistant:對於To C的公司確實是影響會非常的大,因為大公司的模型能力很大,而且大部分巨頭最先考慮的就是面向C端使用者來擴大能力。其實很多簡單的功能,比如打電話,AI Agent只需呼叫一個工具就能做的事情,它開發的門檻是越來越低的。如果你解決的垂直賽道里邊,它的工具量特別的少,或者它對於整個商業、工作流的邏輯特別少的話,確實有可能會直接被大公司取代。Kimi KongEnergent.ai聯合創始人ex-DeepMind:百家齊放的狀態也給初創企業帶來了機會:正因為不同模型各有所長,才有了初創企業把不同模型整合、完成非常複雜的任務,並捕捉這個垂直且深度市場的機會。在聊完Google在技術層的突破後,我們再來看看,華爾街現在怎麼看待Google這家公司的。03華爾街想看到什麼?Google I/O首日,Google的股價跌了1.5%。5月21日(I/O的第二天),Google的股價開盤上漲5個點。各大銀行分析師都指出,Google的AI資產被低估了。I/O期間的發力,很可能是Google成功打贏這場AI競爭的核心。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:追重要的是Google的全端式服務(Full Stack),真正地利用好了Google所有AI能力,包括它現有的龐大的使用者群、它強大的分發能力(distribution)。把AI的能力完全地巢狀進來,變得特別的清晰。正如前文反覆提及的,這就是Google作為一家科技巨頭難以被超越的地方。在I/O之前,資本市場對Google一直有一個疑問:為什麼大部分突破性的技術都發源於Google,但從中收益、將這些研究產品化的卻是別人?可以說Google是起了個大早,趕了個晚集。Google現在終於在I/O期間初步證明了自己產品化的能力。然而,這並沒有解決Google的核心問題:AI搜尋可行,但卻不一定能夠盈利。過去Google之所以可以通過搜尋賺的盆滿缽滿,主要是因為廣告:使用者的每一次搜尋,其實背後都有一場無聲的競價戰。廣告商會通過關鍵詞付款,所以那些關於購物和比價的搜尋,都是Google源源不斷的印鈔機。但是在AI搜尋模式下,還仍然沒有一個投放廣告的方式。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:我試用了Google的AI mode,當我問它lululemon新出的裙子時,看不到任何能夠放廣告的地方,它也沒有想到插廣告的辦法,這也是業界的爭論點。我覺得,什麼時候大家找到了在AI對話裡面怎麼合理地去放廣告、收廣告,新的機制被搭建起來之後,這個問題才算解決。但除了I/O期間的股價變化之外,Google今年的股價其實一直沒有大幅度的突破,自二月達到52週最高點後就持續回呼。同時,川普4月初宣佈全球關稅之後,依賴於出海電商廣告業務的Google和Meta都受到很大影響,所以也在那段時間出現了下跌。但總體來說,五月之前股價的變化和Google公司本身的營運狀況關係並不大。5月7日,Google的股價卻迎來一次大幅下跌,最大的原因就是之前提到的蘋果高管Eddy Cue的發言,認為Google的搜尋業務正在受到AI威脅。但其實這裡還有一個更大的背景,就是Google正在面臨兩項由美國政府發起的重大反壟斷訴訟。第一起訴訟指控Google在搜尋引擎市場中濫用其主導地位,利用與裝置製造商和瀏覽器的默認設定協議,阻礙競爭對手的發展。第二起訴訟則聚焦於Google在數字廣告領域的行為,指控其通過收購和整合廣告技術平台,非法維持其在廣告市場的壟斷地位。這些訴訟不僅可能導致Google被迫改變其商業模式,甚至面臨拆分公司的風險。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:當然,這並不代表Google立刻就要被分拆,Google在這方面的訴訟非常有經驗,也花了很多錢在律所、法務團隊上。想要提起訴訟並真正拆分Google,會是一個非常耗時間的過程,即使需要5年、10年也不奇怪。但是,有了這麼多年打官司的經驗,控方也越來越理解Google在廣告科技(advertising tech)市場上的壟斷到底是怎麼實現的,這對Google造成的風險也確實是越來越大的。但是我認為,市場還沒有真正定價(price in)這點,如果這點變得越來越清晰,Google是有風險被拆分的,到時候會有新一輪的定價。04巨頭依然有難以比擬的優勢不管是從技術還是商業角度來看這次GoogleI/O的發佈會,大家的共識都是:巨頭確實具備難以比擬的優勢。在此之前,Google似乎沒有抓住這個競爭優勢,所以這次的發佈會,很大程度上給大眾吃了一劑定心丸。但就像我們採訪嘉賓分析的那樣,Google這個搜尋巨頭可能確實用AI“革了自己的命”,但這家公司真的還能保住自己的霸主地位嗎?對這個問題,它可能很難給出回答。就像Google很久沒路面的Google聯合創始人Sergey Brin說的那樣:由於AI的出現,我們很難想像十年後的網際網路,甚至十年後的人類世界。以上就是矽谷101對Google I/O以及Google自我革命的梳理,也歡迎大家留言你的想法與感受。 (矽谷101)
Gemini 2.5實現視頻理解重大突破:一口氣處理6小時視頻,任意視頻秒變互動網頁
Google的Gemini 2.5 Pro在視訊理解領域又有了重磅進展,現在可以一口氣處理長達6小時影片了!首先,硬實力槓槓的! Gemini 2.5 Pro 在十幾個學術視訊基準測試中取得了新的SOTA(業界最佳)成績,而且是在零樣本或少樣本訓練的情況下,直接叫板那些經過精細調優的專業模型。例如在YouCook2密集字幕生成和QVHighlights高光時刻檢索這類高難度任務上,表現都相當驚艷Gemini 2.5首次實現了原生多模態模型能夠將音訊視訊資訊與程式碼等其他資料格式無縫結合。不是簡單地「看懂」視頻,而是能基於視頻內容進行更深層的理解和創造。Gemini 2.5不僅在傳統影片分析上表現卓越,還解鎖了許多我幾個月前想都不敢想的新玩法,下面幾個例子,感受一下Gemini 2.5的視頻理解能力直接把影片變身網頁互動應用怎麼玩? 給Gemini 2.5 Pro一個YouTube影片連結和一段文字提示(例如告訴它如何分析影片)。模型會先分析視頻,產生一個詳細的“學習應用規格說明書”,提煉視頻中的關鍵點然後呢? 這份規格說明書再餵給Gemini 2.5 Pro,它就能直接產生這個學習應用的程式碼!實例: 看影片實現「視力矯正模擬器」應用影片一鍵產生p5.js動畫想幹嘛? 想要快速產生影片的動態摘要,或是進行自動化內容創作?Gemini 2.5 Pro: 只需一個提示,就能從影片中產生動態動畫,並保持與原始影片相同的時間順序實例:輸入一段倫敦地標遊覽影片(油管連結:https://youtube.com/watch?v=hIIlJt8JERI),Gemini就能產生p5.js程式碼,輸出一個動態動畫效果精準檢索與描述影片片段痛點: 從長影片找特定片段太費力?Gemini 2.5 Pro: 利用音視覺線索,辨識精準度遠超過過去。例如,在一個10分鐘的Google Cloud Next '25開幕演講影片中,它能準確識別出16個與產品演示相關的不同片段,並給出帶有時間戳的描述強大的時序推理能力(計數):挑戰: 不僅要看懂,還要理解時間序列上的微妙關係,例如計數Gemini 2.5 Pro: 例如它成功找出了主角使用手機的17個不同場景。這對於理解影片中的行為和模式至關重要最後,還有一個重磅實用更新:低媒體解析度(low media resolution)功能正式上線!這個功能現在已經登陸Gemini API,很快也會在AI Studio和Vertex AI上線它的牛X之處在於,能在性能損失極小的情況下,將每幀影片的視覺token從258個銳減到66個!這意味著什麼?在200萬token的限制下,以前能處理2小時的視頻,現在能處理長達6小時!處理效率大幅提升,成本也下來了!注意:Gemini 2.5 Pro & Flash視訊理解都很強 (AI寒武紀)
Gemini 2.5 Pro強勢更新並霸榜,Claude 3.7首次遭遇全方位碾壓!
Gemini 2.5 Pro 更新來了,這次的Claude 3.7被打得毫無還手之力!這兩天AI界最引人注目的新聞莫過於Google DeepMind推出的最新模型Gemini 2.5 Pro在LMArena各大排行榜全面登頂了!而且,這不僅僅是簡單的一兩個領域的領先,而是首次實現了文字、視覺、Web開發全方位霸榜,Claude 3.7甚至首次在WebDev Arena上失守。Gemini 2.5 Pro霸榜之路,勢不可擋!根據LMArena(@lmarena_ai)的消息,Gemini 2.5 Pro橫掃多個AI競技場:文字領域(程式碼生成、風格控制、創意寫作等)穩居第一;視覺能力碾壓其他選手,領先幅度高達70分;Web開發能力首次超越Claude 3.7,躍居榜首!這也是史上第一次有單一模型在文字、視覺和Web開發領域實現如此全面的統治。從LMArena公佈的資料來看,Gemini 2.5 Pro的表現不僅贏得了榜單,更贏得了社區使用者的高度認可。Google DeepMind的新大招:編碼能力再升級Google DeepMind官方發推表示,他們推出的Gemini 2.5 Pro(I/O版)在編碼能力上做了重大升級:你可以用一個提示詞建構更豐富的網頁應用、遊戲、模擬環境等等。他們還展示了通過@GeminiApp如何從自然界的圖片中快速生成對應的程式碼,展示了模型令人驚豔的創造力:不僅如此,Gemini 2.5 Pro在WebDev Arena中首次超過Claude 3.7,這個榜單主要測試模型建構吸引人的網頁應用的能力。Google官方也在推特中強調了這一突破:此外,這個版本還顯著提升了程式碼轉換、編輯能力和開發複雜智能體的表現。開發者們現在可以在Google AI Studio、Vertex AI以及Gemini App中使用這個強大的新工具。為什麼新版Gemini 2.5 Pro如此厲害?Gemini 2.5 Pro能有如此表現,並非偶然。官方表示,此次更新主要針對使用者在實際編碼中的痛點做了針對性的最佳化,例如:顯著減少呼叫工具的失敗率;增強了多模態推理能力;改進了視訊理解能力,在VideoMME基準測試中取得了高達84.8%的表現;全新升級的UI介面建構能力,讓Web應用更美觀、功能更強大。Google DeepMind CEO Michael Truell還特別強調了其內部觀察:「新版Gemini 2.5 Pro顯著降低了呼叫工具的失敗率,極大提高了實際編碼場景中的效率。」創造力的新天地Google發佈的官方部落格中表示,Gemini 2.5 Pro已通過Google AI Studio和Vertex AI全面向開發者開放,使用者可以在Gemini App中體驗各種豐富的功能,如Canvas功能。部落格地址:https://blog.google/products/gemini/gemini-2-5-pro-updates/TheQuickTechGuy(@GoogleDeepMind) 表示對Gemini 2.5 Pro能力的認可:「將自然圖片轉化為程式碼,這種創意真是太棒了!期待它在更複雜的Web應用和模擬環境中的表現。」而Andrew Hoskins(@NeuralNinjas)也對Gemini 2.5 Pro給出了很高的評價,同時好奇下一次能否有競爭對手@Grok出來挑戰一下:「Google DeepMind 🔥恭喜!不知道@grok能不能下一次奪回冠軍?」一些質疑和看法但並非所有人都盲目樂觀,比如Vladimir Goncharov提出了一些嚴肅的質疑,他表示新版本在幾個測試中反而有退步,比如:HLE測試:18.8 → 17.8 🔴GPQA:84.0 → 83.0 🔴SimpleQA:52.9 → 50.8 🔴雖然有一些指標有提升,比如LiveCodeBench和Aider,但整體上表現不如預期,他認為Gemini 2.5 Pro實際表現更像是Gemini 2.4。Gemini 2.5 Pro全面領跑儘管存在一些質疑,但Gemini 2.5 Pro此次的表現足以證明,它在文字、視覺和Web開發領域的綜合能力已經登頂,目前看來,短期內難有對手。這個最新版本甚至提前在Google I/O大會之前發佈,也引發了許多使用者對大會將有更多驚喜的期待。此外Google DeepMind首席科學家Jeff Dean還指出,Gemini 2.5 Pro的更新修復了03-25初始版本中人們注意到的功能呼叫問題:Gemini 2.5 Pro,AI領域的全新標竿,喊話Anthropic 將全面取代Claude 3.7成為當下最炙手可熱的模型:不服來戰!(AGI Hunt)
Google再次創造歷史:Gemini 2.5 Pro 通關《寶可夢:藍色》!
人工智慧寶可夢終於實現了! GoogleGemini 2.5 Pro 模型,剛剛成功通關了經典遊戲《寶可夢:藍色》GoogleCEO桑達爾·皮查伊(Sundar Pichai) 和DeepMind 負責人戴密斯·哈薩比斯(Demis Hassabis) 都發文祝賀,感謝了運行這個直播實驗的工程師Joel Z這事兒怎麼來的?首先得介紹下Joel Z,他是個30歲的軟體工程師,跟Google沒有直接關係。他搞這個實驗,是因為Gemini 2.5 Pro 出了個實驗版,大家就好奇它玩遊戲怎麼樣。於是,就有了這個"Gemini Plays Pokémon" 直播這個項目受到了另一個類似項目"ClaudePlaysPokemon" 的啟發。不過Joel Z 選擇了《寶可夢:藍》,一是因為Claude 已經在玩《紅》了,二是因為《藍色》是他自己玩的第一款寶可夢Gemini 是怎麼玩遊戲的?這才是重點。這個項目不是簡單地讓AI 瞎點,而是建構了一套自主決策系統:連接遊戲: 程式碼透過Socket 連接到mGBA 模擬器,能即時截圖、傳送按鍵指令(A、B、上、下等),還能讀取遊戲記憶體資料,例如玩家位置、寶可夢狀態、地圖資訊等AI 決策: 系統把帶網格線的遊戲截圖,加上從記憶體擷取的遊戲狀態資訊,發給Gemini 2.5 Pro。 Gemini 分析這些資訊,決定下一步操作專業「外援」: 有時候,Gemini 會把特定任務交給專門的「智能體」(Agent)來處理,以提高效率和可靠性執行與循環: 系統解析AI 的指令,轉換成具體的按鍵,傳送給模擬器,等遊戲畫面更新,然後重複這個過程它和Claude 玩寶可夢有啥不同?Joel Z 特別強調,不要把這看成是LLM 玩寶可夢的基準測試。兩者有很多不同:導航方式:  Claude 有自動導航工具。 Gemini 沒有,它需要自主決定目的地,然後要麼自己規劃路線,要麼呼叫一個路徑規劃智能體(Pathfinder Agent,其實是另一個Gemini 實例)來尋找最優路徑。這個智能體能獨立思考,甚至​​用BFS(廣度優先搜尋)這類演算法來規劃資訊獲取: 兩者接收到的遊戲資訊和使用的工具不同思維模式: 每個模型思考方式不同,各有擅長所以,別直接比較誰“更強”,不如都看看,感受下不同AI 的“思路”。 Joel Z 也坦言,他覺得Claude 的框架有些不足,想看看給Gemini 配上合適的工具後能走多遠關於「作弊」的討論直播過程中,有觀眾注意到Joel Z 會進行一些干預,還有那張小地圖,這算不算「作弊」?開發者干預:  Joel Z 解釋說,這不是作弊。項目還在開發階段,他的干預是為了改進Gemini 的通用決策和推理能力,而不是給具體關卡的提示(例如沒告訴它怎麼過月見山)。唯一接近“提示”的是,告知Gemini 需要和某個火箭隊員對話兩次才能拿到電梯鑰匙,這其實是原版遊戲的一個小“坑”,在後續版本修復了。他提到,Claude 項目在直播前也做過類似的幕後最佳化,Gemini 只是把這個開發過程公開了小地圖: 遊戲介面上方那張小地圖,是Gemini 探索區域的可視化。 Gemini 本身看不到圖像,只接收文字形式的地圖資訊。 Joel Z 認為,人類玩遊戲會自然形成心理地圖,目前的LLM 還做不到,小地圖是為了彌補這個能力缺陷,並非作弊限制Escape Rope / Dig:  Gemini 只有在低血量且沒有治療道具時才能使用「穿洞繩」或「挖洞」。這是因為LLM 還不太擅長判斷自己是真卡關了,還是暫時迷路。這個限制強制Gemini 更多依賴地圖記憶和路徑規劃**,能更清晰地展示其推理過程,避免一遇到困難就“抄近道”特色“智能體”除了核心的Gemini 模型,系統還引進了兩個專門的LLM 智能體:路徑規劃智能體(Pathfinder Agent): 如前所述,負責複雜區域(如火箭隊基地的旋轉地板迷宮)和一般場景的尋路推箱子策略師(Boulder Puzzle Strategist, BPS): 專門為「冠軍之路」的推箱子謎題設計。它能模擬推箱子的序列,找出有效的解法,提高了Gemini 應對這類挑戰的可靠性記憶體管理為了控制輸入給模型的Token 數量,系統大約每100 次操作就會對訊息進行一次總結,用總結替換掉原始訊息。未來計畫(暫定)Joel Z 的想法還包括:改進記憶體管理機制讓Gemini 能記筆記,記錄重要資訊給Gemini 更豐富的遊戲狀態資訊(進行中)探索讓觀眾在不劇透的前提下與Gemini 互動的方式等框架穩定後,進行一次完全無干預的通關嘗試嘗試用其他LLM(如Claude 或o3)進行對比實驗 (AI寒武紀)