#GoogleGemini | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#GoogleGemini

拍照就能出歌！GoogleGemini攜Lyria 3殺進AI音樂圈，7.5億使用者免費玩，Suno們慌了？

想給朋友圈的日常片段配一首專屬BGM，卻苦於不會寫詞編曲；想給朋友的生日準備一首定製祝福歌，卻連簡譜都認不全；想給自家貓咪的曬太陽日常配一首慵懶小曲，翻遍版權庫都找不到合心意的旋律——這些普通人的小遺憾，如今被Google一出手就徹底解決了。2026年2月18日，Google正式在Gemini中上線了旗下DeepMind研發的最新AI音樂生成模型Lyria 3，直接把AI音樂創作的門檻踩到了泥土裡。從文字、圖片、視訊到音樂，Gemini終於補齊了多模態創作的最後一塊拼圖，而這一次，Google直接把AI音樂從「小眾發燒友的工具」，變成了7.5億月活使用者人人能玩的「大眾玩具」，也讓此前在AI音樂賽道風頭無兩的Suno、Udio們，瞬間感受到了刺骨的寒意。Lyria 3最動人的地方，不是冰冷的參數升級，而是把「創作一首歌」這件事，變得比發朋友圈還要簡單。Google為普通使用者準備了三種零門檻玩法，網頁端今天就能上手，手機端也將在幾天內完成推送。最基礎的文字生成音樂，徹底解放了普通人的創作欲。你不用懂樂理，不用寫歌詞，那怕只是隨口說一句「寫一首搞笑的90年代R&B慢板情歌，主題是一隻襪子終於找到了它的另一半」，或是「給媽媽做一首非洲鼓點的歡快歌曲，紀念小時候她給我做的烤大蕉」，Gemini都能在30秒內，給你交出一首完整的成品——有量身定製的歌詞，有貼合情緒的演唱，有層次豐富的編曲，甚至連歌曲封面，都會由Nano Banana Pro模型自動生成，直接就能下載分享。更讓人驚喜的是圖片與視訊生成音樂，這也是Google甩開一眾競品的王牌能力。你只需要上傳一張照片、一段視訊，Gemini就會自動分析畫面裡的內容、情緒與故事，自動填詞譜曲。貓咪窩在陽台曬太陽的照片，能生成一首慵懶鬆弛的爵士小曲；戶外徒步的風景視訊，能生成一首開闊治癒的民謠；甚至是朋友聚會的搞怪合照，也能變成一首歡快熱鬧的流行歌。不用你絞盡腦汁寫提示詞，畫面本身，就是最好的創作靈感。那怕你完全沒有創作靈感，Google也準備了現成的範本與動態建議，從lo-fi節拍、拉丁流行到可愛金屬樂，幾十種風格任選，改一改細節就能生成屬於自己的歌，真正做到了「人人都能當30秒的音樂家」。相比前代模型，Lyria 3的升級堪稱脫胎換骨。此前的Lyria模型，還需要使用者自己提供歌詞，而現在，從歌詞創作、編曲譜曲到人聲演唱、封面製作，全流程一步到位。使用者還能對音樂風格、人聲特點、節奏快慢等核心元素進行精細調整，生成的曲目也擁有了更真實的聽感、更複雜的編曲結構，徹底擺脫了早期AI音樂的生硬感。更關鍵的是，Google從一開始就避開了AI音樂行業最大的雷區——版權爭議。此前Suno、Udio都曾被三大唱片巨頭告上法庭，關於訓練資料版權、藝術家聲音模仿的爭議從未停歇。而Google給出了一套更周全的解決方案：Lyria 3從底層就定位於「原創表達」，而非模仿現有藝術家。即便你在提示詞裡提到了某個歌手的名字，它也只會將其作為寬泛的風格參考，而非直接復刻其聲音與作品。同時，所有用Lyria 3生成的曲目，都會嵌入Google的SynthID隱形水印，既不會影響聽感，又能精準識別音訊是否為GoogleAI生成。Gemini也同步上線了音訊驗證功能，你只需上傳一段音訊，就能快速確認它是否出自Google的AI工具，這套此前已經在圖片、視訊領域成熟應用的技術，如今補上了音訊領域的最後一塊短板。Google還設定了內容過濾機制與侵權舉報通道，儘可能降低版權風險，這份穩妥，也是初創玩家難以比擬的優勢。很多人會問，Lyria 3隻能生成30秒的曲目，比起能生成完整歌曲的Suno、Udio，是不是根本不夠打？但恰恰是這個30秒的限制，藏著Google最精準的野心。Google從一開始就沒打算把Lyria 3做成專業音樂人的生產力工具，它瞄準的，是7.5億普通使用者的日常表達需求——朋友圈的配樂、短影片的BGM、給朋友的祝福小歌、記錄日常的小趣味，這些場景，30秒剛剛好。專業音樂市場終究是小眾的，而普通人的日常創意表達，才是真正的兆級市場。更別說Google還手握YouTube這個全球最大的短影片平台，隨著Lyria 3的上線，此前僅對美國使用者開放的YouTube Dream Track功能，也正式開啟全球推送。短影片創作者可以直接用Lyria 3，根據視訊內容生成專屬的原創配樂，不管是帶歌詞的演唱段落，還是純器樂的背景音，都能一鍵搞定，徹底告別了公共版權庫的同質化與版權風險，直接打通了「創作-生成-發佈」的完整閉環。這才是Suno、Udio們真正需要緊張的地方。它們還在卷「誰能生成更長、更專業的歌曲」，而Google直接換了賽道，用7.5億的海量使用者、零門檻的多模態創作能力、完整的內容生態，把AI音樂的全民化大門徹底推開了。當普通人拍張照就能免費生成一首專屬歌曲，當AI音樂從「需要特意學習的工具」變成「隨手就能用的日常功能」，賽道的遊戲規則，已經被Google徹底改寫。目前Lyria 3已經支援英語、德語、日語等8種語言，雖然暫不支援中文，但Google已經明確表示後續會擴展更多語言。可以預見的是，隨著Google的入場，AI音樂再也不是小眾圈子的狂歡，屬於每一個普通人的音樂創作時代，真的來了。(AI時代潮)

GoogleGemini，暴增140%！

Gemini的熱銷有望進一步提振Google CloudGoogle雲核心伺服器銷售業務的營收。Google旗艦AI大模型Gemini的呼叫量正迅速增加。綜合The Information、WebProNews等科技媒體報導，Google通過Google雲平台，以應用程式程式設計介面（API）的形式對外授權Gemini模型的使用權限，內部資料顯示，自今年3月Gemini 2.5版本首次發佈以來，Gemini介面呼叫量從約350億次一路攀升，到8月已增至約850億次，實現超過140%的增長；Gemini企業訂閱使用者已增長至800萬。另有一位瞭解Google銷售策略的人士表示，由於客戶在人工智慧業務上的投入往往會帶動其在Google其他產品上的支出，Gemini的熱銷有望進一步提振Google CloudGoogle雲核心伺服器銷售業務的營收。從一開始，Gemini便戰略性地嵌入了Google生態系統（包括Workspace和雲服務）。與此同時，這一增長勢頭還有望推動Google另一項尚處起步階段的業務——基於Gemini模型的軟體銷售。曾任職於Google雲的相關人士表示，這類軟體是Google提升人工智慧業務利潤率的關鍵抓手。該戰略的核心產品是Gemini企業版，這款產品不僅整合了GoogleGemini聊天機器人的使用權限，還支援企業跨資料來源檢索功能，並配備了人工智慧智能體的開發與應用平台。▌GoogleAI商業化加速兌現GoogleGemini是Google為應對生成式AI競爭而推出的多模態大模型，於2023年底正式發佈1.0版本，此後迅速迭代，2025年11月18日，Google發佈Gemini3，系Google目前最新、最智能的AI模型，性能實現強大躍升，在多項主流測試基準上達到state-of-the-art水平，相比Gemini2.5提升明顯，相對於OpenAI的GPT5.1也有不小幅度的提升。如今，Gemini的發展重點已從模型迭代轉向生態融合，深度整合進Google搜尋、Gmail、Workspace等核心產品，並與蘋果等巨頭合作，正致力於建構以AI為核心的個人化智能生態。Google去年秋季曾披露，公司計畫投入910億至930億美元用於資本開支，其中就包括支援人工智慧業務的相關投入，這一規模幾乎是2024年525億美元資本開支的兩倍。此外，Google還在持續為Google雲及其人工智慧研究部門Google DeepMind招募專業人才。Google、微軟、Meta、蘋果、亞馬遜是美國AI軍備競賽中投入最大的五家。在2025年第三季度財報電話會上，五家企業的高管都宣佈，會繼續投資AI。他們的用詞非常激進，亞馬遜CEO安迪•賈西說，公司正“非常激進地”投資於產能。GoogleCFO安納特•阿什肯納齊說，2026年預計資本支出將顯著增加。Meta計畫2026年大幅提升資本支出。微軟稱，將繼續在AI領域進行重大投資。蘋果也表示，會大幅增加AI研發投資。Google預計2025年的資本支出將在910億至930億美元之間；亞馬遜2025年預計總投入1250億美元；Meta預計2025年資本支出為700億至720億美元；微軟上季度宣佈，下一財年將投入1000億美元；蘋果預計未來4年在AI領域投資800億美元。從2025年第三季度財報來看，GoogleAI技術的商業化處理程序正在加快。此前，Google與蘋果公司的最新合作使Google母公司Alphabet的估值飆升至4兆美元。分析師指出，Gemini與Google雲業務的整合是推動這一增長勢頭的關鍵因素。Google雲業務在第三季度營收達152億美元，同比增長34%，其中AI相關收入已達到"每季度數十億美元"規模，雲業務訂單積壓環比激增46%至1550億美元。值得注意的是，目前廣告仍然是Alphabet的主要收入來源，由Gemini驅動的AI增強功能正在推動使用者參與度的顯著提升。財報顯示，其搜尋和其他廣告收入同比增長15%，達到566億美元，佔總收入的一半以上。諸如AI概覽和AI模式等創新功能吸引了超過7500萬日活躍使用者，徹底改變了消費者與搜尋的互動方式，並無意中提升了廣告曝光量。預計到2027年，廣告市場規模將達到1.3兆美元，Gemini在最佳化這些體驗方面發揮的作用將使Google繼續保持其市場主導地位。華鑫證券稱，Google在AI領域厚積薄發，當前已經進入全面發力階段。公司近來AI模型和應用更新明顯提速，模型能力優勢日益突出。此外公司傳統業務增長強勁，與AI業務形成有機協同，搜尋AI模式等整合效果顯著，有力打消了外界對其傳統搜尋業務被AI影響等質疑，建議繼續重視Google在AI模型和應用推廣以及AI算力部署等方面的進展。Google2025年四季度財報定於2月4日發佈。過去一年，Google在人工智慧賽道激烈競爭中投入的巨額資金是否開始產生回報，將成為投資者的關注焦點。 (科創板日報)

GoogleGemini霸榜：反彈還是反轉？

雖然Nano Banana的霸榜還不足以改變AI格局，但對Google而言，可以視為其找回使用者感覺的一個重要證據，是擺脫生態慣性建立AI原生思維的突破，這點非常積極。Google最近終於揚眉吐氣了一下：先是Gemini霸榜各大平台，首次全面超過了ChatGPT，再是股價暴漲，成為第四家市值超3萬美元的公司。ChatGPT一直是Google的痛，Google是幾大平台中最先全面投資AI的，它還發明了大語言模型的基礎模型Transformer，但卻被OpenAI搶先推出ChatGPT，那之後幾乎一直被按著打，只能被動應對，被貼上起了個早趕了個晚集的標籤。那麼這次霸榜是不是可以說Google實現了對OpenAI的反反超？可以從下面幾個方面來看：一是行業驅動力的切換，AI行業一直在基礎能力+應用的相互賦能的模式下進化，目前階段進入了應用驅動階段，應用的廣度與深度將決定AI競爭的位次，前者指讓更多的人類應用，後者指進入更多場景和細分應用領域。Google的優勢：在後者Google有作業系統的經驗，而且過去這些年一直在推動AI在各行各業的深耕。這次Google憑藉的就是差異化的應用——圖像生成工具Nano Banana，但總體上來看它和OpenAI還有不小距離，ChatGPT的月度活躍使用者超過了8億，Gemini大約為其一半。二是這次反超表明各大模型之間的差距仍然是時間上的，而非本質的，奧爾特曼也說OpenAI的領先可能只有幾個月，所以不能出錯。這對Google有利，Google可以利用商業模式深厚的優勢，在技術之外多維競爭，比如不停實施價格戰壓制等。三是Google從一開始就存在的兩大難點是否得以最終解決：一是其自有生態強大的企業，最大的陷阱，是在自己生態內的自娛自樂，對行業變化和使用者變需求不敏感，缺乏原生思維，不能真正建立使用者口碑，二是商業模式互搏，也就是搜尋模式與AI對話模式之間的衝突，這在很長時間一直壓制Google股價，但最近擔憂似乎有所減弱。雖然Nano Banana的霸榜還不足以改變AI格局，但對Google而言，可以視為其找回使用者感覺的一個重要證據，是擺脫生態慣性建立AI原生思維的突破，這點非常積極。如果解決了這兩個難題，Google有很大機率在競爭中勝出，並有希望因此競爭未來全球最有價值公司的寶座。 (尹生價值觀)

GoogleGemini登頂App Store：從DeepMind戰略看AI下一個爆發點

最近，GoogleGemini憑藉“Nano Banana”的爆火，在美App Store下載量超越ChatGPT，成為免費榜排名第一的應用。就在前幾天，這一爆款AI應用的真正締造者——諾貝爾化學獎得主、GoogleDeepMind CEO戴米斯·哈薩比斯（Demis Hassabis）現身All-In Summit 2025，進行了一場引人深思的分享，並全面闡述了GoogleAI戰略佈局。哈薩比斯現場沒有過多強調模型參數，而是從GoogleAI應用產品視角，勾勒出了一幅人工智慧深入現實世界、賦能多領域變革的路徑圖。他的觀點明確而深刻：我們正邁入一個AI全面爆發的時代——這不再是單點技術的迭代，而是一場系統級、多模態、跨領域的協同進化。從語言模型到世界模型，從蛋白質結構預測到藥物研發，從機器人控制到通用智能（AGI）的探索，哈薩比斯的敘述超越了產品和公司的範疇，指向一個更宏大的命題：AI 是否能夠真正理解世界、參與世界，甚至改造世界？Gemini：多模態引擎重塑人機互動在哈薩比斯的構想中，Gemini遠不止是一個多模態大模型。它既不侷限於對話，也不僅是搜尋的延伸，而是一種新型的“環境智能”。它能夠即時感知使用者所在場景，理解圖像、聲音、動作甚至意圖，並作出相應反饋。例如，當你手持手機環顧四周，Gemini 可以識別街道標誌、店舖類型、行人動態，並主動提供導航或建議；當你指著一份文件說“這裡需要修改”，它不僅能理解“這裡”所指的具體位置，還能就內容邏輯提出建議。這種能力已不再是傳統意義上的“自然語言處理”，而是對物理和語義環境的深度融合。哈薩比斯強調，Gemini 的核心突破在於其作為“下一代使用者介面”的定位。它正在被嵌入至Google的全線產品——Gmail、Workspace、地圖、搜尋引擎——成為連接人類意圖與數字服務的智能中介。其價值不在於回答問題本身，而在於如何在對的時間、以對的方式、提供對的幫助。這意味著：AI 正在從“等你提問”走向“主動理解”，從“文字互動”走向“場景融合”。Genie：從生成內容到模擬世界如果說 Gemini 是“理解現實”，那麼 Genie 就是在“生成現實”。Genie可以根據一句指令——比如“一個雨後的小鎮房間，窗外有月光”——即時生成一個完全可互動的虛擬場景。更為驚人的是，這個世界並非預先渲染完成，而是依據使用者的注視點和行為動態生成。你沒看到的地方，尚未“存在”；你所見之處，才被逐幀建構。這種能力背後，是 Genie 對物理規則、運動邏輯、空間關係的隱式學習。它通過分析海量視訊與遊戲片段，自主歸納出物體如何移動、光影如何變化、人與環境如何互動——本質上，它是一種通過資料驅動的“世界模擬器”。哈薩比斯指出，這遠不同於傳統的遊戲引擎（如Unity或Unreal），後者依賴人工預設規則和資產。而Genie展示的，是一種源於真實世界資料、卻又能創造新環境的生成能力。這不僅為遊戲、影視、虛擬現實帶來變革，更將成為機器人訓練、科學模擬、甚至城市模擬的基礎設施。換句話說，Genie 標誌AI 正式從“內容生成”邁入“世界建構”。機器人：多模態能力的終極體現在DeepMind的實驗室中，搭載Gemini的機器人已經能夠聽懂諸如“把黃色積木放進紅色桶裡”這樣的指令，並精準執行。這背後是語言、視覺與動作控制的統一建模。哈薩比斯特別指出，機器人技術的瓶頸從來不只是硬體，更是“理解”。傳統機器人依賴於預程式設計動作或孤立視覺識別，而Gemini賦予它們的是語義等級的環境理解與任務推理能力。例如，當你說“放回原處”，機器人能明白“原處”指那裡，並回憶之前動作的上下文。他透露，DeepMind 正在推進兩條路徑：一是打造通用機器人軟體平台（類似Android for Robots），使不同形態的機器人可共享同一套智能系統；二是開發特定場景下垂域深度最佳化的端到端機器人（類似蘋果軟硬一體模式）。儘管目前機器人仍處於“早期階段”，但哈薩比斯相信，未來五到十年將是其真正爆發的時間窗口。關鍵在於：AI 是否能夠穩定、可靠地在物理世界中執行指令，並適應人類為其設計的非結構化環境。AlphaFold：從諾貝爾獎到藥物革命2025年，哈薩比斯憑藉AlphaFold 獲得諾貝爾化學獎，但這在他看來“只是一個起點”。AlphaFold 解決了生物學中一個百年難題——蛋白質結構預測，將原本數年的時間的實驗過程壓縮至幾分鐘。但哈薩比斯的目標遠不止於此。他創立的 Isomorphic Labs 正在建構一套完整的AI藥物研發系統，涵蓋從靶點發現、分子設計、毒性預測到實驗推薦的全流程。目前，Isomorphic 已與多家頂級藥企達成合作，並已有六個藥物靶點進入研發管道。他們的目標是將藥物開發周期從“十年十億美金”壓縮到“幾年甚至更短”，並顯著提高成功率。哈薩比斯將這套系統比喻為“科學搜尋引擎”：輸入疾病，輸出潛在藥物方案。更重要的是，它是一個持續學習的系統：每一次成功或失敗都會反饋給模型，使其越來越精準。這不僅是一場技術革命，更是一種方法論的重構：科學研究正在從“經驗驅動”轉向“資料驅動+AI生成”。真正的AGI：尚未走完的最後一步儘管AI取得了顯著進展，但哈薩比斯對當前系統的侷限保持清醒認識。他明確反駁了目前“模型已達到博士水平”的說法，指出如果換個問法，AI可能連高中數學題都會答錯。哈薩比斯表示，我們離真正的通用人工智慧（AGI）仍有距離。他指出當前模型的四大侷限：1. 真正的推理能力缺失：模型可以複述知識，卻難以提出全新理論或跨領域類比。他舉了一個例子：讓現在的模型只掌握1901年的知識，然後看它能不能像愛因斯坦一樣在1905年提出相對論？這才是檢驗AGI的標準。2. 穩定的一致性的不足：同一問題不同問法可能導致回答不一致甚至自相矛盾。真正智能的系統應該在所有輸入方式下保持穩定表現。3. 持續學習的困境：當前大多數模型只能通過離線訓練提升能力，不會在日常互動中越用越聰明。4. 科學直覺的空白：偉大科學家與普通學者的區別往往在於直覺判斷能力，現在的AI還無法在不同領域間發現共性並應用到新問題中。在哈薩比斯看來，AGI 不是一個參數更多、規模更大的模型，而是一種能真正理解世界、進行創造性思考的系統。要實現這一目標，可能還需五到十年甚至更久的關鍵突破。最後，AI 的價值不在技術本身，而在其與世界的關係哈薩比斯的分享清晰地傳遞出一個訊號：AI 的發展正從“模型競爭”走向“系統能力”的整合。它的未來不再侷限於對話或生成，而是深度融合進環境、裝置、科研和產業之中。對於行業而言，這意味著：評估AI項目的標準不應再是“模型多大”，而是“能否真正跑通場景”；未來的競爭焦點將是多模態、跨平台、可落地的系統能力；人工智慧的價值，終將體現在它對真實世界的影響中。我們正在進入一個AI全面爆發的時代。它不是一次技術爆炸，而是一場靜默滲透的結構性變革——而這場變革，才剛剛開始。 (紅熊AI)

AI圈API大戰半年報：GoogleGemini獨霸半壁江山，DeepSeek悶聲發大財，OpenAI竟然沒進前三？

哈嘍哇，各位老鐵！AI尼歐哥我又雙叒叕來跟大家嘮嗑了！2025年這都過去一半了，AI圈的API大戰那是打得一個熱火朝天，風起雲湧。誰是真霸主？誰在裸泳？誰又在悶聲發大財？最近，推特上有位叫「karminski-牙醫」的大神，基於OpenRouter的資料，給我們扒了扒上半年大模型API市場的底褲。這不看不知道，一看嚇一跳！今天AI尼歐哥就帶大家好好盤一盤這份戰報，這瓜保熟，不好吃你來找我！/ 01 / 市場份額大洗牌：Google亂殺，DeepSeek瘋跑，OpenAI你人呢？先上乾貨，看看現在的API江湖座次表：1. Google (Google)：簡直是殺瘋了！一個人獨佔43.1%的市場份額，穩坐頭把交椅。Gemini系列全家桶，特別是那個便宜又大碗的Gemini-2.0-Flash，性價比直接拉滿，誰能頂得住啊！2. DeepSeek：全場最大黑馬，沒有之一！硬是靠著DeepSeek-V3模型，從巨頭嘴裡搶下了19.6%的份額，直接把Anthropic擠到了第三。這說明啥？光靠吹牛逼沒用，人民群眾不好騙，產品好用、使用者粘性高才是硬道理！3. Anthropic：Claude系列表現也還行，以18.4%的份額守住了第三的位置，在程式設計等專業領域還是有一批鐵粉的。4. OpenAI：最讓人大跌眼鏡的就是它！市場份額波動極大，不僅沒進前三，還被前面的大佬甩開了一大截。GPT-4o發佈時那麼大陣仗，結果在API市場就這？人已麻，這波操作我看不懂！AI尼歐哥辣評：這牌桌變化太快，就像龍捲風！Google用“性價比”和“全家桶”兩張王牌把市場拿捏得死死的。而DeepSeek這匹黑馬的出現，證明了技術實力才是真正的護城河。至於OpenAI，是不是心思都花在App和整活上了，API這塊地都快荒了喂！/ 02 / 細分戰場神仙打架：各家都有“自留地”！光看總份額不過癮，我們再深入敵後，看看在各個細分領域，誰才是真正的王者！* 程式設計領域：Claude-Sonnet-4是絕對的王！佔據了44.5%的份額，看來程式設計師老哥們寫程式碼還是最認它，專業能力這塊沒得說。* 翻譯領域：Gemini-2.0-Flash再次亂殺全場！便宜、量大、速度快，簡直是翻譯場景的完美選擇。前幾名裡有七款都是Google的模型，這統治力，恐怖如斯！* 角色扮演（RP）：這塊市場就比較“花”了，各種小眾模型百花齊放，主打一個“XP自由”。有意思的是，DeepSeek憑藉“高幻覺傾向”（說白了就是想像力豐富，能瞎掰）居然在這裡領先了。看來有時候，一本正經的AI反而沒有胡說八道的AI可愛啊！* 行銷領域：GPT-4o總算給OpenAI找回了場子！以32.5%的份額成為當之無愧的No.1。這說明在寫行銷文案、搞創意這塊，GPT的“嘴皮子”還是最溜的。AI尼歐哥辣評：API市場已經不是“一招鮮，吃遍天”的時代了。各家都在找自己的生態位，程式設計師用Claude，翻譯找Gemini，寫廣告還得是GPT。這種“術業有專攻”的局面，對咱們使用者來說，絕對是好事！/ 03 / 總結陳詞：幾家歡喜幾家愁扒完資料，AI尼歐哥我來給大家做個總結：* Google：贏麻了。產品策略清晰，高低搭配，用性價比和全覆蓋把市場攪得天翻地覆。* DeepSeek：最大的驚喜。再次證明了，在AI圈，硬核技術才是最性感的肌肉。雖然它的DeepSeek-R1因為出第一個字太慢被瘋狂吐槽，但V3是真的香，使用者留存率高得嚇人。* Anthropic：穩紮穩打。專精於程式設計等領域，找到了自己的舒適區，活得還挺滋潤。* OpenAI：雷聲大，雨點小。API市場的表現實在有點拉胯，再不重視，這塊大蛋糕可就真沒你的份了。* Meta (Llama) & Mistral：一個份額持續萎縮，一個不溫不火，基本上在牌桌邊緣OB了。好啦，今天AI尼歐哥就跟大家嘮到這兒。總的來說，2025上半年的API江湖，就是Google的強勢碾壓和DeepSeek的黑馬逆襲。 (AI尼歐哥)

GoogleI/O大會王者歸來：Gemini“世界模型” 初現，搜尋“換腦”，一句話製作原聲電影

Google舉行了I/O 2025 大會，最大的感受是Google重回AI領頭羊位置，Google正在以Gemini為核心打造真正的AI作業系統，”世界模型“初現本屆GoogleI/O大會一口氣更新和發佈了巨量的技術首先需要明確的是，備受期待的Gemini 2.5 Ultra模型並未如期而至。我們得到的是一個標價250美元的“Ultra會員套餐”（Ultra Tier），而非我們翹首以盼的Ultra模型本身。但是，隨著Gemini 2.5 Pro “Deep Think”的推出，Pro模型迎來了一次重大革新，其實際能力已堪比Ultra等級那麼，具體有那些新內容呢？（清單確實很長）：模型與代理工具Gemini 2.5 Pro “Deep Think”：具備平行思考能力，專為複雜數學和編碼任務設計，並提供可配置的“思考預算”以增強控制力，把Gemini 2.5 Pro 推向極致，性能表現如下：Gemini 2.5 Flash 5月20版：速度更快、更經濟，並新增了“思考摘要”功能，以提高透明度，性能已經無限接近Gemini 2.5 proGemini Diffusion：Google首次將擴散技術應用於文字生成，推出了實驗性模型Gemini Diffusion，速度比肩此前頂級模型快5倍Jules：對標OpenAI的Codex，非同步編碼代理，可在後台處理錯誤修復和功能原型開發，需要註冊等待才能使用多模態能力大爆發Google Meet：新增即時翻譯功能Veo 3：視訊生成能力大幅提升，生成具有4K逼真效果的視訊，並支援原生音訊、對話和噪聲合成Imagen 4：對標並超越OpenAI gpt-4o的圖像生成能力，但是速度快了3倍，2K圖像模型，在排版和文字圖像生成方面更快、更準確Flow：全新的電影製作工具，與好萊塢導演共創“Flow”結合了Veo 3和Gemini的能力，可根據文字提示建構完整的電影場景Flow讓創作者能更直觀地“導演”AI：上傳自己的角色和場景素材，或用Imagen即時生成；通過精確的鏡頭指令，描述想要的畫面，Flow會自動生成剪輯片段並保持角色和場景的一致性。你可以無限迭代、調整鏡頭、延長或修剪片段，就像在傳統剪輯軟體中一樣。Flow的目標是讓電影製作進入一個全新的“流動”狀態，讓創意自然生長，將電影創作從“按部就班”變成“靈感迸發”Google搜尋徹底重塑：全新的“AI模式”（AI Mode）更複雜的查詢：使用者現在可以提出比傳統搜尋長兩到三倍的複雜問題，比如“我有一張淺灰色的沙發，想找一塊能提亮房間的毛毯，家裡有4個活躍的孩子，經常有朋友來玩。”AI模式會動態生成圖文並茂的響應，包括連結、商家資訊和評分深度研究（Deep Search）：對於需要更詳盡答案的問題，AI模式可以進行“深度搜尋”。它能同時發出數十甚至數百個查詢，整合來自全網、知識圖譜、購物圖譜和地圖社區的資料，在幾分鐘內生成一份專家級的、帶完整引用的報告，幫你省去大量研究時間複雜分析與可視化：AI模式能幫你分析複雜資料並生成可視化圖表。比如，你想瞭解使用“魚雷球棒”的著名棒球運動員的本賽季和上賽季的擊球率和上壘率，它能立刻生成表格，並根據後續問題生成圖表，就像擁有一個專屬的體育分析師！搜尋即時互動（Search Live）：Project Astra的即時能力也融入了搜尋！通過手機攝影機，你可以和搜尋進行“視訊通話”，讓它看到你所看到的，即時給出幫助。無論是DIY家居維修、難題作業，還是學習新技能，它都能成為你的“遠端專家”。代理購物（Agentic Checkout）：AI模式還能幫你完成購物任務！它會瀏覽多個網站，分析數百個選項，幫你完成篩選、比價甚至直接連結到結帳頁面，幫你秒殺門票。未來，它還將支援餐廳預訂和本地服務預約Google加入AI眼鏡開發：AI不僅要改變數字世界，更要深刻影響物理世界沉浸式頭顯：與三星合作的Project Moohan是首款Android XR裝置。它能為你提供“無限螢幕”體驗，在XR版Google地圖中，你只需告訴Gemini想去那裡，就能“瞬移”到世界任何角落；你還能在MLB應用中，像坐在體育場前排一樣觀看比賽，同時與Gemini討論球員資料，將於今年晚些時候上市輕量級眼鏡：Google展示了最新的Android XR眼鏡原型，輕巧便攜，可全天佩戴，整合了攝影機、麥克風和揚聲器，可選的鏡片內螢幕還能在你需要時私密地顯示資訊。這意味著你的AI助手將真正“看”和“聽”到你所看到和聽到的，提供即時的、上下文感知的幫助，就像戴上了“超能力眼鏡”！現場演示中，它能識別咖啡杯上的咖啡店名字，幫你導航，預約咖啡，甚至進行即時跨語言翻譯。Google宣佈，Warby Parker和Gentle Monster將成為首批與Android XR合作的眼鏡品牌，未來你將能戴上符合自己風格的時尚AI眼鏡，開發者也將於今年晚些時候開始為眼鏡平台開發其他Gemma 3n：一款超輕量級的多模態模型（支援文字、圖像、音訊、視訊），專為智慧型手機和邊緣裝置打造Lyria RealTime：互動式音樂大語言模型，支援現場表演，並可通過API進行微調MedGemma & SignGemma：兩款開放的專業模型，分別用於醫學圖像分析和手語翻譯Agentic Colab：一款能夠自我修復程式碼並自動執行任務的筆記本環境Gemini Code Assist 2.5：免費的程式設計助手和程式碼審查代理，現已支援200萬token的上下文Firebase Studio：AI工作空間，可將Figma設計稿轉換為全端應用程式，並自動設定後端Stitch：可根據描述或圖像生成UI設計和前端程式碼Google AI Studio升級：在編輯器中直接整合了Gemini 2.5 Pro、Imagen 4和Veo 3，並提供了GenAI SDK新的Gemini API功能：包括原生音訊輸出、即時API、非同步函數呼叫、電腦使用API、URL上下文及MCP支援Project Beam：Starline項目的繼任者，與惠普合作開發3D視訊通話硬體Project Astra升級：一款能看、能聽、能說的主動式多模態助手以上就是Google本次大會發佈內容簡要總結寫在最後首先，這清晰地表明了Google正如何傾盡全力發展其AI生態系統。如果說過去蘋果公司以其卓越協調的裝置生態系統著稱，那麼現在Google正通過AI將這一理念推向新的高度。具體而言：Gemini如今能在系統中主動工作此外，得益於其跨所有產品協調的原生語言模組，Gemini已更深層次地融入幾乎所有Google產品中。無論是Google手錶、XR眼鏡還是Pixel手機，Gemini都能完美適配，並根據裝置特性提供相應的擴展功能（例如XR裝置中的地圖疊加功能，效果驚豔！）因此，如果說蘋果過去通過iCloud實現了所有裝置的互聯互通，那麼現在的Google則更進一步發佈會中，GoogleDeepMind CEO 諾獎得住Demis Hassabis 提到正在努力將Gemini擴展成為“世界模型”。他將其定義為“一個能夠通過模擬世界的各個方面來制定計畫和想像新體驗的模型，就像大腦一樣，Google內部肯定已經在搞了，這是實現AGI的終極大招Google，王者歸來 (AI寒武紀)

Google暗諷OpenAI：GPU在熔化，TPU火上加油！Canvas免費開放，實測驚人

GoogleCanvas免費上線了！現在，所有使用者都可以使用Gemini 2.5 Pro的Canvas了，Google激情放言：我們的TPU炙手可熱，正在火上澆油。Gemini 2.5 Pro的Canvas，向所有人開放了！AI大戰，再次升級。奧特曼表示使用者太熱情，GPU在融化，線上求饒，團隊要休息。GoogleGemini表示：「我們的TPU熱得發燙，而我們卻要火上澆油。🔥」Gemini宣佈：每個使用者都可以使用Gemini 2.5 Pro的Canvas功能。從提示到原型，只要幾分鐘，誰都可以使用Canvas進行程式設計和創新。Google不裝了，攤牌了：就是算力多，OpenAI不服來戰！Google搞突襲：Canvas免費其實，上個周末，Gemini的Canvas功能已被發現，但需支付200美元。這次的關鍵的在於，Google終於開竅了：好東西不必藏著掖著，只給收費使用者或是在高門檻的AI Studio裡使用，搶佔使用者心智才是大事！此時，OpenAI的GPU在融化。Google搭機搞突襲：TPU隨便燒，只要使用者越多越好！甚至GoogleCEO劈柴，線上教導網友如何使用Canvas。GeminI官方放出了4個使用Canvas的例子，並表示歡迎使用者解鎖更多玩兒法。1.使用p5js設計一個萬花筒滑鼠移動，可產生對稱圖案。2.胡亂的塗鴉變鋼琴曲把寫在草稿紙上的塗鴉拍成照片，Gemini能製作成一首簡單有趣的鋼琴曲！3.建立簡單的可玩街機遊戲建立一個簡單的可玩街機遊戲，控制螢幕底部的球拍，將球彈起並摧毀一排排的方塊。4.限時顏色匹配遊戲製作一個有時間限制和根據精準性計分的顏色匹配遊戲。在網頁端Gemini，免費使用者已可使用Canvas功能。選取底部Canvas功能，系統推薦了3個任務：編寫登入頁面，寫巴黎遊記以及寫Python指令碼，監控系統效能。更多精彩範例更多關於Canvas的驚豔示範如下。1.繪製“無限貓”2.建立並行布網路應用3.視覺模擬4.3D動圖5.旋轉四維超立方體中的超球面6.鵜鶘騎自行車7.《小行星》遊戲8.建立動態Jujujajaki網路9.AI成精了！華頓商學院教授Ethan Mollick，把著名的「Sparks of AGI」論文給Gemini 2.5，並提示：「閱讀這篇論文，並透過在Canvas中編碼展示你自己的最佳火花」。它一次就製作了一個小工具，而其他模型沒有完成這個任務。Gemini產品負責人專訪：Google如何建構Gemini就在最近，Gemini的產品負責人Tulsee Doshi的訪談也放了出來。她為我們詳細揭秘了，Google團隊是如何建構Gemini 2.5 Pro的。「氣氛測驗」打破大模型魔咒，火速刷榜Gemini 2.5 Pro的強大推理與程式設計能力，已經毋庸置疑。負責人確鑿地表示，這是Google開發過的最強大的模型。Google的想法是：「我們必須馬上將它推出，馬上讓開發者馬上用上它！」尤為顯著的，就是它的程式碼能力。它特別擅長開發有趣的網路應用、AI智能體程序，也非常擅長程式碼編輯與轉換，堪稱理想的程式設計助理。另外，它也繼承了Gemini Pro的所有優勢，具備多模態能力，能理解影片和影像。更獨特的是，Gemini 2.5 Pro也打破了許多大模型所面臨的「魔咒」——當一個模型在推理方面很出色時，往往在使用者體驗或氛圍上表現不佳。它不僅基準測試強，語言風格上也很出色，這就是為什麼它能火速刷榜各大使用者偏好相關的榜單。這是因為，Google強調「氛圍測試」（vibe check）：模型不僅在技術上強大，還要在使用者互動中自然、有趣、有用。這種平衡，是透過精心的訓練和評估來實現的。現在我們常遇見的某種現象就是：當你不斷最佳化某個隨機指標時，其實並不符合使用者對模型的真正期待。而在Gemini 2.5 Pro上，Google真的做得很好。2.5版本，也標誌著模型範式的轉變——從此，所有Gemini模型都是「思考型」模型，思考能力，成為了它的核心特性。程式碼能力提升：整個技術堆疊的合作先前在AI界，一直有著「只有推理時計算才重要」的敘事。而Google採用的團隊合作，完全衝破了這種敘事。例如為了提升程式碼能力，團隊是從整個技術堆疊優先考慮的——從預訓練角度，考慮的是什麼樣的資料對程式碼能力最重要；從後訓練角度，要考慮如何建立更好的網頁應用程式；從推理角度，就要研究如何幫助模型推理程式碼。而在未來，Gemini模型將持續朝向更智慧、更有效率的方向發展。那時，開發者有希望能建立更複雜、更有用的應用程式。參考資料：https://x.com/i/status/1906867692901974436https://x.com/GeminiApp/status/1906867703681273933https://x.com/heyshrutimishra/status/1906992636223008919https://x.com/Zoya_ai/status/1906959152980627628https://blog.google/feed/gemini-new-model-podcast/ （新智元）

AI PS捲起來了！ GoogleGemini動嘴P圖火出圈，馬斯克Grok連夜上線影像編輯

Grok連夜上線圖片編輯功能，繼Gemini引爆圖片編輯熱潮後，動動嘴就能實現「證件照換西裝」、「黑髮變金發」等專業級P圖效果。隨著AI巨頭內卷加劇，許多工作可能會經歷「從複雜操作到簡單互動」的範式轉移，大模型內卷，受傷可能是傳統軟體。Grok連夜上線圖片編輯功能。昨晚，Grok上線圖片編輯功能，可以透過文字描述直接修改圖片。例如你可以上傳一張個人證件照，「動動嘴」讓Grok給你PS一套全新的西服。看起來效果非常不錯，Grok也「體貼地」為你設計了四種不同風格，像是領帶「帶花紋」和「不帶花紋」。不過該功能目前應該還是在灰階測試中（作為Premium氪金使用者的Grok首頁暫時還沒有編輯按鈕）。Grok手機APP同步上線Grok也同步上線了X的手機APP，也可以在手機上體驗圖片編輯功能。例如上傳一張照片，讓圖片中人物的「黑髮」變成「金發」。不過作為手機內部的Grok功能，目前同樣是在灰階測試中。由於Grok灰色測試，目前全網還沒有太多討論。不過從一些部落客的測試作品來看，Grok應該是對自己的效果很有信心。例如這位有6萬粉絲的Borriss部落客，他的頭像是一件「黑色高領毛衣」。但經過Grok的P圖後，換成了一套「西服」。「黑毛衣秒變西服」，AI編輯的能力目前看起來效果並不賴。其他陸續有使用者放出了自己使用Grok編輯圖片的效果，不過這次Grok犯了一個錯誤，把使用者的臉也換了。例如，可以將圖片風格變成Egon Shiele的畫作風格。或者是給馬斯克加一頂帽子。大模型“內卷”，PS受傷Grok這次「連夜」上傳圖片編輯功能，大機率是被Google的Gemini2.0火出圈的「動動嘴」PS功能給刺激到了。Google發佈Gemini-2.0-flash的Experimantal版本靠著簡單的文字描述就能「P圖」的能力著實火了一把。例如將兩張照片P在一起還不違和，並且可以加入人物動作。或者，將白色風格的裙子換成紅色，還能為人物打個領帶。從Gemin2.0到Grok的圖片編輯，能看出目前SOTA模型的「內卷」依然還在進行。大模型也在「搶佔」使用者心智。以後人們談起P圖，第一個想到也許不是Photoshop這種傳統的圖片編輯軟體，而是AI賦能各種大模型功能。從P圖這件事情可以窺見一些苗頭，AI的發展很可能會帶來一個很大的「範式轉移」。未來的許多工作會從「複雜操作」變成「簡單互動」。例如在圖片編輯領域，Gemini和Grok等大模型將持續降低圖片編輯的技術門檻。從原來需要專業軟體、複雜步驟，到只需一句自然語言指令即可實現高品質圖片編輯。當然在目前的大模型P圖效果依然停留在「可玩」的層面，專業的圖片編輯還需要專業的UI工程師使用特定的軟體才能完成。不過SOTA模型的內卷依然沒有結束。正如Alvaro Cintas所說，為什麼OpenAI還沒有發佈原生圖像生成和編輯功能。也許快了，說不定那天ChatGPT就放出編輯原生圖。參考資料：https://x.com/dr_cintas/status/1903112910735339984 （新智元）