登入
官方認證
美股艾大叔
追蹤美股一手情報與分享深入報導
9,335
發文
625
粉絲
個人牆
長文
影片
粉絲
官方認證
美股艾大叔
昨天 21:03
•
谷歌大神首次揭密Gemini預訓練秘密:52頁PPT乾貨,推理成本成最重要因素
谷歌憑藉Gemini 2.5 pro已經徹底翻身,經過這段時間各路大神的深度使用和評測,基本上已經鎖定大模型top1,除了優秀的寫作能力以外,編程能力更是打遍無敵手,最重要的Gemini一直以來基本是免費給所有人用,連API都免費今天有幸看到了一個來自Google內部的技術分享,主講人是Vlad Feinberg,GoogleGemini Flash Pretraining的負責人。這份PPT資訊量爆炸,深入探討了Gemini預訓練背後的核心邏輯、挑戰以及未來方向,特別是如何在算力、數據、模型大小和 推理成本 之間找到那個微妙的平衡點。下面,我就帶大家來深度解讀這份乾貨,一探Gemini 背後的訓練故事關於大模型的預訓,我們熟知的Scaling Laws(縮放定律)只是故事的一部分ppt:https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf一、告別「經驗主義」:從Kaplan到Chinchilla的認知革命還記得大模型訓練的經典問題嗎?給你一筆固定的算力C(例如1000塊H100用30天),怎麼訓練出最強的LLM?模型參數N該多大?訓練資料D該多少?早期,大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發現,模型表現與算力、參數量、資料量之間存在冪律關係,並且強烈建議優先擴大模型參數N。具體來說,算力提升10倍,參數N建議擴大5.37倍,而資料D只需擴大1.86倍。這直接點燃了軍備競賽,大家瘋狂堆參數但是,Google DeepMind (GDM) 在2022年3月發布的Chinchilla(龍貓)論文,為這個「參數為王」的時代潑了一盆冷水Chinchilla團隊指出,Kaplan的研究方法(基於單次訓練中的中間loss點推斷)存在缺陷,忽略了學習率衰減等優化帶來的好處,只有最終的loss最能反映模型真實水平他們採用了更嚴謹的IsoFlops方法:固定總算力C訓練多個不同參數N的模型(對應不同的資料量D,因為C ≈ 6 * N * D)找到這個算力下,loss最低的那個模型N_opt(C)和D_opt(C)重複以上步驟,得到不同算力C下的最優(N, D)點擬合這些最優點的關係Chinchilla的驚人發現是: 模型參數N和資料量D應該以大致相同的速率(指數約為0.5)隨算力C成長! 這意味著,按照Kaplan定律訓練出來的許多大模型,其實是「訓練不足(Undertrained)」的!模型太大,數據相對太少,潛力沒發揮。更糟的是,這些「虛胖」的大模型,推理成本極高,部署和使用起來非常昂貴二、推理成本,不能承受之重!為什麼Chinchilla強調的「訓練不足」和推理成本如此重要?因為大模型最終是要用的!看看Google內部的應用場景:高通量服務:像是搜尋AI Overviews、免費的Gemini App(聊天機器人)、企業級Vertex AI平台、AI Studio API等,用戶量龐大即時互動:Project Astra、Project Mariner這類需要即時回應的多模態應用。這些場景,尤其是即時交互,對模型的推理延遲有著極為苛刻的要求Vlad Feinberg現場做了一個簡單的「餐巾紙計算」(Napkin Math):假設一個需要即時互動的Web Agent,上下文128k,每次交互處理8k新token,產生128個token,要求延遲在1秒內,再去掉250毫秒的網路和處理開銷...用Llama3-70B這樣的模型在Google的v5e晶片上跑,光是處理8k新token(Prefill)就需要近6秒(單芯),即使動用4x4=16塊晶片並行,也才勉強壓到0.5秒左右。而生成階段(Decode)更是受到記憶體頻寬的嚴重限制,每生成一個token可能就需要好幾毫秒結論: 對於低延遲場景,70B參數的模型可能都太大了! 我們需要更小、更快的模型,也就是像Gemini Flash/Flash-lite這樣的“小鋼砲”傳統的Scaling Law研究,往往只專注於訓練loss,完全忽略了推理成本,這在實際應用上是行不通的三、邁向新典範:推理感知(Inference-Aware)的Scaling Laws既然推理成本如此重要,有沒有更科學的方法來指導預訓練呢?答案是肯定的。Sardana等人在2024年提出了「推理感知」的Scaling Laws。核心思想是:不再僅僅最小化訓練loss,而是要優化“總成本”,這個總成本包括了訓練成本和生命周期內的總推理成本其數學形式較複雜,需要考慮訓練與推理所使用的硬體(MFU不同)、輸入/輸出token量(D_inp, D_out)等因素但結論很明確:考慮到推理成本後,最優的模型往往比Chinchilla定律建議的更小,但需要用更多的數據(或重複訓練更久)!當然,這種新範式也面臨挑戰:硬體非同質性:訓練和推理晶片不同,成本難以統一衡量推理量D_inf難以預測:模型變好會刺激更多使用(傑文斯悖論),市場會擴張Scaling Law擬合本身並不完美:尤其在資料量極大或極小的情況下,擬合誤差可能很大為了解決擬合問題,Muennighoff等人(2023)提出了考慮資料限制的Scaling Law,引入了唯一資料量U和重複次數R的概念L(N, U, R)。研究發現,重複數據的效益會快速下降。這意味著,在數據有限的情況下,更小的模型對數據重複利用更有效那如果數據「無限」呢? Llama3訓練了15T token還在提升,似乎說明對於開源模型,只要算力允許,可以一直用所有資料訓練下去。但這是否為最優策略?用數據受限定律可以反推,如果用更少、更精的數據,達到同樣效果能節省多少算力?達到Llama3 8B模型的loss,可能只需原來72%的算力四、新維度:蒸餾與其他除了模型大小、資料量、推理成本,模型蒸餾(Distillation) 也成為了一個重要的研究方向。 Busbridge等人(2025)正在研究蒸餾的Scaling Laws,試圖量化教師模型與學生模型之間的成本與表現關係如何用有限的算力訓練出「小而精」的學生模型?教師模型的能力上限、學生模型的「容量差距」、蒸餾過程中的技巧(如溫度控制)等,都是需要探索的問題。一個有趣的觀點是,蒸餾本質上是一種變異數縮減,好的教師模型能提供更穩定的學習訊號,減少學生模型學習的「雜訊」。觀點總結總結一下Vlad Feinberg分享的核心觀點:Scaling研究兩大方向:提升曲線:在給定的模型大小下,做到更好的效能增加斜率:讓模型效能隨規模成長得更快Gemini的策略:類似“Tick-Tock”,用Flash版本追趕上一代Pro版本的效能,不斷優化推理效率推理效率是關鍵:壓縮技術(更好的蒸餾、量化、服務友善模型設計)與Scaling研究同等重要低成本研究機會:硬體感知Kernel優化:為特定硬體寫算子,例如下一代Flash Attention量化新前沿:超越傳統的向量量化FunSearch類別方法:用LLM輔助搜尋更好的模型結構或訓練策略更穩健的Scaling Laws:引入更多維度(如資料品質、重複度),使用更嚴謹的統計模型(如MLE vs. 最小平方法),甚至用主動學習來選擇最優的(N, D)實驗點寫在最後:如果你對這個主題有興趣,可以去查閱PPT中提到的幾篇關鍵論文(Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等ppt地址再次奉上:https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf(AI寒武紀)
#谷歌
#GOOGLE
#Gemini
4人
讚
留言
分享
官方認證
美股艾大叔
昨天 21:01
•
川普政府啟動國家安全調查:半導體、藥品及關鍵礦產進口或將面臨新增關稅
川普政府正在進行額外的國家安全調查,這些調查可能會導致對半導體、半導體製造設備(「SME」)及其衍生性商品、藥品及藥品成分以及加工過的關鍵礦物(掃描文末二維碼閱讀)的進口加徵關稅。對於依賴這些商品進口的企業而言,以下要點需密切注意:提前應對關稅衝擊。就川普總統而言,這類國家安全調查往往導向關稅的加徵。產業參與調查過程可能會導致關稅比原本預期的更高或更低。法律訴訟可能會導致關稅被司法判定無效。01.調查狀況國家安全調查依據1962年《貿易擴展法》第232條授權開展,旨在判定特定產品的進口對美國國家安全的影響。商務部長需在啟動第232條國家安全調查後的270天內,向總統提交調查結果和建議。若總統認可商務部長的建議,可在90天內採取行動,包括加徵關稅,以減輕相關進口產品對國家安全的影響。半導體和藥品相關調查於4月1日啟動,依規定必須在2025年12月27日前完成,不過調查極有可能會大幅提早結束。調查結束後,川普總統預計將依據《貿易擴展法》第232條,對調查所涉商品加徵關稅。正如我們先前文章中提到的,川普總統的對等關稅將不再適用於那些受到第232條關稅影響的商品,前提是這些商品尚未被排除在這些關稅之外。美國商務部正在就半導體和藥品調查事宜公開徵詢意見,截止日期為2025年5月7日。川普總統簽署第14272號行政令,指示商務部啟動關鍵礦產國家安全調查,並要求在180天內完成(此時限相較第232條調查的常規周期大幅縮短)。預計美國商務部將迅速推進此項關鍵礦產調查工作。02.調查範圍半導體調查涵蓋以下內容:半導體,包括半導體基板和裸晶圓、傳統晶片、尖端晶片以及微電子產品;半導體製造設備,包括此類設備的組件;以及上述產品的衍生產品,包括含有半導體的下游產品及構成電子供應鏈的產品。藥品調查涵蓋以下內容:藥品,包括仿製藥與原廠藥成品,以及醫療因應措施;藥用成分,藥品成分,包括活性藥物成分和關鍵起始材料;以及上述產品的衍生產品。一旦啟動,預計關鍵礦產調查將涵蓋以下內容:從礦山開採出關鍵礦石之後,歷經將其轉化為金屬、金屬粉末或母合金等活動的關鍵礦產;以及所有將經過加工的關鍵礦產作為原材料投入的商品,包括半成品(如半導體晶圓、陽極和陰極)以及最終產品(如永久磁鐵、發動機、電動車、電池、智慧型手機、微處理器、雷達系統、風力渦輪機及其組件,還有先進的光學設備)。03.其他國家安全調查川普總統根據《貿易擴展法》第232條發起的其他國家安全調查已經導致或預計將導致加徵關稅的情況如下:銅、木材及木製品(及其衍生性商品):2025年3月10日,美國商務部針對各種形式的銅及其衍生產品的進口,以及木材、木製品及其衍生產品的進口發起了兩項調查。調查結果將於2025年12月5日前提交給總統。預計川普總統將對調查所涵蓋的大部分(即便不是全部)商品徵收《貿易擴展法》第232條關稅。鋼鐵、鋁和汽車零件:在川普的第一屆任期內,美國商務部於2017年完成了對鋼鐵和鋁產品進口的調查,並於2019年完成了汽車及汽車零件進口的調查。鋼鐵和鋁產品的相關調查促使川普總統對各類進口鋼鐵產品徵收25%的關稅,對各類進口鋁產品徵收10%的關稅,其中加拿大和墨西哥獲得了豁免。如我們先前所分析,在2025年3月12日,川普總統擴大了針對鋼鐵和鋁產品的《貿易擴展法》第232條款所規定的關稅範圍,並延長了該關稅措施的實施期限。川普總統在2019年並未對汽車及汽車零件進口採取任何措施。然而,於2025年3月26日發布的第10908號總統公告卻援引了2019年的那次調查,規定自2025年4月3日起,對進口汽車徵收25%的關稅,自2025年5月3日起,對各類汽車零部件也徵收25%的關稅。不過,對於符合《美墨加協定》中可享有優惠關稅待遇條件的汽車,將給予特殊的關稅處理。04.可能的法律訴訟認為美國國家安全受到如此多產業進口產品威脅的觀點,似乎難以與過去數十年來極少或從未依據《貿易擴展法》第232條採取行動的事實相協調。儘管法院在2022年駁回了針對鋼鐵產品進口第232條關稅的一項訴訟請求,但鑑於川普第二屆政府時期依據該條款採取的行動具有空前的廣度,預計可能會出現更多法律訴訟。05.企業可採取的措施在2025年5月7日的截止日期前參與公開徵詢程序。對供應鏈進行評估,從而識別出企業本身對於新調查所涵蓋產品進口的依賴程度。主動確定相關策略,以確保符合可能實施的《貿易擴展法》第232條關稅規定。持續關注貿易政策的變化,並據此對企業的營運進行相應調整。密切注意調查的進度以及潛在的關稅徵收動態,以便根據新資訊迅速調整策略。(Orrick)
#川普
#關稅
#半導體
5人
讚
留言
分享
官方認證
美股艾大叔
昨天 20:30
•
中美關稅戰持續擴大,2026年全球半導體市場或將萎縮34%
當地時間4月26日,半導體市場研究機構 TechInsights 發表它對目前美國和中國之間持續存在的“關稅戰爭”對於半導體產業的負面影響的看法。本月早些時候,TechInsights根據美國關稅政策公告下調了對全球半導體市場規模的預測。假設適用的關稅稅率約為10%,預計今年的市場規模將達到7770億美元,明年將達到8440億美元。然而,如果美國對中國的關稅稅率最終提高到30-40%,全球關稅稅率上升到20-40%左右,那麼根據這一假設,全球半導體市場規模預計將大幅下降,今年的預測為7360億美元,明年為6990億美元。TechInsights解釋說:“在這種情況下,今年上半年智慧型手機、個人電腦和半導體的客戶將出現明顯的庫存增加趨勢”,並補充道:“雖然資料中心半導體在下半年將保持強勁,但消費電子產品的出貨量預計將放緩。”如果美國和中國之間的關稅超過100%,導致整體關稅率超過40%,預計半導體裝置市場的下降幅度將更大。預計今年半導體市場規模將達到6960億美元,明年將達到5570億美元。與10%關稅率的基本假設相比,今年的最大降幅可能達到10%,2026年可能將下滑34%。TechInsights表示,“在這種情況下,超大規模企業的收益將受到壓力,導致資料中心資本支出減少,從今年下半年開始,對GPU和HBM的需求將開始下降。”“美國和歐盟的消費者對電子產品的需求也將下降。” (芯智訊)
#中美關稅戰
#半導體
#2026年
9人
讚
留言
分享
官方認證
美股艾大叔
昨天 20:20
•
華人科學家再遭系統性排查,75%美學者萌生去意
在川普重返白宮後的幾個月裡,在美華人科學家和學生受到更嚴厲的審查。攝/金焱多位美國科研人員對《財經》表示,川普政府針對科學家群體的行動有各種解釋,有些完全不講道理儘管美國司法部已經於2022年叫停了“中國行動計畫”,美國的華人科學家仍處在這一行政措施帶來的各種冤案陰影下,而現在新一波美國聯邦調查局(FBI)約談、簽證審查和聯邦撥款凍結已經又對準了他們。中國在美科研人員面臨著雙重困境,一方面,在川普打壓美國高校的大環境下,科研經費不斷受到威脅,多所高校實行招聘凍結,他們和其他在美國的科研人員一樣,要麼考慮換工作,要麼離開美國,或是完全放棄科研;另一方面,自中美關係緊張以來,以“中國行動計畫”為核心的迫害行動一直沒有停止。過去兩個月來,中國在美科研人員遭美國執法機關問詢的案例數量升高,主要調查其過去與中國研究機構的合作關係或聯絡,科學家社群普遍感到不安。這引發了新一波回國潮。最新的代表人物包括曾在美國能源部頂尖實驗室供職的資深科學家伊守亮。伊守亮今年3月開始擔任四川大學海納特聘教授、博士生導師,領導一個綠色碳分離技術創新團隊。多位美國的科研人員對《財經》表示,川普政府針對科學家群體的行動有各種解釋,有些完全不講道理。最近一個多月以來,他們的生活全部被打亂,反覆查關鍵經費的申請狀態,隨時等待捲鋪蓋走人。學術期刊自然(Nature)日前針對科研人員的民意調查顯示,有75%的科學家正考慮搬離美國。有1200多名科研人員參與調查,690名博後(postgraduate)研究人員中,有548表示自己正考慮離開美國,約佔比79%;而在受訪的340名博士生中,255人有同樣的離美意向,佔比75%。政治猜忌在川普第一任期推行的“中國行動計畫”中,共20多名華裔科學家被起訴。前堪薩斯大學化學教授陶豐是首個被起訴的華裔學者,他去年夏天迎來喜訊,所有罪名均被推翻。日前陶豐起訴了前僱主不當解僱。他指控堪薩斯大學替聯邦調查人員對他進行非法監視,並在刑事訴訟結束前將他解僱,違反了學校自己的教職工紀律處分政策。人們還在消化陶豐案的資訊時,3月28日,FBI特工突擊搜查了印第安納大學布盧明頓分校(Indiana University Bloomington)的電腦科學教授王曉峰的兩處住所。幾小時後,校方解僱了他,沒給出任何解釋。王曉峰的妻子也失去了在印第安納大學擔任圖書館分析師的工作,同樣未被告知緣由。王曉峰夫婦都是中國公民,擁有美國永久居留權。王曉峰夫婦的代理律師傑森·科弗特(Jason Covert)表示,兩人均未被指控犯罪,也未被警方拘留。王曉峰事件迅速引發了學術界擔憂川普第二任期下,以打擊經濟間諜、保護智慧財產權為藉口,對華人專家學者進行騷擾、迫害的“獵巫行動” 又捲土重來。王曉峰是知名網路安全專家,已在這所學校工作20年。媒體報導稱,成為政府搜查令和毫無根據的學術不端指控的最新受害者後,王曉峰最近接受了新加坡某大學的職位。有調查發現,2010年至2021年期間,總共有將近2萬名華裔科學家離開了美國。在這十多年中,每年離開科學家的數目穩定成長,從900名增加到2621名,幾乎增加了2倍。在美國司法部於2018年實施“中國行動計畫”以後,離開美國的華裔科學家比之前增幅加大,達到了75%,其中三分之二的科學家去了中國。離開的科學家涉及不同領域,其中遭遇最嚴重出走的是生命科學領域,僅在2021年一年,就有超過1000名該領域的科學家離開美國。根據麻省理工技術評論的資料,“中國行動計畫”啟動三年後,只有不到三分之一的被告被定罪。在148名被指控的人中,只有40人認罪或被判有罪,且定罪比最初提出的指控要輕。相較之下,根據皮尤研究中心,聯邦刑事案件中約90%都以認罪告終。2022年,美國司法部承認“中國行動計畫”帶來種族偏見,終止了該項目。但王曉峰的遭遇提醒在美華人科學家群體,美國政界針對這一群體的猜忌、打壓及刑事檢控隨時會重現。在川普重返白宮後的幾個月裡,在美華人科學家和學生受到更嚴厲的審查。今年2月份,川普簽署了一份旨在防範中國帶來的國家安全風險的總統備忘錄,這份備忘錄建立在他第一個總統任期內發起的多項行動的基礎之上,包括審查科學家是否與中國有瓜葛的“中國行動計畫” 。共和黨參議員裡克·斯科特(Rick Scott)2月提出法案,試圖恢復該計畫的一個版本。3月,共和黨議員已提出多項法案,禁止中國公民進入美國國家實驗室或申請美國學生簽證。密歇根州共和黨眾議員、眾議院中國問題特別委員會(House Select Committee on China)主席約翰·穆勒納爾(John Moolenaar)向六所大學的校長髮出請求,希望提供有關科學、技術、工程和數學(STEM)專業的中國學生的資訊。去年以來已有一批頂尖中國科學家回國任職,他們集中在數學、物理等領域。81歲的中國半導體裝置領軍企業中微半導體創辦人尹志堯近日放棄美國國籍,恢復中國國籍。美國商務部2022年宣佈限制美籍人士在中國半導體企業任職。美國普渡大學數學系教授陳敏則於4月初回國,陳敏的丈夫、曾任教於普渡大學的沈捷已提前歸國,擔任東方理工大學數學科學學院院長。美國俄勒岡大學的著名數學家林華新也於2024年底回到中國,加盟上海數學與交叉學科研究院。美國科研資助機構迄今已凍結或取消了至少60億美元的頂尖大學研究經費和合同,在美國科學界引發寒意。攝/金焱“學術逃亡”與川普第一任期不同的是,不只是華裔科學家,整個美國科學界都籠罩在不安和惶恐之中。作為川普政府重塑高校招生、教學等政策的一部分,美國科研資助機構迄今已凍結或取消了至少60億美元的頂尖大學研究經費和合同。川普政府預算的大刀揮向科研界,掀起了科研機構高管離職潮。美國國家科學基金會(NSF)主任塞圖拉曼·潘查納坦(Sethuraman Panchanathan)於當地時間4月24日宣佈辭職。潘查納坦沒有說明突然離職的原因,但白宮要求他明年將該機構90億美元的預算削減55%,並解僱一半員工。潘查納坦是一名電腦科學家,他於2019年12月川普首個任期內被提名為NSF主任。他早在歐巴馬政府任期內就被提名為美國國家科學委員會委員,並參與制定國家科學、技術與創新戰略以及NSF的發展戰略。NSF在人才培養以及推進基礎性科學發現和轉化領域起著重要作用。即使諾貝爾光環也起不到保護作用。美國生物化學家戴維·貝克因開發Rosetta軟體和從頭設計蛋白質獲2024年諾貝爾化學獎。美國媒體報導稱,由於川普政府開始削弱研究,大幅減少科研經費,貝克的15名研究生和博士後研究人員正考慮離開美國。資金大幅縮減領域如此之廣,即使是政治上沒有爭議的研究方向,包括阿爾茨海默病和癌症也受到了的影響。很多目前在進行的項目無法招募更多聯邦資助的研究參與者,也無法開展新的研究工作。即使沒有研究經費的擔憂,美國言論自由環境和政治走向的讓很多學者擔憂,美國多名學者已決定離開美國赴他國任教,美國學術界正在醞釀一股“出走潮”。耶魯大學法西斯主義研究專家賈森·斯坦利選擇赴多倫多大學任教。他說這與川普政府迫使哥倫比亞大學就處理校內“反猶主義”的方式進行整頓有關。美國其他數十所高等學府也因去年校內反戰示威浪潮面臨聯邦政府調查。耶魯大學的兩名歷史學教授蒂莫西·斯奈德與馬茜·肖爾夫婦也確認前往多倫多大學任教,他們 對川普政府大幅削減科研經費和干預學術自由的擔憂。法國、德國等歐洲國家政府則呼籲本國高校等科研機構利用這一機會吸納人才。法國多所高校已設立基金,支援美國科學家。美國馬薩諸塞州州長希利表示,川普攻擊哈佛大學的所作所為實質上是在邀請其他國家“把我們的科學家和研究人員都帶走”。 (財經ThinkTank)
#華人科學
#美國
#系統性排查
10人
讚
留言
分享
立即登入創作自己的專屬文章
立即註冊/登入
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題