#AI大模型
最新!AI大模型全鏈路生態技術深度研究報告!2025
我們正處在一個由人工智慧定義的偉大時代。大語言模型如同一場技術海嘯,以前所未有的力量,重塑著世界的每一個角落。程式碼的編寫方式、軟體的互動形態、企業的運作模式,乃至我們對"智能"本身的理解,都在被徹底顛覆和重構。這場變革的深度和廣度,遠超過去任何一次技術革命,它不僅改變著技術的邊界,更在重新定義人類與機器的關係,以及我們創造價值的根本方式。這種能力的平民化,正在釋放全人類巨大的創造潛能。然而,另一方面,技術堆疊的爆炸式增長、知識的快速迭代,也讓我們每個人都深陷於"生怕錯過"(FOMO)的焦慮之中。本文可以能夠幫助您看清全域、理解深度、預見未來的專業報告。在這份白皮書中,我們作為您的行業分析師,系統性地梳理了從全球技術趨勢到中國本土實踐,從底層算力基礎設施到上層應用落地,從核心技術堆疊到開發者生態的全景畫面。第一章:全球AI大模型發展現狀與趨勢進入2025年,人工智慧(AI)的發展浪潮以前所未有的速度和深度重塑著全球科技格局與產業生態。本章節將立足於2024年6月至2025年9月的最新動態,從全球市場概覽、中美技術路線分化和關鍵技術突破三個維度,深度剖析AI大模型發展的宏觀現狀與未來趨勢,為中國的AI開發者和行業從業者提供一幅清晰、權威且具前瞻性的全景圖。1.1 全球AI大模型市場概覽1.1.1 市場規模與增長預測:邁向兆美元的確定性兆美元賽道前景明朗根據國際資料公司(IDC)在2025年9月發佈的最新《全球人工智慧支出指南》,2024年全球在AI領域的IT總投資規模(包括軟體、硬體和服務)已達到3,159億美元。報告以極為樂觀的預期指出,這一數字將在2029年增至12,619億美元,五年復合年增長率(CAGR)高達31.9%。這一預測標誌著AI正從一個前沿技術領域,穩步成長為驅動全球數字經濟的核心引擎,一個兆美元級的龐大產業賽道已然形成。各大研究機構的預測也印證了這一趨勢,儘管由於統計口徑和預測模型的不同,具體數值存在差異,但對市場將維持超高速增長的判斷高度一致。這種共識本身就構成了市場信心的重要來源。表1-1 不同機構對全球AI市場規模的預測中國市場的戰略地位與增長潛力在全球AI版圖的擴張中,中國市場的角色日益凸顯,成為推動全球增長的關鍵力量。根據中國資訊通訊研究院(CAICT)的資料,截至2025年9月,中國AI核心產業規模已突破9000億元人民幣,約佔全球核心產業規模的10%,相關企業數量超過5300家。IDC預測,到2029年,中國在AI領域的總投資規模將達到1,114億美元,五年複合增長率為25.7%,增速持續領先全球主要經濟體。中國市場的獨特優勢在於其龐大的使用者基數、豐富的應用場景和強大的政策支援:區域發展格局:多極化趨勢顯現這種多極化的發展趨勢,使得全球AI生態更加豐富和多元,也為不同地區的開發者和企業帶來了新的合作與競爭機會。1.1.2 技術迭代加速:從"能力"到"可用性"的進化如果說市場規模的增長是AI發展的"量"的積累,那麼技術性能的迭代則是"質"的飛躍,是驅動整個生態發展的根本動力。2025年,AI大模型的技術迭代呈現出明顯的加速態勢,其核心特徵是從單純追求基準測試分數的能力(Capability)提升,轉向更加注重模型在真實世界中的可靠性、安全性和實用性的"可用性"(Usability)進化。這一轉變的標誌性事件便是OpenAI於2025年8月7日正式發佈的GPT-5模型。GPT-5的"智能湧現":重新定義性能天花板GPT-5的官方發佈資料更為具體地展示了這種飛躍。這些基準測試的設計,旨在評估模型在真實世界中解決複雜問題的能力,而非簡單的模式匹配:表1-2 GPT-5與GPT-4在部分關鍵基準上的性能對比從"能力"到"可用性"的進化:更可靠的AI儘管在基準測試上的"屠榜"令人印象深刻,但2025年技術迭代更核心的趨勢,是各大模型廠商將研發重點從單純提升理論性能,轉向解決實際應用中的核心痛點。OpenAI在發佈GPT-5時就反覆強調,其在"減少幻覺、提升指令遵循能力、減少阿諛奉承"等實用性方面取得了重大進展:這種從"能力"到"可用性"的進化,預示看大模型正從一個充滿驚喜但時常犯錯的"天才少年",向一個知識淵博、邏輯嚴謹、態度誠懇的"專家助手"轉變。這為大模型在各行各業的規模化、關鍵性業務中的落地應用,掃清了最核心的障礙,也為開發者基於大模型建構可靠、可信的商業應用提供了堅實的基礎。1.1.3 投資熱潮回歸與結構變遷趨勢一:AI Agent(智能體)成為最大風口如果說大模型是AI的"大腦",那麼AI Agent就是連接這個"大腦"與數字世界乃至物理世界的"手和腳"。具備自主理解、規劃、記憶和工具呼叫能力的AI Agent,被普遍認為是將大模型的潛力從"對話方塊"中徹底釋放出來、實現其全部價值的關鍵。因此,AI Agent在2025年當之無愧地成為了全球資本追逐的最大風口。市場研究機構MarketsandMarkets在其最新報告中預測,全球AI Agent市場規模將從2024年的5.1億美元,以高達44.8%的年複合增長率,增長到2030年的47.1億美元。資本的流向準確地印證了這一趨勢。2025年的明星融資案例幾乎都與Agent相關:資本之所以狂熱追捧AI Agent,是因為它看到了一個清晰的商業模式演進路徑:從提供基礎能力的PaaS(平台即服務),走向提供完整解決方案的SaaS(軟體即服務),最終實現按效果付費的"結果即服務"(Outcome-as-a-Service)。趨勢二:垂直行業應用與"模型+應用"一體化隨著通用大模型能力的普及,單純提供基礎模型API的商業模式面臨著日益激烈的同質化競爭和價格壓力。因此,資本和創業者的注意力開始轉向能夠解決特定行業痛點的垂直應用。這些應用通常基於通用大模型進行深度微調和最佳化,並與行業知識、業務流程深度繫結,從而建立起更高的競爭壁壘和客戶價值。垂直行業解決方案:這些應用具有更清晰的商業模式和更高的客戶付費意願。"模型+應用"一體化策略  :在國內市場,一種"模型+應用"一體化的發展模式尤為突出。以智譜GLM、月之暗面、MiniMax等為代表的AI獨角獸,從創立之初就堅持自己研發底層大模型,並直接面向C端或B端使用者推出創新的應用產品。趨勢三:AI基礎設施(AI Infra)與工具鏈持續火熱隨著模型規模的指數級擴大和應用的多樣化,對高效、低成本、易於使用的AI基礎設施和工具鏈的需求日益增長。AI Infra是支撐上層模型和應用創新的"底座",其重要性愈發凸顯,成為投資的另一大熱點。這個領域的投資可以細分為幾個層面:核心硬體與算力:除了對NVIDIA、AMD等晶片巨頭的持續追捧,資本也開始關注AI晶片領域的初創公司,特別是那些致力於開發新型架構(如存內計算、光子計算、模擬計算)或針對特定工作負載(如稀疏計算、圖神經網路)進行最佳化的公司。此外,隨著國產化替代處理程序的加速,與華為升騰、寒武紀等國產異構算力適配的軟體和工具鏈,在中國市場獲得了巨大的投資機會。模型最佳化與部署平台:提供模型量化、剪枝、蒸餾等最佳化技術,以及Serverless推理服務的公司備受青睞。這些平台的核心價值在於幫助企業以更低的成本、更快的速度部署和運行AI模型。例如,國外的OctoML、Together AI,國內的無問芯穹、中科算網、矽基流動等公司,通過提供跨雲廠商、跨硬體的AI模型部署和加速平台,可以幫助企業將AI推理成本大幅度的降低,極大地推動了AI應用的普及。資料與MLOps平台:高品質的資料是訓練高性能模型的基礎。因此,提供資料標註、資料清洗、資料合成、資料管理服務的公司(如Scale AI, Snorkel AI)持續獲得高額投資。同時,覆蓋AI開發全生命周期的MLOps(機器學習維運)平台,如Weights & Biases, Comet, Arize AI、國產開源Cube-studio等,也成為企業AI團隊不可或缺的工具。它們提供了從實驗跟蹤、模型版本管理到生產環境監控和性能最佳化的全套解決方案,將AI開發從"手工作坊"模式帶向了標準化的"工業化生產"模式,其市場滲透率在2025年大幅提升。企業AI投資的全面復甦這一模式的戰略優勢在於:這種策略的本質,是在AI時代延續美國在傳統軟體和網際網路時代的平台霸權,通過掌控最核心的智能生產資料,在全球AI產業鏈中佔據高附加值的頂端。中國的"開源浪潮"與生態突圍戰略與美國的策略形成鮮明對比,中國幾乎所有頭部的AI廠商和研究機構,包括阿里巴巴(通義千問Qwen系列)、DeepSeek(深度求索)、智譜AI(GLM系列)、零一萬物(Yi系列)、月之暗面(Kimi系列)、騰訊(混元系列)、華為(盤古系列)、元象(Llama中文社區版)等,都在2025年堅定地擁抱了"開放權重"(Open Weights)的開源策略。它們不僅發佈詳細的技術報告,更將訓練好的、性能強大的模型權重向學術界和產業界開放,允許全球的開發者和企業免費下載、在本地部署、進行二次開發和微調。這一策略的背後,是基於中國當前市場環境、技術發展階段和國際競爭格局的深思熟慮,是一場旨在實現"非對稱優勢"和"換道超車"的戰略抉擇:這場開源與閉源的路線之爭,本質上是兩種不同發展哲學和商業模式的博弈。閉源生態追求的是深度、控制和利潤最大化,而開源生態追求的是廣度、活力和生態共榮。短期內,最頂尖的閉源模型在通用能力上仍可能保持微弱的領先;但從長遠看,開源生態的快速迭代、群體智慧和更廣泛的應用滲透,可能催生出更具韌性和多樣性的創新,最終在整體上形成更強的產業競爭力。對於開發者而言,開源意味著更高的自主性、更低的成本和更靈活的定製空間,但也需要更強的技術能力來駕馭和最佳化模型,這對中國的AI人才培養提出了新的要求。1.2.2 開發者生態對比:全球化社區VS本土化平台開發者社區是AI生態的靈魂和活水之源,是技術傳播、知識分享、項目協作和人才成長的核心載體。2025年,中美兩國也形成了風格迥異但同樣充滿活力的開發者生態。美國主導的全球化社區,如GitHub和Hugging Face,為全球AI發展設定了基礎框架和協作模式;而中國崛起的本土化平台,如魔搭(ModelScope)、升思(MindSpore)社區,則在服務本土開發者、適配國產軟硬體方面展現出獨特的價值和強大的生命力。美國主導的全球化社區:以GitHub和Hugging Face為核心美國在AI開發者生態中的領導地位,主要通過兩個全球性的超級平台來體現:GitHub:AI世界的"程式碼基石":作為全球最大的程式碼託管平台,GitHub是整個AI乃至整個軟體世界的基礎設施。幾乎所有重要的AI框架(如Google的TensorFlow、Meta的PyTorch)、核心工具庫(如Hugging Face的Transformers、LangChain)、前沿演算法實現和學術研究程式碼都在此首發和迭代。其生態特點是:基礎性與前沿性:這裡是AI領域最底層、最核心的軟體和演算法創新的主要陣地。全球化協作:全球數千萬開發者在此共同協作,遵循著一套成熟的開源協作規範(如Pull Request、Issue跟蹤),形成了強大的網路效應和集體智慧。研究導向:大量的學術論文都會附上GitHub程式碼連結,使其成為連接學術研究與產業實踐的最重要的橋樑。對於全球開發者而言,GitHub是學習最新技術、追蹤前沿動態、參與頂級開放原始碼專案不可或缺的平台。Hugging Face:AI民主化的"模型廣場":如果說GitHub是AI的"程式碼庫",那麼Hugging Face就是AI的"模型庫"、"資料集市"和"應用展示空間"。它極大地降低了開發者獲取、使用、訓練和分享模型的門檻,是近年來推動AI技術民主化的最大功臣。其社區文化開放、活躍,以分享和協作為主導,核心價值在於:海量模型與資料集:託管了超過100萬個預訓練模型和20萬個資料集,覆蓋了自然語言處理、電腦視覺、音訊處理等幾乎所有領域。標準化工具鏈:其Transformers庫已成為載入和使用預訓練模型的事實標準,Diffusers庫統一了文生圖模型的介面,極大地簡化了開發流程。線上演示與部署:通過Spaces功能,開發者可以輕鬆地為自己的模型建構一個可互動的線上演示應用(Demo),並與全球使用者分享。Hugging Face還提供推理端點(Inference Endpoints)服務,簡化了模型的生產部署。中國崛起的本土化平台:以魔搭(ModelScope)和升思(MindSpore)為代表。面對美國主導的全球社區,中國AI產業也積極建構符合自身國情和開發者需求的本土化平台,其中最具代表性的是阿里巴巴的"魔搭"和華為的"升思":魔搭(ModelScope):中國開發者的"模型超級市場":由阿里巴巴達摩院牽頭推出的ModelScope社區,在短短幾年內迅速成長為中國規模最大、最活躍的AI模型社區。其核心定位是"模型即服務",致力於為中國開發者提供一站式的模型發現、體驗、開發和部署服務。相比Hugging Face,魔搭社區的特點更加"親民",更側重於模型的"應用性"和"易用性":國產模型大本營:社區不僅彙集了通義千問系列等阿里自家的王牌模型,也吸引了幾乎所有國內主流AI公司(如智譜AI、零一萬物、百川智能等)和頂尖研究機構的模型入駐,形成了國內最全的中文模型庫。極致的中文友好體驗:平台提供全中文的介面、詳盡的中文文件、豐富的入門教學和視訊講解,極大地降低了國內初級開發者的學習曲線。完善的工具鏈與雲服務整合:魔搭社區提供了從模型線上體驗(Playground)、程式碼線上運行(Notebook)到一鍵部署到阿里雲PAI平台的完整工具鏈。開發者可以在一個平台上完成從模型選型到應用上線的全過程,實現了與雲端運算服務的無縫銜接。升思(MindSpore):國產算力的"靈魂引擎":由華為推出的升思社區,則是一個戰略意圖更加清晰的平台,其核心目標是為基於華為升騰(Ascend)AI硬體生態的開發提供全端式的軟體框架、模型庫和工具鏈。升思社區的最大特點是"軟硬協同",旨在通過框架、編譯器和模型的聯合最佳化,將升騰晶片的硬體性能發揮到極致,為開發者提供一個在國產算力上進行高效AI開發和部署的最優解。其生態價值在於:為國產算力"造魂":升思AI框架針對升騰硬體的架構特點(如達文西架構的矩陣計算單元)進行了深度最佳化,能夠最大化硬體利用率。建構自主可控的技術體系:在升思社區,從底層的AI框架(MindSpore)、AI編譯器(CANN),到上層的模型庫和開髮套件(MindKit),構成了一套完全自主可控的全端AI技術體系,這對於保障國家AI產業安全具有重要的戰略意義。表1-3 全球與中國主流AI開發者社區對比(2025年)總而言之,中美開發者生態呈現出互補與競爭並存的格局。GitHub和Hugging Face定義了全球AI開發的基礎設施和通用範式,而魔搭、升思等本土平台則在應用落地、服務本土開發者和建構自主算力生態方面,展現出強大的生命力和不可替代的價值。對於中國開發者而言,既要積極擁抱全球社區,站在巨人的肩膀上;也要充分利用本土平台的優勢,將先進技術與中國的市場需求和產業場景相結合,創造出真正的價值。1.2.3 技術特色對比:通用與垂直的殊途同歸中美技術路線的分化,最終體現在模型能力的技術特色和演進路徑上。2025年,這一差異愈發明顯:美國頭部模型在追求"通用人工智慧"(AGI)的道路上越走越遠,致力於打造一個無所不能的"超級大腦";而中國的AI大模型發展則呈現出更強的"實用主義"和"場景驅動"色彩,通過在垂直行業的深度耕耘,走出了一條"自下而上"、與實體經濟深度融合的特色路徑。儘管起點和路徑不同,但兩者都在以自己的方式,探索著通往更高等級人工智慧的未來,可謂"殊途同歸"。美國的技術路徑:追求通用能力的"自上而下"中國的技術路徑:場景驅動的"自下而上"相比之下,中國的AI大模型發展呈現出更強的"實用主義"和"場景驅動"色彩,走的是一條"自下而上"的道路。除了在通用能力上奮力追趕,中國廠商將大量資源投入到金融、醫療、製造、電商、教育等具體垂直行業的應用開發中,強調模型與產業知識、業務流程的深度融合。代表模型:阿里的通義千問、智譜GLM、百度的文心一言、騰訊的混元、華為的盤古等。核心理念:AI的價值最終體現在解決真實世界的問題上。從具體的應用場景出發,利用場景中產生的真實資料和反饋,來倒逼和牽引底層模型能力的迭代和最佳化。生態打法:將大模型與其在各自優勢領域的產業生態深度繫結。例如,阿里的通義千問與其電商和辦公生態(釘釘)深度融合;百度的文心大模型與其在自動駕駛、工業質檢等領域的積累相結合,形成了獨特的"雲智一體"優勢。這種路徑的優勢在於商業模式更清晰,更容易在短期內創造可衡量的經濟價值,並且能夠建構起基於行業Know-how和專有資料的護城河。其挑戰在於如何避免應用過於"碎片化",並在深耕垂直領域的同時,保持對通用能力前沿的跟進。中國AI的垂直行業深度賦能案例(2025年)中國的"自下而上"策略,在多個關乎國計民生的關鍵垂直行業取得了顯著成效,展現出AI技術與實體經濟深度融合的巨大潛力。這些案例不僅是技術的展示,更是商業價值的證明。1. 智能製造:從"中國製造"到"中國智造"2. 智慧金融:安全、效率與普惠的革命3. 普惠醫療:緩解資源不均,提升診療水平4. 自動駕駛:大模型驅動的"端到端"革命中國複雜多變的交通路況和海量的駕駛資料,為自動駕駛技術的快速迭代提供了全球獨一無二的"訓練場"。2025年,中國自動駕駛技術路線正在經歷一場由大模型驅動的範式革命。這些來自不同行業的案例充分說明,中國AI產業正通過與實體經濟的深度融合,在解決國計民生和產業升級的重大問題中尋找應用場景、創造真實價值,並反過來用真實世界的複雜資料和反饋來驅動AI技術的持續迭代。這條場景驅動、資料反哺的路徑,形成了一條極具韌性和生命力的、具有中國特色的技術發展道路。1.3 2025年關鍵技術突破:協同演進,邁向通用智能在市場需求、產業應用和全球競爭的三重驅動下,2025年的AI大模型技術在多個方向上取得了關鍵性、非線性的突破。這些突破不再是單一維度的線性提升,例如單純的參數增長或在某個孤立任務上的性能最佳化,而是多個技術方向協同演進、相互促進,共同推動AI系統向更通用、更自主、更高效、更可靠的終極目標邁進。多模態能力從可選變為標配,混合專家(MoE)架構的普及解決了規模與成本的矛盾,基於強化學習的深度推理能力讓模型學會了"思考",而AI Agent(智能體)的商業化爆發則將這一切能力整合,使其成為能夠自主執行任務的數字員工。這四大趨勢共同定義了2025年大模型技術的新高度,並深刻地影響著未來十年AI技術和應用的發展軌跡。1.3.1 多模態成為標配:從"拼接"到"原生"的全感官智能如果說2024年是多模態大模型的"萌芽之年",其能力主要體現在圖文理解上,那麼2025年則是其"普及與深化之年"。單一的文字處理能力已不再是衡量一個模型先進與否的標準,同時理解和生成文字、圖像、音訊、視訊、3D模型、感測器訊號等多種模態資訊,並實現它們之間的無縫轉換和融合推理,成為了頂級模型的入門門檻。這一轉變的意義,不亞於從黑白電視到彩色電視的飛躍,它標誌著AI正在從一個只能"閱讀"的"書生",進化為一個能聽、能看、能說、能感受的"全感官"智能體。技術演進:從"拼接"到"原生"的架構革命2025年多模態技術的核心突破,在於架構層面實現了從"拼接式多模態"(Stitched Multimodality)向"原生多模態"(Native Multimodality)的根本性演進。理解這一轉變,是理解當前多模態技術水平的關鍵。舊範式:拼接式多模態早期的多模態模型,如CLIP和DALL-E的早期版本,通常採用多個獨立的、針對特定模態的編碼器(Encoder)。例如,使用一個預訓練好的視覺模型(如ViT)來編碼圖像,使用一個語言模型(如BERT)來編碼文字,然後通過一個輕量級的"連接層"(Projection Layer)將它們的特徵向量對應到同一個語義空間進行對齊和融合。這種方式雖然在當時取得了不錯的效果,但存在明顯的技術缺陷:資訊瓶頸(Information Bottleneck):不同模態的資訊在各自的編碼器中被高度壓縮,在"連接層"進行融合時已經丟失了大量原始的細節資訊,導致跨模態理解不夠精細和深入。互動膚淺(Shallow Interaction):模型只能進行表層的、全域的對齊(例如判斷"這張圖片和這段文字描述的是同一個物體"),但難以理解模態內部和模態之間的複雜、局部關係(例如,無法精準理解"圖片左上角的男人正在對右下角的狗低聲說話"這一包含空間、行為和聲音資訊的複雜場景)。擴展性差(Poor Scalability):每增加一種新的模態(如視訊、音訊),就需要設計一個新的編碼器和相應的連接方式,整個架構會變得越來越臃腫,訓練也變得異常複雜。新範式:原生多模態以Google Gemini系列、OpenAI GPT-5以及國內的通義千問Qwen2.5-VL為代表的新一代模型,在架構層面就實現了根本性的統一。它們採用統一的Transformer架構和共享的向量空間來處理所有模態的資料。其核心思想是"萬物皆可Token化":統一Token化:無論是文字、圖像、聲音還是視訊,都會被一個統一的"分詞器"(Tokenizer)或多個協同工作的分詞器,轉換成一系列離散的"語義令牌"(Semantic Tokens)。例如,圖像被切分成小塊(Patches),每個圖像塊被編碼成一個Token;音訊波形被切分成短時幀,也被編碼成Token。這些來自不同感官的Token,與文字的Token一起,被送入同一個模型中,擁有了統一的"語言"。端到端深度融合訓練:在統一的Transformer架構中,來自不同模態的Token通過自注意力機制(Self-Attention)進行無差別的、深度的互動和融合。模型在包含海量多模態資料的預訓練過程中,端到端地(End-to-End)學習所有模態的內在規律以及它們之間錯綜複雜的對應關係。模型不再是先理解圖像,再理解文字,而是在同一個思考過程中,同時處理和關聯所有的感官資訊。這種原生多模態架構帶來了幾個革命性的優勢:更強的跨模態推理能力:模型能夠真正理解不同模態資訊之間的深層邏輯和因果關聯。例如,它不僅能識別出一張圖片裡有一隻貓和一張桌子,還能根據貓的姿勢、眼神以及桌上的食物,推理出"這隻貓可能準備跳上桌子偷吃東西",甚至能結合背景聲音(如遠處傳來的主人腳步聲),進一步推理出"這隻貓的行為具有風險,可能會被即將到來的主人發現"。這種能力是實現高級場景理解和自主決策的基礎。更靈活的模態轉換與生成(Any-to-Any):由於所有模態在底層被統一表示,模型可以輕鬆地實現任意模態到任意模態的轉換和生成。例如:輸入一段複雜的文字描述("一個賽博朋克風格的雨夜城市,霓虹燈在濕漉的街道上投下斑斕的倒影,一個穿著風衣的偵探在追逐一個一閃而過的神秘黑影"),可以直接生成一段包含相應場景、動態效果、環境音效和緊張旁白的短影片。輸入一段哼唱的旋律,可以生成完整的樂譜、多種樂器編配的成品音樂,甚至配上AI生成的虛擬歌手演唱。輸入一段產品設計草圖,可以直接生成可用於3D列印的CAD模型。更低的開發與部署成本:統一的架構意味著更少的模型元件和更簡化的訓練與部署流程。開發者不再需要為不同的多模態任務去尋找和組合不同的模型,一個強大的原生多模態模型即可應對多種應用場景,這極大地降低了多模態應用的開發和維護成本。行業影響與未來展望多模態能力的普及,正在對各行各業產生顛覆性的影響,其深度和廣度遠超純文字AI:內容創作與傳媒:AIGC正在從單一的文案、圖片生成,走向完整的視訊、電影、遊戲內容的自動化和半自動化生產。這將極大地改變媒體、廣告和娛樂行業的內容生產方式,催生"AI導演"、"AI編劇"、"AI遊戲關卡設計師"等新職業,同時也對內容版權、真實性驗證提出了新的挑戰。教育與培訓:AI可以根據學生的學習進度和薄弱環節,動態生成包含圖示、動畫、語音講解和互動實驗的個性化多媒體課件,實現真正的因材施教。未來的課本將是"活"的、可互動的、全方位調動學生感官的沉浸式學習體驗。工業與醫療:在工業領域,多模態AI能結合裝置運行的聲音、振動頻率、紅外熱成像和高畫質視覺圖像,實現比任何單一感測器都更準確的故障預警和壽命預測。在醫療領域,它能同時分析CT影像、病理報告、基因序列和患者的口述病史,為醫生提供更全面、更準確的診斷建議,成為"超級診斷專家"。人機互動革命:未來的互動介面將不再侷限於鍵盤、滑鼠和螢幕。使用者可以通過最自然的語音、手勢、眼神甚至腦電波與AI進行互動,AI也能通過分析使用者的表情、語氣和生理訊號來理解其真實意圖和情感狀態,實現更具共情能力和預見性的溝通。這將為AR/VR眼鏡、智能座艙、具身智慧型手機器人、可穿戴裝置等領域帶來革命性的體驗提升。科學發現:多模態AI能夠理解科學論文中的圖表、公式和文字,觀看實驗視訊,分析實驗資料,幫助科學家更快地吸收知識、發現不同領域研究之間的關聯,並提出新的科學假設。2025年,多模態已經不再是一個"加分項",而是基礎大模型不可或缺的核心能力。它將AI從一個強大的語言工具,提升到了一個初級的"世界模擬器"和"全能感知體",為通往更高等級的人工智慧鋪平了道路。1.3.2 MoE架構普及:兆參數的"經濟適用"之道隨著模型能力的提升,參數規模的增長似乎是通往更強智能的必經之路。然而,訓練和推理一個數兆參數的稠密模型(Dense Model)——即在每次計算中所有參數都參與運算——所帶來的巨大算力成本、記憶體開銷和能源消耗,是任何一家公司都難以承受的。這形成了一個阻礙AI發展的"不可能三角":即無法同時實現頂尖的性能、巨大的規模和可控的成本。為了打破這一桎梏,混合專家模型(Mixture of Experts, MoE)架構在經歷了多年的學術探索後,於2025年得到了大規模的工業化普及,成為建構前沿大模型的首選架構。它為通往兆乃至十兆參數的道路,提供了一條經濟適用的、可行的工程路徑。技術原理:稀疏啟動的"集體智慧"MoE的核心思想,源於一個簡單的分工理念:與其讓一個"通才"吃力地解決所有問題,不如培養一群各有所長的"專家",在遇到問題時,聰明地選擇並啟動最相關的幾位專家來協同解決。在模型架構中,這意味著將一個龐大的前饋神經網路(FFN)層,取代為兩個核心元件:多個專家子網路(Experts):這些是相對獨立的、規模較小的神經網路(通常是FFN)。每個專家在訓練過程中會逐漸學習並擅長處理某一類特定的輸入模式或知識領域(例如,一個專家可能擅長處理與程式設計相關的Token,另一個則擅長處理與生物化學相關的Token)。一個"門控網路"(Gating Network):這是一個輕量級的路由網路。對於每一個輸入的Token,門控網路會快速計算一個權重分佈,決定應該將這個Token傳送給那些專家進行處理。通常,它會選擇權重最高的Top-k個專家(k通常為1、2或4),然後將這些被啟動的專家的輸出結果,根據門控網路的權重進行加權融合,作為最終的輸出。通過這種方式,MoE模型實現了所謂的"稀疏啟動"(Sparse Activation)。儘管模型的總參數量可以做得非常巨大(例如,通過堆疊數百個專家網路達到兆等級),但在處理任何一個Token時,實際參與計算的只是被門控網路選中的少數幾個專家,即"啟動參數量"遠小於"總參數量"。這就帶來了巨大的優勢:在保持巨大模型容量(代表其潛在知識的豐富程度)的同時,大幅降低了單次推理的計算量(FLOPS),從而實現了性能與效率的解耦。表1-4 採用MoE架構的部分代表性模型(2025年)技術深化:從"粗放路由"到"智能調度"MoE架構在2025年的普及,不僅僅是應用範圍的擴大,更伴隨著一系列技術深化和創新,解決了早期MoE面臨的訓練不穩定、負載不均衡、推理延遲高等諸多挑戰。智能路由演算法:早期的MoE模型在分配任務給"專家"時,採用簡單的Top-k門控機制,容易出現"贏家通吃"的現象——即少數專家被過度使用,而大多數專家長期處於閒置狀態。這不僅導致模型容量的巨大浪費,也使得訓練過程非常不穩定。2025年的先進MoE模型,如DeepSeek-V2和智譜GLM-4,採用了更複雜的路由演算法:負載平衡損失(Load Balancing Loss):在訓練的目標函數中加入一個額外的損失項,專門用於懲罰不均衡的專家分配。這會激勵門控網路在選擇專家的同時,也考慮讓所有專家都得到"雨露均霑"的訓練,從而最大化模型容量的利用率。噪聲路由(Noisy Routing):在門控網路的輸出上增加隨機噪聲,以增加路由的探索性,避免模型過早地鎖定在少數幾個專家上,有助於提升模型的泛化能力。專家能力建模:一些更前沿的研究開始讓門控網路不僅考慮輸入與專家的"相關性",還動態地建模每個專家的"能力"和"專長",從而實現更準確的"因材施教"式路由。專家融合與協作:新的MoE架構不再將專家視為完全獨立的、互不通訊的單元。一些模型引入了"共享專家"或"層級化專家"結構。例如,在模型的底層,可能設定一些所有任務都會用到的通用基礎知識專家(如負責基礎語法和語義理解),而在高層,則設定更專業的"領域專家"(如"法律專家"、"程式碼專家"、"數學專家")。還有一些模型則在專家之間引入了橫向連接或額外的注意力機制,允許它們在計算過程中相互交流和協作,共同解決需要跨領域知識的複雜問題。這使得MoE模型不再是簡單的"專家混合",而是真正的"專家會診"。稀疏訓練與推理最佳化:MoE模型的稀疏啟動特性,也催生了一整套專門的分佈式訓練和推理最佳化技術,這是軟體和硬體協同設計的典範。訓練層面:由於MoE模型的總參數量巨大,無法裝入單個計算裝置,因此必須進行平行訓練。業界發展出了"專家平行"(Expert Parallelism)策略,即將不同的專家分佈在不同的GPU上,同時結合"資料平行"(Data Parallelism)來處理輸入資料。這需要高效的All-to-All通訊來完成Token在不同GPU之間的路由和分發,對網路頻寬提出了極高要求。推理層面:MoE的推理最佳化是2025年的一大技術熱點。VLLM、TensorRT-LLM、S-LoRA等推理引擎都針對MoE進行了深度最佳化。其核心挑戰在於,如何高效地處理動態的、不可預測的專家啟動模式,並最大限度地減少從海量總參數中載入專家權重到計算核心所帶來的延遲。關鍵技術包括:專家權重快取(Expert Weights Caching):將最常被啟動的專家權重快取在GPU的快取記憶體(SRAM)或HBM中。投機性載入(Speculative Loading):根據歷史模式或門控網路的初步計算,提前預測那些專家可能被啟動,並預先將其權重從主存載入到GPU記憶體中。計算與通訊重疊:通過精巧的調度,將Token的路由通訊、專家權重的載入與實際的計算過程進行流水線式的重疊,隱藏延遲。產業影響:重塑AI算力版圖MoE架構的普及,正在深刻地改變AI硬體和雲端運算產業的發展方向和競爭格局:對AI硬體提出新要求:MoE架構的"稀疏計算,密集儲存"特性,對AI晶片的設計理念提出了新的要求。過去,AI晶片設計更注重峰值計算能力(FLOPS)。而現在,記憶體頻寬和容量的重要性被提到了前所未有的高度。因為MoE模型在推理時需要從海量的總參數中快速載入被啟動的專家權重,"記憶體牆"(Memory Wall)成為了比"計算牆"(Compute Wall)更主要的瓶頸。這直接推動了高頻寬記憶體(HBM)技術的加速迭代(從HBM3到HBM3e再到HBM4),並使得擁有更大HBM容量的AI晶片(如NVIDIA的B200擁有192GB HBM3e,AMD的MI300X擁有192GB HBM3)在市場上更具競爭力。此外,MoE模型在多節點部署時,專家間的通訊需求也對伺服器的片間/節點間互聯技術(如NVIDIA的NVLink、CXL)提出了更高要求。可以說,軟體層面的架構創新正在反向定義硬體的發展方向。對雲端運算廠商的挑戰與機遇:對於AWS、Azure、GCP以及中國的阿里雲、騰訊雲等雲廠商而言,MoE模型的流行帶來了新的挑戰和機遇。挑戰在於,如何為客戶提供能夠高效運行超大規模MoE模型的、具有高頻寬網路和海量記憶體的計算叢集,這對資料中心的基礎設施提出了極高的要求。機遇在於,雲廠商可以憑藉其在基礎設施、系統最佳化和平台軟體上的綜合優勢,為客戶提供比自建資料中心更具性價比的MoE模型訓練和推理服務,這成為雲服務商新的增長點。例如,Google就憑藉其在TPU上的優勢,宣稱其雲平台是運行超大MoE模型的最佳選擇。而中國的雲廠商則在適配國產算力、為國產MoE模型提供最佳化服務方面,構築自己的獨特優勢。總而言之,MoE架構是2025年大模型技術領域最核心的使能技術之一。它巧妙地繞過了暴力計算的物理極限,為建構更大、更強的AI模型提供了一條可持續的工程路徑,使得"兆參數"不再是少數巨頭的專利,而是成為了更多創新者可以企及的目標,極大地推動了AI技術的普及和應用深化。1.3.3 強化學習增強推理:從"模仿"到"創造"的認知飛躍如果說海量資料的預訓練賦予了AI大模型廣博的"知識",使其成為一個無所不知的"資訊檢索和模式匹配"大師,那麼在2025年取得關鍵突破的強化學習(RL)應用,則正在教會模型如何運用這些知識進行深度的"思考",實現從"模仿"到"創造"的認知飛躍。這一轉變,標誌著AI正從一個被動的"知識容器"向一個主動的"問題求解器"和"思想引擎"邁進,是通往通用人工智慧(AGI)道路上最關鍵、最深刻的一步。範式轉變:從RLHF到"過程-結果"雙重監督與自我對弈2025年,強化學習在大模型領域的應用,實現了從單一的、旨在"對齊人類偏好"的RLHF,到旨在"提升內在推理能力"的更複雜範式的演進。這個新範式結合了過程監督、結果監督和自我對弈,為模型打開了"無監督學習"和"自我進化"的大門。舊範式:RLHF(Reinforcement Learning from Human Feedback)的侷限:RLHF在過去幾年中對於提升模型的安全性、有用性和遵循指令能力方面取得了巨大成功。其核心是讓模型學習模仿人類的偏好。通過讓人類對模型的不同輸出進行排序(例如,那個回答更禮貌、更安全),訓練一個"獎勵模型"(Reward Model),然後用這個獎勵模型作為訊號,通過強化學習演算法(如PPO)來微調大模型。然而,RLHF的本質是"外在的"和"模仿性的",它教會了模型"說什麼樣的話更討人喜歡",但並沒有真正教會模型"如何獨立地思考並得出正確的結論"。其天花板受限於人類標註者的認知水平和偏好,模型很難通過RLHF學會創造出超越人類已有知識的、新穎的解決方案,尤其是在數學、科學、程式設計等需要嚴謹邏輯推理的領域。新範式:結合過程與結果監督的深度推理(Process & Outcome-Supervised RL)為了讓模型真正學會"思考",2025年的前沿技術將監督訊號從模糊的"偏好"轉向了更明確的"過程"和"結果":結果監督(Outcome Supervision):對於那些有明確正確答案的問題(如數學題、程式碼編譯結果),模型可以獲得一個清晰、客觀的獎勵訊號。如果答案正確,則獲得正獎勵;如果錯誤,則獲得負獎勵。這比人類的主觀偏好要可靠得多。過程監督(Process Supervision):然而,僅僅獎勵最終結果是不夠的。一個複雜的推理任務包含很多步驟,模型可能因為某一步的"運氣好"(例如,兩個錯誤相互抵消)而得到正確答案,但這並不意味著它掌握了正確的解題方法。過程監督的核心,是讓人類(或更強的AI)去審查和獎勵模型生成的"思維鏈"(Chain of Thought)中的每一步。如果某一步推理是正確的、有邏輯的,就給予獎勵。這種對"思考過程"的監督,能夠更有效地引導模型學習到可泛化的、魯棒的推理能力。OpenAI提出的"過程獎勵模型"(Process-based Reward Models, PRM)就是這一思想的典型實現。通過結合這兩種監督方式,模型不僅知道要達到什麼"目標",也學會了"如何一步步地、正確地達到目標"。當面對一個複雜問題時(如多步驟的數學題、複雜的程式碼偵錯),模型不再是直接"猜"一個答案,而是會先生成一個詳細的思考鏈或解題計畫,然後逐步執行和修正,最終得出答案。這個過程類似於人類的深思熟慮,極大地提高了模型在複雜任務上的精準性和可靠性。OpenAI在GPT-5發佈時重點介紹的"擴展推理能力"(extended reasoning)和"思考模式"(thinking mode),正是這一趨勢的體現。前沿探索:自我對弈強化學習(Self-Play RL)更進一步,借鑑DeepMind在AlphaGo上取得的巨大成功,AI研究者們正在將"自我對弈"的思想引入到大模型的推理訓練中。其核心思想是,讓模型自己為自己創造學習環境和目標,在沒有或極少有人類輸入的情況下進行自我博弈和提升。在解決一個複雜的數學問題時,模型可以同時扮演三個角色:出題者(Proposer):從一個基本概念出發,自己生成無數個難度遞增、形式各異的新問題。解題者(Solver):嘗試用多種不同的"思維鏈"或"思維樹"來探索這些問題的解法。驗證者(Verifier):通過邏輯一致性檢查、與已知公理比對、或將問題簡化後驗證答案等方式,自己判斷解法的正確與否,並對正確的解題路徑進行"自我獎勵"。通過數百萬次甚至數十億次這樣的自我對弈循環,模型能夠探索出人類從未想過的新穎解題技巧和策略,其能力不再受限於訓練資料中已有的人類知識。2024年9月12日,OpenAI發佈的O1推理模型被認為是這一方向的里程碑,其採用的"Self-play RL"範式,讓模型能夠通過自我對弈和探索,不斷髮現更優的解題策略。這標誌著AI正從一個知識的"消費者"和"整理者",轉變為一個知識的"發現者"和"創造者"。行業影響:重定義"專家級"任務由強化學習驅動的、可解釋、可驗證的深度推理能力,正在重定義許多過去被認為是人類頂尖專家專屬的"認知型"任務,其影響的深度和廣度將遠超之前的自動化浪潮:科學研究(AI for Science):AI已經開始在數學定理證明、蛋白質結構預測(如AlphaFold 3)、新材料發現、高能物理資料分析等領域扮演關鍵角色。過去,AI在科學領域的應用更多是作為強大的資料分析工具。而現在,具備推理能力的AI有望成為科學家的"研究夥伴"或"靈感催化劑"。它可以幫助科學家梳理文獻、發現不同領域知識之間的隱藏關聯、提出全新的科學假設、設計複雜的實驗方案,甚至獨立完成部分理論推導,從而極大地加速科學發現的處理程序。軟體工程(AI for Software Engineering):這是推理能力最先展現出顛覆性潛力的領域之一。具備強大推理能力的AI Agent,將能夠承擔從理解模糊的自然語言需求、進行系統架構設計、編寫高品質和可維護的程式碼,到設計測試用例、自動偵錯、乃至最終的部署和維運的全流程軟體開發工作。這可能會極大地改變軟體行業的生產模式,將人類程式設計師的角色從"程式碼工人"提升為"AI架構師"和"產品思想家",同時也對軟體工程的教育和培訓提出了全新的要求。金融與法律:在金融領域,AI可以進行更複雜的宏觀經濟預測、金融衍生品定價和全天候的風險建模,而不僅僅是基於歷史資料的模式識別。在法律領域,AI可以處理更複雜的案件分析、證據鏈梳理和合同審查,甚至進行一定程度的法律推理,為法官和律師提供決策支援。這要求相關領域的從業者必須學會如何與這些"AI法律助理"和"AI金融分析師"進行高效協作。教育:具備推理能力的AI家教,不僅能判斷學生的答案是否正確,更能理解學生的解題思路錯在了那裡,並能像一個有經驗的老師一樣,循循善誘地、一步步地引導學生掌握正確的思維方法。這為實現大規模、高品質的個性化教育提供了可能。總而言之,強化學習增強推理能力的突破,是2025年AI技術發展中最具變革性的力量。它讓AI開始擁有真正的"智力"而非僅僅是"知識",使其能力邊界從模式匹配和資訊檢索向複雜問題求解和自主規劃拓展。這是AI發展史上的一個分水嶺,也是邁向更通用、更強大人工智慧的關鍵一步。1.3.4 AI Agent爆發:從"工具"到"員工"的社會變革當大模型具備了強大的多模態感知能力、基於MoE架構的高效海量知識、以及由強化學習驅動的深度思考和規劃能力後,將這一切能力整合起來,並賦予其與外部世界互動、自主設定目標並執行任務的能力,便誕生了人工智慧體——AI Agent。如果說之前的AI是需要人來"使用"的"工具",那麼AI Agent就是一個可以被"僱傭"來自主完成任務的"數字員工"。在經歷了前兩年的概念驗證和技術探索後,2025年被業界普遍認為是AI Agent的商業化元年和"應用爆發之年"。這不僅是一項技術的成熟,更是一場深刻的生產力革命和社會變革的序幕。AI Agent的"三位一體"核心架構一個典型的AI Agent框架,無論其具體實現如何,通常都包含一個由"感知-規劃-行動"(Perception-Planning-Action)構成的核心循環,並輔以"記憶"和"工具使用"兩大關鍵能力,形成一個"三位一體"的智能系統:感知(Perception):這是Agent與世界互動的入口。得益於2025年成熟的原生多模態技術,Agent的感知能力已經遠超文字。它可以"看到"螢幕上的介面、圖表和視訊,"聽到"使用者的語音指令和環境聲音,並閱讀海量的文件、程式碼和網頁。這種全方位的感知能力是其理解複雜任務和環境的基礎。規劃與思考(Planning & Reasoning):這是Agent的"大腦"和"中樞神經"。當接收到一個複雜、高層次的目標(例如,"幫我規劃一次為期五天的北京家庭旅行,預算一萬元")後,Agent的核心推理引擎(通常由具備深度推理能力的大模型擔當)會啟動:任務分解(Task Decomposition):將模糊的大目標分解為一系列具體的、可執行的子任務(例如:1. 確認家庭成員和出行偏好;2. 搜尋往返機票和酒店;3. 規劃每日行程和景點;4. 估算餐飲和交通費用;5. 形成最終方案並徵求使用者意見)。自我反思與修正(Self-Reflection and Refinement):在執行過程中,Agent會不斷地對自己的計畫和行為進行評估。如果發現某一步走不通(例如,預訂的酒店滿房),它會分析失敗的原因,並自主修正後續的計畫(例如,更換酒店或調整行程日期)。這種"反思"能力是其區別於簡單自動化指令碼的關鍵。行動(Action):這是Agent影響和改變世界的出口。Agent的行動並非預設的固定程序,而是根據其規劃動態生成的。其核心能力在於工具呼叫(Tool Use)。技術堆疊成熟:從開源框架到商業化平台AI Agent在2025年的爆發,直接得益於其背後技術堆疊的快速成熟和標準化。以LangChain、LlamaIndex、AutoGen、CrewAI、MetaGPT等為代表的開源框架,為Agent的核心能力(規劃、記憶、工具呼叫)提供了標準化的、模組化的實現,極大地降低了開發者建構Agent應用的門檻。開發者不再需要從零開始實現複雜的邏輯,而是可以像"搭樂高"一樣,快速組合這些框架提供的元件來建構自己的Agent。2025年,我們看到這些開放原始碼專案開始向更成熟的"Agent平台"演進。這些平台不僅提供開發工具,還提供了一系列商業化的服務,形成了一個完整的生態系統:應用爆發:從個人助理到企業自動化成熟的技術堆疊催生了Agent應用的全面爆發,覆蓋了從個人生產力到企業級自動化的廣泛場景:AI軟體工程師:這是2025年最引人注目的Agent應用方向。以Cognition AI的Devin為代表,這類Agent能夠端到端地完成軟體開發任務。使用者只需用自然語言描述需求,Devin就能夠自主學習不熟悉的技術、編寫程式碼、修復bug、進行測試,並最終完成部署。它在SWE-bench基準上解決問題的能力,已經超過了許多人類初級工程師。這預示著軟體開發這一複雜的人類智力活動,正在被AI重塑。AI市場分析師與研究員:這類Agent能夠自動監控全網的新聞、報告、社交媒體和市場資料,根據設定的主題(例如,"分析2025年中國新能源汽車市場的競爭格局")進行資訊的抓取、清洗、整理和深度分析,並最終自動生成一份結構完整、圖文並茂、包含資料洞察和趨勢預測的深度研究報告。自主的個人助理:AI助理不再是被動地回答問題,而是能夠主動地、跨應用地為使用者完成任務。例如,使用者只需說一句"幫我安排下周三和張總的會議",Agent就會自動檢查雙方的日曆、協調空閒時間、傳送會議邀請、預訂會議室,並在會前自動整理好相關的背景資料傳送給使用者。企業自動化工作流(Hyperautomation):這是AI Agent在B端最具想像力的應用。通過將企業內部的OA、ERP、CRM等多個獨立的IT系統通過Agent打通,可以實現跨系統的、端到端的業務流程自動化。例如,一個"銷售訂單處理Agent"可以在CRM中收到新訂單後,自動去ERP中檢查庫存、在物流系統中安排發貨、在財務系統中生成發票,並自動給客戶傳送包含物流單號的確認郵件。這比傳統的RPA(機器人流程自動化)更加靈活和智能。"智能體經濟"(Agent Economy)的黎明AI Agent的商業化,正在催生一個全新的"智能體經濟"。在這個經濟體中,AI不再僅僅是工具,而是作為獨立的經濟參與者,提供服務、創造價值並參與分配。新的商業模式正在湧現:訂閱制"數字員工":企業可以像僱傭人類員工一樣,按月或按年訂閱一個"財務分析Agent"、"客戶支援Agent團隊"或"初級程式設計師Agent"。這些"數字員工"可以7x24小時不間斷工作,成本遠低於人力,且不會疲勞、不會犯重複性錯誤。結果導向付費(Outcome-based Pricing):使用者不再為Agent的計算過程或使用時長付費,而是為其創造的商業價值付費。例如,一個"銷售線索挖掘Agent"可以根據其最終帶來的有效銷售線索數量來收費;一個"廣告投放最佳化Agent"可以根據其提升的廣告轉化率來分享收益。這種模式將AI服務商與客戶的利益深度繫結。Agent應用程式商店(Agent Store):類似於蘋果的App Store或Salesforce的AppExchange,未來將會出現面向AI Agent的"應用程式商店"。開發者可以開發出各種功能的、面向特定場景的Agent並上架銷售,個人使用者和企業可以根據自己的需求,購買、組合不同的Agent來打造個性化的"超級助理"或自動化工作流。平台則從中抽取分成,形成一個繁榮的開發者生態。AI Agent的爆發,標誌著AI的角色正在從一個被動的"資訊提供者"轉變為一個主動的"任務執行者"和"價值創造者"。它將徹底改變人機互動的方式,並有望重塑軟體行業、服務行業乃至整個社會的生產力組織形式。當然,這也將對現有的商業模式和勞動力市場帶來顛覆性的衝擊,並引發關於AI倫理、責任歸屬、安全治理和社會公平的更深層次的社會討論,這些都將是未來幾年需要全社會共同面對和解決的重大課題。1.3.4 AI Agent爆發:從"工具"到"員工"的社會變革AI Agent的技術架構深度解析2025年,AI Agent的實現已經從概念驗證走向了工程化和產品化。一個生產級的AI Agent系統通常採用分層架構,各層之間通過標準化介面解耦,確保了系統的可擴展性和可維護性:1. 感知層(Perception Layer)感知層負責將多模態輸入轉換為統一的內部表示。2025年的先進Agent不再侷限於文字對話,而是整合了:視覺感知模組:基於Qwen-VL或GPT-5 Vision等原生多模態模型,能夠解析使用者上傳的截圖、圖表、照片,並理解介面元素和視覺上下文。這在自動化UI操作、視覺問答等場景中至關重要。語音感知模組:整合CosyVoice或Whisper等SOTA語音識別模型,支援流式語音輸入和即時轉錄,延遲可控制在300ms以內。結構化資料感知:通過Function Calling機制,Agent能夠呼叫API獲取JSON、XML等結構化資料,並將其自然語言化。2. 認知核心層(Cognitive Core)這是Agent的"大腦",通常由一個或多個大語言模型構成,負責推理、規劃和決策。2025年的最佳實踐包括:雙模型策略:使用一個強大的"規劃模型"(如GPT-5或Qwen-Max)進行任務分解和策略制定,再使用一個更快的"執行模型"(如Qwen-Plus或DeepSeek-V2)處理具體的子任務,在成本與性能間取得平衡。思維鏈工程:通過精心設計的System Prompt,強制模型在輸出最終答案前,先輸出結構化的思考過程,包括:目標分析、子任務列表、工具選擇理由、風險評估等。這不僅提升了透明度,也便於偵錯和最佳化。自我糾錯機制:引入"批判性反思"步驟,讓Agent在完成一個子任務後,主動評估結果質量,若發現缺陷則觸發回退或重試邏輯。3. 行動執行層(Action Layer)執行層負責將認知層的決策轉化為實際的操作。關鍵技術包括:工具呼叫協議:2025年已初步形成了標準化的Agent工具呼叫協議(如OpenAI的Function Calling、Anthropic的Tool Use),使得不同廠商的Agent框架能夠相容使用第三方工具。瀏覽器自動化:通過Playwright、Selenium等瀏覽器自動化工具,Agent可以模擬人類操作網頁,完成從資訊檢索到線上交易的完整流程。Cognition AI的Devin就展示了在真實GitHub倉庫中自主建立PR、修復CI錯誤的能力。程式碼執行沙箱:為Agent提供安全的程式碼執行環境(如Jupyter Notebook、Docker容器),使其能夠進行資料分析、檔案處理等複雜操作,同時實現嚴格的權限隔離和資源限制。4. 記憶管理層(Memory Management)長期記憶是Agent處理複雜多輪任務的關鍵。2025年的主流方案是混合記憶架構:短期記憶:利用LLM的上下文窗口(最高可達200萬token)儲存當前對話歷史和近期任務資訊,實現快速訪問。長期語義記憶:使用向量資料庫(如Milvus、Pinecone)儲存歷史互動、成功經驗、領域知識,支援基於相似度的檢索。情景記憶:以鍵值對形式儲存特定任務的執行軌跡(Observation-Action-Observation),供未來類似任務參考學習。企業級AI Agent的實施挑戰與解決方案儘管技術日趨成熟,但將AI Agent規模化部署到企業生產環境仍面臨嚴峻挑戰:挑戰1:可靠性與一致性LLM的機率性輸出導致Agent行為難以完全預測,可能出現"幻覺"或執行錯誤。2025年的解決方案包括:確定性規劃層:在LLM之上增加一個基於規則或符號邏輯的驗證層,對關鍵操作(如支付、資料刪除)進行強制性規則檢查。人類在環(Human-in-the-Loop):在高風險決策點設定人工稽核節點,Agent提交執行計畫供人類批准後方可執行。沙盒測試:在隔離環境中對Agent工作流進行自動化測試,驗證其在各種邊界條件下的表現,覆蓋率需達到95%以上。挑戰2:成本與性能最佳化複雜任務可能觸發數十次LLM呼叫,成本高昂且響應慢。最佳化策略包括:快取機制:對重複的子任務結果(如常見函數程式碼)進行快取,命中率可達60-80%。模型路由:根據任務複雜度自動選擇大小模型,簡單查詢用小模型(如Qwen-Slim),複雜推理用大模型,可降低30-50%成本。平行化執行:對於獨立的子任務(如同時查詢多個資料庫),採用非同步並行執行,總耗時從線性疊加降為最慢子任務耗時。挑戰3:安全與合規賦予Agent訪問敏感資料和系統的權限帶來巨大安全風險。2025年的企業級Agent必須實現:最小權限原則:Agent僅被授予完成特定任務所需的最小權限集,權限動態授予、用後回收。可審計性:完整記錄Agent的所有操作日誌,包括決策過程、工具呼叫參數、結果狀態,滿足SOX、GDPR等合規要求。對抗性魯棒性:對輸入進行過濾和清洗,防範提示注入(Prompt Injection)和工具劫持(Tool Hijacking)攻擊。第二章:AI大模型開發核心技術堆疊:從框架到部署的全景解析引言:建構未來智能的"開發者軍火庫"在AI大模型技術浪潮席捲全球的背景下,開發者作為這場技術革命的核心推動力量,其手中的"軍火庫"——即AI大模型開發的核心技術堆疊——的演進與迭代,直接決定了創新的速度、應用的深度和生態的廣度。2025年,AI開發技術堆疊經歷了從"手工作坊"式的探索到"工業化"生產體系的深刻變革。這一體系,上承模型演算法的創新,下接千行百業的應用落地,是連接理論與實踐、驅動AI價值釋放的關鍵樞紐。本章將為開發者和AI從業者提供一份詳盡的、面向2025年的AI大模型開發核心技術堆疊圖譜。我們將系統性地梳理和解析構成這一技術堆疊的四大核心支柱:基礎開發框架:從深度學習的基石PyTorch、TensorFlow和JAX,到引爆應用層創新的AI Agent框架(如LangGraph、AutoGen),我們將剖析其技術演進和選型考量。模型訓練與微調技術:我們將深入探討分佈式訓練的平行策略、參數高效微調(PEFT)的革命(特別是LoRA與QLoRA),為開發者在不同資源和場景下選擇最優訓練方案提供指南。推理最佳化與部署技術:我們將揭示以vLLM和TensorRT-LLM為代表的高性能推理框架如何通過PagedAttention等技術實現吞吐量的飛躍,並系統介紹模型量化、算子融合等核心最佳化手段。AI程式設計輔助工具:從GitHub Copilot到國產的通義靈碼,我們將評測這些"AI結對程式設計師"如何重塑開發流程,提升程式碼生產力。本章旨在通過對上述核心技術堆疊的全面解析,為開發者提供一個清晰的導航圖,幫助他們理解各種工具的內在邏輯、適用場景與最佳實踐,從而在建構下一代AI應用的征程中,能夠"選對兵器,打贏戰爭"。2.1 基礎開發框架:奠定AI創新的基石基礎開發框架是AI技術堆疊的"作業系統",它為上層演算法的實現、模型的訓練和應用的部署提供了底層的計算抽象和工具集。2025年,AI開發框架的版圖呈現出清晰的"雙層結構":下層是以PyTorch、TensorFlow和JAX為代表的"深度學習基礎框架",它們是建構和訓練神經網路的核心引擎;上層則是以LangChain、CrewAI、AutoGen等為代表的"AI Agent開發框架",它們專注於編排和調度大模型的能力,是引爆應用層創新的催化劑。理解這兩層框架的特點與分工,是開發者建構現代AI應用的第一步。2.1.1 深度學習基礎框架:三足鼎立,PyTorch王者地位穩固深度學習基礎框架是AI開發者的"主戰武器",它們直接決定了研究和開發的效率、靈活性與性能。經過多年的激烈競爭,2025年的市場格局已然清晰:PyTorch憑藉其靈活性和強大的社區生態,在學術界和工業界都佔據了絕對的主導地位;TensorFlow憑藉其在生產部署和移動端上的優勢,仍在特定領域保有一席之地;而JAX則以其高性能和獨特的函數式程式設計範式,在頂尖研究和大規模計算領域異軍突起,成為不可忽視的新生力量。PyTorch:當之無愧的王者由Meta AI研究院主導開發的PyTorch,在2025年已經成為絕大多數AI研究者和開發者的首選框架。根據Papers With Code等學術平台的統計資料,2024年至2025年間新發表的AI論文中,使用PyTorch實現的比例已經超過70-80%,形成了事實上的"學術壟斷"。其成功主要歸功於以下幾點:動態計算圖(Dynamic Computational Graph):這是PyTorch最核心的特性,也被稱為"Define-by-Run"。計算圖在程式碼實際執行階段才被建構,這意味著開發者可以使用標準的Python控制流(如if語句、for循環)和偵錯工具(如pdb)來建構和偵錯模型。這種所見即所得的程式設計體驗極大地降低了學習門檻,提高了開發和實驗的效率。相比之下,TensorFlow早期的靜態圖模式在偵錯時需要複雜的Session機制,學習曲線陡峭。簡潔直觀的API設計:PyTorch的API設計遵循"Pythonic"的哲學,與NumPy的介面高度相似,使得熟悉Python資料科學生態的開發者可以快速上手。其模組化的設計(如nn.Module、torch.optim)使得建構、訓練和評估模型的過程非常自然和清晰。例如,定義一個神經網路只需要繼承nn.Module並實現forward方法,這種物件導向的設計非常符合開發者的直覺。強大的社區與生態系統:PyTorch擁有全球最活躍、最龐大的AI開發者社區。這不僅意味著海量的開放原始碼專案、預訓練模型和第三方庫(如Hugging Face Transformers、PyTorch Lightning、fast.ai),也意味著開發者在遇到問題時可以快速找到解決方案。Hugging Face生態與PyTorch的深度繫結,更是極大地推動了其在NLP領域的普及。2025年,幾乎所有新發佈的重要模型都會第一時間提供PyTorch版本。無縫的生產部署過渡:通過TorchScript(將動態圖模型轉換為靜態圖)和TorchServe(官方模型服務庫),PyTorch彌補了早期在生產部署上的短板。特別是PyTorch 2.0版本後引入的torch.compile功能,通過與Triton等先進編譯器的整合,實現了"一次編寫,處處加速",在保持開發靈活性的同時,獲得了接近靜態圖的推理性能,打通了從研究到生產的"最後一公里"。torch.compile使用即時編譯(JIT)技術,能夠自動融合算子、最佳化記憶體訪問模式,在Transformer模型上可實現1.5-2倍的推理加速。TensorFlow:堅守工業界,專注生產部署由Google開發的TensorFlow是歷史上第一個被廣泛採用的深度學習框架。儘管在靈活性和社區活躍度上逐漸被PyTorch超越,但憑藉其在工業級生產部署和Google強大生態系統中的深厚根基,TensorFlow在2025年依然是許多大型企業和特定場景下的重要選擇。靜態計算圖(Static Computational Graph):TensorFlow 1.x時代的核心特性是"Define-and-Run",即先定義完整的計算圖,再執行。這種模式雖然開發和偵錯較為繁瑣,但非常有利於進行圖最佳化、跨平台部署和分佈式訓練。儘管TensorFlow 2.x引入了Eager Execution(類似於PyTorch的動態圖模式)作為默認模式,但其骨子裡仍然保留了強大的靜態圖能力,這使其在追求極致性能和穩定性的生產環境中備受青睞。靜態圖可以在部署前進行全域最佳化,如常數摺疊、算子融合、記憶體預分配等。完善的部署工具鏈(TensorFlow Extended - TFX):Google為TensorFlow打造了一套名為TFX的端到端機器學習平台,覆蓋了從資料準備、模型訓練、驗證、部署到監控的全生命周期。其中的TensorFlow Serving在處理大規模、高並行的推理請求方面表現出色,而TensorFlow Lite則是在移動和嵌入式裝置上部署AI模型的行業標準。這種"全家桶"式的解決方案對於需要標準化、可擴展和可維護的MLOps流程的大型企業具有很強的吸引力。TFX的各個元件(Transform、Trainer、Evaluator、Pusher)可以整合到Apache Airflow或Kubeflow Pipelines中,實現自動化的CI/CD。Google生態深度整合:作為Google的"親兒子",TensorFlow與Google Cloud Platform(GCP)、TPU硬體以及Android生態系統深度整合,能夠為使用這些平台和裝置的開發者提供最優的性能和最便捷的開發體驗。例如,在TPU上訓練時,TensorFlow可以通過XLA編譯器生成高度最佳化的TPU指令,性能遠超PyTorch。JAX:高性能計算的"核武器"同樣由Google開發的JAX,是一個相對較新的框架,但它憑藉其獨特的設計理念和驚人的性能,在高性能計算(HPC)和前沿AI研究領域迅速崛起,被認為是PyTorch和TensorFlow未來最強有力的挑戰者。JAX的核心並非一個傳統的深度學習框架,而是一個專注於高性能數值計算和大規模機器學習的Python庫。其核心競爭力源於幾個關鍵的函數變換:grad:自動微分:JAX提供了強大且靈活的自動微分功能,可以對任意複雜的Python函數(包括循環、分支、遞迴)進行求導,支援高階導數和複雜的梯度操作。其自動微分系統基於稱為"autograd"的技術,能夠自動追蹤所有操作並建構計算圖用於反向傳播。jit:即時編譯:通過@jax.jit裝飾器,JAX可以將Python函數編譯成針對CPU、GPU或TPU最佳化的XLA(Accelerated Linear Algebra)程式碼,從而消除Python直譯器的開銷,獲得接近原生程式碼的運行速度。XLA是Google開發的領域特定編譯器,能夠生成高度最佳化的機器碼。vmap:自動向量化:vmap可以自動地將一個處理單個資料點的函數,轉換為能夠平行處理一批(a batch of)資料的函數,而無需開發者手動修改函數來處理額外的批處理維度。這使得編寫可批處理的程式碼變得異常簡單和優雅。例如,如果你有一個計算單個向量范數的函數,vmap可以自動將其升級為計算矩陣中每一行向量范數的函數。pmap:自動平行化:pmap則可以將計算自動地平行到多個裝置上(如多個GPU或TPU核心),是實現資料平行的利器。它在多個裝置間自動處理通訊和同步,開發者無需編寫複雜的分佈式程式碼。JAX的函數式程式設計範式(函數無副作用)和這些強大的函數變換組合在一起,使得研究者可以用非常簡潔和優雅的程式碼,實現極其複雜的、高性能的分佈式訓練。DeepMind等頂級研究機構已經將JAX作為其主要的內部研究框架,許多需要超大規模計算的前沿模型(如大規模Transformer、科學計算模型)都優先選擇使用JAX實現。然而,JAX相對陡峭的學習曲線和尚在發展中的生態系統,也使其在普通開發者中的普及率暫時不及PyTorch。表2-1 三大深度學習基礎框架對比(2025年)對於中國的開發者而言,PyTorch無疑是當前進入AI領域的最佳選擇,其豐富的中文教學和活躍的國內社區(如PyTorch中文網)也為學習提供了便利。同時,隨著國產AI晶片生態的成熟,TensorFlow和PyTorch都在積極適配華為升騰、寒武紀等國產硬體,而JAX的函數式和可編譯特性也使其在適配新型AI硬體時具有獨特的優勢。2.1.2 AI Agent開發框架:引爆應用創新的"編排層"如果說深度學習基礎框架是製造AI"大腦"即大模型本身的工廠,那麼AI Agent開發框架就是為這個"大腦"安裝"神經系統"和"四肢"的裝配車間。它們不關心模型底層的數學原理,而是專注於一個更高層次的問題:如何有效地編排和調度大模型已經具備的各種能力(如語言理解、推理、程式碼生成),並將其與外部工具和資料來源連接起來,以完成複雜、多步驟的任務。2025年,Agent框架已經從早期LangChain"一家獨大"的探索階段,演變為一個百花齊放、更加成熟和細分的生態系統。這些框架共同構成了AI技術堆疊中至關重要的"編排層"(Orchestration Layer),是推動AI從"聊天機器人"走向"數字員工"的核心引擎。演進趨勢:從"鏈式"呼叫到"圖"與"多智能體"協作早期(2023-2024年)的Agent框架,以LangChain為代表,其核心思想是"鏈"(Chain)——將對大模型的多次呼叫與工具的使用像鏈條一樣串聯起來。例如,一個典型的ReAct(Reason+Act)流程就是"思考->行動->觀察->思考..."的線性循環。這種模式對於解決簡單問題非常有效,但隨著任務複雜度的提升,其侷限性也日益凸顯:缺乏狀態管理:線性鏈條難以維護複雜的上下文狀態和記憶。控制流僵化:難以實現複雜的條件分支、循環和並行。可偵錯性差:一旦鏈條出錯,很難定位到具體是那個環節出了問題。為了克服這些挑戰,2025年的主流Agent框架不約而同地向兩個方向演進:圖(Graph)結構和多智能體(Multi-Agent)協作。圖結構:用"圖"來代替"鏈",將Agent的工作流建模為一個有向無環圖(DAG)或狀態機。圖中的每個節點代表一個計算步驟(如呼叫大模型、執行工具、檢索資料),而邊則代表了節點之間的依賴關係和控制流。這種模式允許開發者建構任意複雜的、具有循環、分支和並行能力的Agent工作流,並提供了更好的可視化、偵錯和狀態管理能力。LangChain的後續演進產品LangGraph就是這一趨勢的典型代表。LangGraph使用狀態機理論,將Agent的狀態顯式地定義為節點間的轉移,使得複雜的對話管理和任務編排變得清晰可控。多智能體協作:借鑑人類社會的分工協作模式,將一個複雜的任務分解給多個具有不同角色和專長的Agent來共同完成。例如,一個"軟體開發項目"可以由"產品經理Agent"、"程式設計師Agent"和"測試工程師Agent"組成的團隊來協作。這種模式不僅提升瞭解決複雜問題的能力,也使得Agent系統的行為更加可解釋和可控。微軟的AutoGen和CrewAI是這一方向的引領者。AutoGen將Agent互動抽象為"群聊"概念,而CrewAI則提供了更結構化的角色、任務、流程定義。主流Agent框架全景解析(2025年)2025年,開發者面臨著豐富的Agent框架選擇,它們在設計哲學、核心能力和適用場景上各有側重。1. LangChain & LangGraph:從"瑞士軍刀"到"手術刀"LangChain:作為最早普及的Agent框架,LangChain以其全面的功能和豐富的元件被稱為"AI開發的瑞士軍刀"。它提供了與數百種大模型、工具和資料來源的整合,並封裝了從Prompt範本、記憶管理到鏈式呼叫的各種標準元件。對於初學者和快速原型驗證而言,LangChain依然是快速上手的首選。但其高度的封裝和複雜的繼承體系也使其在定製化和生產部署時顯得較為笨重。LangGraph:為瞭解決LangChain在複雜流程控制上的不足,其團隊推出了LangGraph。LangGraph完全擁抱了"圖"的思想,讓開發者可以用顯式的狀態機來定義Agent的行為。這使得建構需要長期運行、具備自我修正能力、並且行為可追溯的複雜Agent成為可能。例如,一個需要與使用者進行多輪互動、並根據反饋不斷修改方案的旅行規劃Agent,就非常適合用LangGraph來建構。LangGraph標誌著LangChain生態從一個通用的工具集,向一個更專注於生產級、可控Agent工作流的"手術刀"式解決方案的演進。2. AutoGen & CrewAI:多智能體協作的雙雄AutoGen:由微軟研究院推出的AutoGen,其核心是"可對話的"多智能體系統。它將Agent之間的互動建模為一場群聊。開發者可以定義多個具有不同系統提示(System Prompt)和工具集的Agent,並將它們放入一個"聊天室"中。當一個任務被提出後,一個"管理員Agent"會根據任務進展,自動選擇下一個應該"發言"的Agent。這種模式非常適合模擬人類團隊的工作流程,特別是在軟體開發等需要多個角色(如產品經理、程式設計師、程式碼審查員)來回溝通的場景中表現出色。CrewAI:CrewAI在多智能體協作的理念上與AutoGen類似,但提供了更高級、更結構化的協作模式。它明確引入了"角色"(Role)、"任務"(Task)和"流程"(Process)的概念。開發者可以為每個Agent清晰地定義其角色、目標和可使用的工具。CrewAI還內建了精細的流程控制機制(如順序流程、層級流程),可以編排Agent的協作順序。相比AutoGen的"自由聊天",CrewAI更像是為Agent團隊設定了一套嚴謹的Scrum敏捷開發流程,使其協作更高效、結果更可控。3. LlamaIndex:專注RAG,資料為王與上述框架不同,LlamaIndex從創立之初就專注於一個核心問題:如何將大模型與私有資料或外部資料進行高效、可靠的連接,即檢索增強生成(RAG)。它提供了一整套圍繞RAG的、從資料攝取、索引建構、到高級檢索策略的全生命周期工具。當其他框架還在將RAG作為Agent的一個"工具"時,LlamaIndex已經將RAG本身做成了一門"科學"。其核心優勢在於:高級資料索引:支援從簡單的向量索引,到更複雜的樹狀索引、關鍵詞索引、知識圖譜索引等多種結構化索引,以適應不同的資料類型和查詢需求。高級檢索策略:提供了從簡單的Top-k檢索,到更複雜的融合檢索(Hybrid Search)、查詢轉換(Query Transformations)、後處理(Post-processing)等一系列高級策略,以提升檢索結果的精準性和相關性。查詢引擎與Agent整合:LlamaIndex的查詢引擎可以輕鬆地作為一個強大的工具,被整合到LangChain或CrewAI等其他Agent框架中,專門負責"資料檢索和問答"這一環節。對於任何需要建構企業知識庫、文件問答、客戶支援等資料密集型AI應用而言,LlamaIndex都是不可或缺的核心元件。4. Dify & PromptAppGPT:低程式碼/無程式碼的民主化浪潮為了讓非程式設計師也能參與到AI應用的創造中,一系列低程式碼/無程式碼平台應運而生,其中Dify和PromptAppGPT是傑出代表。Dify:它提供了一個可視化的拖曳式介面,使用者可以通過連接不同的節點(如"開始"、"大模型"、"知識庫"、"程式碼執行")來設計一個AI應用的工作流。Dify內建了完整的後端服務和營運管理功能,支援一鍵發佈成可獨立使用的Web應用。它極大地降低了建構標準AI應用(如客服機器人、內容生成工具)的技術門檻,特別適合企業內部的業務人員快速搭建滿足其特定需求的AI工具。PromptAppGPT:這是一個更加輕量級的、以Prompt為中心的快速開發框架。其核心思想是"用自然語言來程式設計",開發者只需在一個YAML檔案中,用結構化的提示語來描述Agent的目標、工具和工作流程,框架就能自動將其編譯成一個可運行的Web應用。這種模式極大地提升了從想法到原型的開發速度。中國本土框架的崛起:以Qwen-Agent為例除了上述國際主流框架,中國的AI廠商也在積極佈局Agent框架生態。阿里巴巴推出的Qwen-Agent就是一個典型。它與通義千問大模型深度整合,充分利用了Qwen系列在中文處理和多模態能力上的優勢。同時,Qwen-Agent針對國內開發者常用的工具和服務(如釘釘、高德地圖、阿里雲服務)進行了預整合,為建構符合中國市場需求的Agent應用提供了便利。字節跳動推出的扣子(Coze)商業化閉源平台則更為廣泛地被使用,隨後在2025年7月份進行了基礎平台功能的開源。該平台與旗下豆包大模型深度打通,充分發揮了其在對話互動與場景化適配方面的技術積累。同時,Coze針對國內使用者高頻使用的平台和服務(如抖音、飛書、今日頭條等)進行了原生適配,並提供豐富的外掛生態,大大降低了建構符合中國市場使用習慣的AI智能體應用的門檻。表2-2 主流AI Agent開發框架對比(2025年)總而言之,2025年的AI Agent開發框架生態已經高度繁榮和分化。開發者在進行技術選型時,應從任務的複雜度、對流程控制的要求、是否涉及多智能體協作、以及對外部資料的依賴程度等多個維度進行綜合考量。對於大多數開發者而言,通常需要組合使用這些框架——例如,使用CrewAI來定義多智能體協作流程,其中每個Agent內部使用LangGraph來管理其自身的狀態,並呼叫LlamaIndex作為其強大的資料檢索工具。掌握這些框架的組合與應用,是現代AI應用開發者的核心競爭力所在。2.2 模型訓練與微調技術:釋放AI潛能的藝術如果說基礎框架是AI開發的骨架,那麼模型訓練與微調技術就是賦予其血肉與靈魂的工藝。正是這些技術,將海量的無結構資料轉化為蘊含知識和智能的龐大參數網路,並使其能夠適應千變萬化的下游任務。2025年,隨著模型規模邁入兆參數時代,傳統的訓練方法已難以為繼。為了應對"算力牆"、"記憶體牆"和"成本牆"帶來的巨大挑戰,一系列創新的訓練與微調技術應運而生並迅速普及。分佈式訓練技術的發展使得訓練兆模型成為可能;參數高效微調(PEFT)技術則極大地降低了模型定製化的門檻;而混合精度與低位元訓練技術,則在性能與成本之間取得了精妙的平衡。掌握這些技術,是AI開發者駕馭大模型、釋放其全部潛能的關鍵所在。2.2.1 分佈式訓練:駕馭兆參數模型的"合力之術"訓練一個兆參數等級的大模型,其計算量和記憶體需求是任何單一計算裝置(即使是最強大的GPU)都無法承受的。因此,分佈式訓練——即利用成百上千個GPU組成的計算叢集來協同完成訓練任務——成為了前沿大模型開發的唯一可行路徑。這門被譽為"合力之術"的技術,其核心在於如何將龐大的模型和海量的資料巧妙地切分開,分配到叢集的各個計算節點上,同時最大限度地減少節點間通訊所帶來的開銷。2025年,以資料平行、張量平行、流水線平行和專家平行(作為模型平行的一種高級形式)為核心的"3D+1D"混合併行策略,已成為業界訓練超大規模模型的標準範式。資料平行(Data Parallelism):最簡單直接的擴展方式資料平行是最基礎、最易於理解的平行策略。其核心思想是"模型複製,資料切分":工作原理:將完整的模型複製到叢集中的每一個GPU上。然後,將一個大訓練批次(Batch)切分成多個小的子批次(Micro-batch),每個GPU獨立地使用自己的子批次資料進行前向和後向計算,得到各自的梯度(Gradients)。最後,通過一個All-Reduce通訊操作,將所有GPU上的梯度進行聚合(通常是求平均),並用聚合後的梯度來更新每個GPU上的模型副本,從而保證所有副本的參數保持同步。優勢:實現簡單,幾乎所有主流訓練框架(如PyTorch的DistributedDataParallel,DDP)都提供了開箱即用的支援。在GPU視訊記憶體足以容納整個模型的前提下,它能夠非常有效地擴展計算能力,加速訓練過程。劣勢:記憶體冗餘。每個GPU都需要儲存一份完整的模型參數、梯度和最佳化器狀態,這使得其記憶體開銷巨大。當模型大到單個GPU無法容納時,單純的資料平行便無能為力。程式碼示例(PyTorch DDP):import torchimport torch.distributed as distfrom torch.nn.parallel import DistributedDataParallel as DDP# 初始化分佈式環境dist.init_process_group(backend='nccl')local_rank = int(os.environ["LOCAL_RANK"])torch.cuda.set_device(local_rank)# 模型載入到當前GPUmodel = MyLLM().to(local_rank)model = DDP(model, device_ids=[local_rank])# 訓練循環(每個處理程序處理不同的資料分片)for batch in dataloader:    output = model(batch)    loss = output.loss()    loss.backward()  # 反向傳播計算梯度# DDP自動同步所有處理程序的梯度    optimizer.step() # 所有處理程序參數保持同步張量平行(Tensor Parallelism):在矩陣乘法層面"劈開"模型當模型巨大到單個GPU的視訊記憶體無法容納時,就需要將模型本身進行切分。張量平行就是其中一種"模型平行"(Model Parallelism)的策略。它作用於模型內部的單個算子(Operator),特別是Transformer模型中計算量最大的矩陣乘法(MatMul)。工作原理:以一個Y = XA的矩陣乘法為例,可以將權重矩陣A按列切分成[A1, A2],分別放到兩個GPU上。輸入X被覆制到兩個GPU上,各自計算Y1 = XA1和Y2 = XA2。最後,通過一個All-Gather通訊操作將Y1和Y2拼接成最終的結果Y = [Y1, Y2]。對於Transformer中的多頭注意力機制(Multi-Head Attention),也可以將不同的"頭"分配到不同的GPU上平行計算。NVIDIA開發的Megatron-LM框架是張量平行的經典實現。優勢:能夠有效減少單個GPU上的記憶體佔用,使得訓練更大的模型成為可能。它將通訊開銷巧妙地隱藏在計算過程中,因為矩陣乘法計算本身耗時較長,通訊可以與計算重疊。劣勢:通訊開銷巨大。由於在模型的前向和後向傳播過程中都需要進行All-Reduce或All-Gather操作,張量平行對GPU之間的互聯頻寬要求極高,通常只適用於節點內(Intra-node)具有高速互聯(如NVLink)的多個GPU之間,不適合跨網路節點使用。流水線平行(Pipeline Parallelism):像工廠流水線一樣組織模型層流水線平行是另一種重要的模型平行策略,它將模型的不同層(Layers)分配到不同的GPU上,形成一條計算流水線。工作原理:將一個大模型(如一個60層的Transformer)按順序切分成多個階段(Stages),例如,將1-15層放在GPU 0上(Stage 1),16-30層放在GPU 1上(Stage 2),以此類推。一個訓練批次的資料被進一步切分成多個微批次(Micro-batches)。第一個微批次在Stage 1完成計算後,其輸出被傳送到Stage 2,同時Stage 1開始處理第二個微批次。通過這種方式,所有Stage可以像工廠流水線一樣平行工作。優勢:極大地降低了單個GPU的記憶體佔用,因為每個GPU只需儲存模型的一部分層。其通訊開銷相對較低,只發生在相鄰的Stage之間,因此非常適合跨網路節點(Inter-node)擴展。劣勢:存在"流水線氣泡"(Pipeline Bubble)問題。在流水線的啟動和排空階段,部分GPU會處於空閒等待狀態,造成計算資源的浪費。為了減小氣泡,需要使用大量的微批次,但這又可能影響模型的收斂性。GPipe、PipeDream和PyTorch的PipelineParallel模組是其典型實現。專家平行(Expert Parallelism):為MoE架構量身定製隨著混合專家(MoE)架構在2025年的普及,一種專門為其設計的、更高級的模型平行策略——專家平行——應運而生。工作原理:在MoE模型中,巨大的參數量主要來自於大量的"專家"網路。專家平行的核心思想,就是將這些專家分佈到叢集中的不同GPU上。當一個Token需要由某個專家處理時,它會被通過網路路由到儲存該專家的GPU上進行計算,計算完成後再將結果返回。這本質上是一種更動態、更稀疏的模型平行。優勢:能夠以極高的效率擴展模型的總參數量,是訓練兆級MoE模型的關鍵技術。劣勢:對網路的All-to-All通訊能力提出了極致的要求,因為每個Token都可能需要與叢集中的任何一個專家進行通訊。同時,動態的路由和負載平衡問題也為訓練帶來了新的複雜性。混合併行:集大成者的"3D+1D"策略在實踐中,單一的平行策略往往無法滿足訓練超大規模模型的需求。因此,2025年的業界標準做法是採用"混合併行"策略,將上述多種平行方式組合起來,取長補短。一個典型的尖端訓練系統(如微軟的DeepSpeed或NVIDIA的Megatron-LM)通常採用如下的"3D+1D"混合策略:節點內(Intra-node)採用張量平行:在一個伺服器節點內部的8個GPU之間,利用高速的NVLink互聯,進行張量平行,共同承載一個巨大的模型層。節點間(Inter-node)採用流水線平行:在多個伺服器節點之間,利用相對較慢的網路(如InfiniBand),進行流水線平行,將模型的不同階段分佈在不同節點上。全域採用資料平行:在上述平行設定的基礎上,將整個混合併行單元(例如,一個由32個GPU組成的、能夠承載一個完整模型的單元)複製多份,進行資料平行,以進一步擴展計算規模。在MoE模型中,額外疊加專家平行:將MoE層中的專家分佈到全域所有的資料平行副本上。此外,以ZeRO(Zero Redundancy Optimizer)為代表的記憶體最佳化技術,作為資料平行的"威力加強版",也得到了廣泛應用。ZeRO不僅切分資料,還巧妙地將模型參數、梯度和最佳化器狀態這三部分巨大的記憶體開銷,也切分開分佈到資料平行的所有GPU上,從而使得每個GPU的記憶體負擔都大幅降低。ZeRO-3階段甚至可以做到讓每個GPU上不儲存完整的模型參數,實現了資料平行與模型平行某種程度上的統一。表2-3 主流分佈式訓練平行策略對比(2025年)對於開發者而言,雖然直接從零實現這些複雜的平行策略難度極高,但幸運的是,以微軟的DeepSpeed和NVIDIA的Megatron-LM為代表的開源框架,已經將這些複雜的平行技術封裝成了易於使用的介面。開發者只需在配置檔案中進行簡單的設定,就可以為自己的模型啟用這些強大的混合併行能力。在國產算力生態方面,寒武紀的分佈式通訊庫(CNCL)針對大規模場景進行了專項最佳化,新增HDR/DBT等Allreduce通訊演算法,優先提升大規模條件下的通訊頻寬,對Alltoall操作進行深度最佳化,使其大規模擴展性達到與國際主流競品相當的水平。特別是通過在Kernel支援RoCE網路卡的RDMA操作(類IB GDA),顯著最佳化了大規模專家平行場景下的ALL2ALL通訊延遲,提升了MoE類模型推理任務的端到端吞吐。這些最佳化使得國產算力在支撐萬卡級大模型訓練時具備了與國際先進水平相當的通訊性能。掌握如何使用這些框架,並根據自己的硬體環境和模型特點來選擇和組合最合適的平行策略,是每一位致力於大模型訓練的AI工程師的必備技能。2.2.2 參數高效微調(PEFT):讓大模型"飛入尋常百姓家"的革命如果說分佈式訓練是少數巨頭才能參與的"登月計畫",那麼參數高效微調(Parameter-Efficient Fine-Tuning, PEFT)技術,就是一場將大模型能力"民主化"、使其"飛入尋常百姓家"的深刻革命。在PEFT出現之前,讓一個巨大的預訓練模型去適應一個特定的下游任務,通常採用"全量微調"(Full Fine-tuning)的方式,即調整模型中所有的參數。這種方式不僅成本高昂(需要大量的GPU資源和時間),儲存開銷巨大(每個任務都需要儲存一個完整的模型副本),還常常面臨"災難性遺忘"(Catastrophic Forgetting)的風險——模型在學習新任務的同時,可能會忘記在預訓練階段學到的通用知識。PEFT的出現徹底改變了這一局面。其核心思想是:在微調過程中,凍結絕大部分預訓練模型的參數(這些參數蘊含了寶貴的通用世界知識),只引入或修改一小部分(通常<1%)的額外參數來適應新任務。這種"四兩撥千斤"的策略,帶來了革命性的優勢:極低的計算成本:由於可訓練的參數量急劇減少,微調所需的計算資源和時間大幅降低,使得在單張消費級GPU上微調百億級大模型成為可能。極低的儲存成本:對於每個下游任務,只需儲存和分發那一小部分被修改的參數(通常只有幾十兆字節),而非整個數十GB的模型副本。避免災難性遺忘:由於99%以上的原始模型參數被凍結,模型能夠很好地保持其強大的泛化能力。性能媲美全量微調:大量研究和實踐證明,在許多工上,精心設計的PEFT方法可以取得與全量微調相當甚至更好的性能。2025年,PEFT已經成為大模型定製化的主流範式。在眾多PEFT方法中,以LoRA(Low-Rank Adaptation)及其變體QLoRA最為耀眼,它們憑藉其出色的效果和普適性,成為了事實上的行業標準。LoRA:在模型權重中注入低秩之魂由微軟研究員提出的LoRA,其背後有一個深刻的洞察:大型語言模型雖然參數維度極高,但它們在適應下游任務時,其權重的變化矩陣(即"微調後的權重"減去"原始權重")本質上是"低秩"(Low-Rank)的。這意味著這個巨大的變化矩陣,可以用兩個小得多的矩陣相乘來近似表示。基於此,LoRA的實現方式堪稱優雅而高效:凍結原始權重:在微調時,原始的預訓練權重矩陣W(例如,Transformer中Attention層的查詢Q或鍵K的權重矩陣)保持不變。注入低秩介面卡:在W旁邊,並聯一個"低秩介面卡"(Low-Rank Adapter)。這個介面卡由兩個小矩陣A和B組成。A是一個隨機初始化的高瘦矩陣,B是一個零初始化的矮胖矩陣。它們的秩(Rank,r)遠小於原始權重的維度。只訓練介面卡:在微調過程中,只訓練矩陣A和B的參數,W始終被凍結。模型的總前向傳播變為 h = Wx + BAx。無縫合併部署:在推理部署時,可以將訓練好的BA矩陣與原始的W矩陣直接相加,得到一個新的權重矩陣 W' = W + BA。這意味著LoRA在推理時不會引入任何額外的計算延遲,這是其相比其他PEFT方法(如Adapter-Tuning)的巨大優勢。LoRA的秩r是一個關鍵的超參數,它控制了介面卡的容量。r越大,可訓練的參數越多,模型的擬合能力越強,但計算和儲存開銷也相應增加。在實踐中,r通常被設定為8、16或64這樣的小值,就已經能在大多數任務上取得優異的效果。QLoRA:將"平民化"推向極致LoRA極大地降低了微調的計算成本,但它仍然需要將完整的模型載入到視訊記憶體中進行前向和後向傳播,對於百億級模型,這依然需要數十GB的視訊記憶體,超出了大多數消費級GPU的承受範圍。為瞭解決這個"最後的堡壘",華盛頓大學的研究者們在LoRA的基礎上,結合了激進的量化技術,提出了QLoRA(Quantized LoRA),將大模型微調的平民化推向了極致。QLoRA的核心創新在於"用4-bit的精度來儲存和計算凍結的預訓練模型,同時用16-bit的精度來訓練LoRA介面卡",其關鍵技術包括:4-bit NormalFloat(NF4)量化:這是一種理論上資訊最優的新的4-bit資料類型。研究者發現,對於呈常態分配的預訓練模型權重,NF4相比傳統的4-bit整數或浮點數量化方法,能夠更好地保留資訊,減少量化誤差。雙重量化(Double Quantization):為了進一步節省記憶體,QLoRA對量化過程本身產生的"量化常數"(Quantization Constants)進行第二次量化,平均每個參數可以再節省約0.5位元的儲存空間。Paged Optimizers:利用NVIDIA統一記憶體(Unified Memory)的特性,將那些在GPU視訊記憶體不足時可能導致程式當掉的最佳化器狀態(Optimizer States)自動地從GPU視訊記憶體分頁到CPU記憶體中,從而避免了OOM(Out of Memory)錯誤。通過這套組合拳,QLoRA成功地將微調一個650億參數模型(如LLaMA-65B)所需的視訊記憶體從驚人的780GB降低到了僅48GB,使得在單張專業級GPU(如A100 80GB)上微調超大模型成為現實。更令人振奮的是,後續的開源社區實踐進一步表明,通過QLoRA,在24GB視訊記憶體的消費級顯示卡(如RTX 3090/4090)上微調70億甚至130億參數的模型也完全可行。其他PEFT方法概覽除了LoRA家族,PEFT領域還存在其他幾種重要的技術路線:Adapter-Tuning:這是最早的PEFT思想之一。它在Transformer的每個Block中串聯地插入一個非常小的、被稱為"介面卡"(Adapter)的瓶頸狀神經網路模組。微調時只訓練這些介面卡的參數。其缺點是在推理時會引入額外的計算延遲。Prefix-Tuning & Prompt-Tuning:這類方法不改變模型本身的任何權重,而是在輸入層或每一層的注意力機制前,加入一小段可訓練的、連續的向量序列(即"軟提示"或"前綴")。通過只最佳化這些前綴向量,來引導模型的行為以適應下游任務。這種方法對模型的侵入性最小,但表達能力相對有限。表2-4 主流參數高效微調(PEFT)技術對比(2025年)綜上所述,以LoRA和QLoRA為代表的PEFT技術,已經成為2025年AI開發者進行模型定製化的必備技能。它們不僅極大地降低了技術和資源門檻,也催生了一個繁榮的開源模型微調社區。對於這樣的平台而言,提供對LoRA/QLoRA的一站式支援,包括便捷的訓練指令碼、預最佳化的環境和豐富的微調模型案例,將是服務廣大AI開發者的核心價值所在。通過這些技術,無數中小企業和個人開發者得以站在巨人的肩膀上,用大模型解決自己領域內的具體問題,從而真正開啟了AI應用的"寒武紀大爆發"。2.3 推理最佳化與部署技術:從"能用"到"好用"的最後一公里如果說模型訓練是十年磨一劍的"鑄劍"過程,那麼推理最佳化與部署就是將這把"神劍"送上戰場、使其能夠大規模、低成本、高效率地"殺敵"的"出鞘"之術。一個未經最佳化的百億參數大模型,其推理過程不僅速度緩慢(生成一個詞可能需要數秒),而且對硬體資源(特別是視訊記憶體)的消耗也極為驚人,這使得其在真實世界的應用中成本高昂、體驗不佳。因此,推理最佳化與部署技術,成為了決定大模型能否從實驗室走向千家萬戶、從"能用"變為"好用"的最後一公里,也是AI應用商業化成敗的關鍵所在。2025年,大模型推理面臨的核心挑戰,已從單純的計算密集(Compute-bound)轉變為更棘手的記憶體頻寬密集(Memory-bound)。在自回歸(Auto-regressive)的生成過程中,每生成一個token,都需要將整個龐大的模型權重從視訊記憶體中完整地讀取一遍。相比於GPU強大的計算能力,視訊記憶體的讀寫速度成為了嚴重的瓶頸。此外,如何高效地管理和利用視訊記憶體,特別是儲存每個請求上下文的鍵值快取(KV Cache),以及如何在高並行場景下最大化GPU的吞吐量,都是推理最佳化需要解決的核心難題。為了應對這些挑戰,一個由演算法、軟體和硬體協同構成的、高度複雜的推理最佳化技術堆疊應運而生。本節將深入解析構成這一技術堆疊的兩大核心部分:關鍵最佳化技術:我們將剖析包括FlashAttention、PagedAttention、模型量化(Quantization)、KV快取最佳化(MQA/GQA)和投機解碼(Speculative Decoding)在內的核心演算法與技術,揭示它們如何從根本上緩解記憶體頻寬瓶頸和提升計算效率。主流推理框架:我們將對以vLLM和TensorRT-LLM為代表的業界頂級推理引擎進行全景式掃描,分析它們如何將上述最佳化技術工程化、產品化,為開發者提供開箱即用的高性能推理服務。2.3.1 關鍵最佳化技術:演算法與工程的協奏曲高性能推理的實現,是一場演算法與底層硬體精妙配合的協奏曲。2025年,一系列關鍵技術的突破與普及,從根本上改變了大模型推理的效率和成本結構。FlashAttention:重塑注意力計算,告別記憶體牆標準的自注意力機制(Self-Attention)是Transformer模型的核心,但也是其主要性能瓶頸之一。在計算過程中,它需要生成一個巨大的N×N(N為序列長度)的注意力得分矩陣(Attention Matrix),並將其寫入和讀出高頻寬記憶體(HBM)。隨著序列長度N的增加,這個矩陣的大小呈平方級增長,很快就會耗盡視訊記憶體頻寬,成為瓶頸。由史丹佛大學研究者提出的FlashAttention,通過一種"IO感知"的演算法設計,巧妙地解決了這個問題。其核心思想是避免將完整的注意力矩陣物化(materialize)到HBM中:工作原理:FlashAttention將輸入序列切分成多個小塊(Tiles),並載入到GPU核心上速度極快的SRAM中。它在SRAM內部完成一小塊注意力矩陣的計算、Softmax操作和與Value矩陣的乘積,然後只將最終的輸出寫回HBM。通過精巧的線上Softmax技巧,它可以在不看到完整注意力矩陣的情況下,正確地計算出最終結果。這個過程就像"流式處理"一樣,極大地減少了對HBM的讀寫次數。效果:FlashAttention將注意力計算的複雜度從O(N²)的記憶體訪問,降低到了O(N)。FlashAttention-2版本進一步最佳化了平行計算效率,相比標準注意力實現,可以帶來2-4倍的端到端推理加速和顯著的記憶體節省。到2025年,FlashAttention已成為所有主流推理框架的標配。特別是對於長上下文模型(如支援200萬token的Kimi),FlashAttention幾乎是不可或缺的。PagedAttention:像作業系統一樣管理KV快取在多使用者、高並行的推理服務中,對KV快取(KV Cache)的管理是另一個巨大的挑戰。每個使用者的請求序列長度不同,導致其KV快取大小也各不相同且動態變化。傳統的實現方式是為每個請求預分配一塊連續的視訊記憶體空間來儲存其KV快取,這會導致嚴重的記憶體碎片化問題:內部碎片:為請求預留了過多的空間,造成浪費。外部碎片:雖然總的空閒視訊記憶體很多,但沒有一塊足夠大的連續空間來滿足新請求,導致請求失敗。由vLLM團隊首創的PagedAttention,借鑑了現代作業系統中"虛擬記憶體"和"分頁"的思想,完美地解決了這一難題。工作原理:PagedAttention將每個請求的KV快取空間分割成固定大小的"塊"(Blocks),這些塊在物理視訊記憶體中可以非連續儲存。系統維護一個"塊表"(Block Table),為每個請求記錄其邏輯塊到物理塊的對應關係。當需要為序列擴展KV快取時,只需分配新的物理塊並更新塊表即可,無需進行昂貴的記憶體複製和重排。更妙的是,對於多個請求之間共享的前綴(例如,多輪對話中的歷史記錄),PagedAttention可以實現塊等級的記憶體共享,進一步節省視訊記憶體。例如,在批次處理100個關於同一文件的問答請求時,它們共享的文件前綴KV快取只需儲存一份,而不是100份。效果:PagedAttention將視訊記憶體利用率提升了2-4倍,使得在相同的硬體上,系統的吞吐量(每秒處理的token數)可以提升2-4倍。這一技術是vLLM等現代推理框架取得極致吞吐量的核心秘訣。KV快取最佳化:從架構層面"瘦身"除了管理方式的最佳化,直接從模型架構層面減小KV快取的大小,是另一種有效的最佳化路徑。標準的多頭注意力(Multi-Head Attention, MHA)為每個注意力頭都配備了一套獨立的Key和Value投影,這導致KV快取的尺寸與頭的數量成正比。多查詢注意力(Multi-Query Attention, MQA):MQA提出,讓所有的注意力頭共享同一套Key和Value投影。這樣做雖然在理論上會損失一定的模型表達能力,但在實踐中發現,對於大型模型而言,這種性能損失微乎其微,卻可以極大地減小KV快取的大小和生成每個Token時所需的記憶體頻寬。分組查詢注意力(Grouped-Query Attention, GQA):GQA是MHA和MQA之間的一個折中方案。它將注意力頭分成若干組,組內的頭共享同一套Key和Value投影。例如,一個有32個頭的模型,可以設定8個KV組,每4個查詢頭共享一套KV。GQA在模型性能和推理效率之間取得了更好的平衡,已成為2025年許多新發佈模型(如Llama 2/3)的標配架構。表2-5 核心推理最佳化技術概覽(2025年)模型量化:用更少的位元表示更多的知識模型量化是一種通過降低模型權重和/或啟動值的數值精度,來壓縮模型大小、減少記憶體佔用和加速計算的技術。2025年,針對大模型的量化技術已經非常成熟,主流的"權重量化"(Weight-Only Quantization)方法可以在幾乎不損失模型性能的前提下,將模型大小壓縮2-4倍。GPTQ(Generalized Post-Training Quantization):GPTQ是一種訓練後量化方法,它通過逐層分析和量化權重,並對量化誤差進行補償,可以在4-bit精度下保持很好的模型性能。其核心思想是貪婪地選擇權重進行量化,並動態調整剩餘權重以補償量化誤差。AWQ(Activation-Aware Weight Quantization):AWQ觀察到,並非所有權重對模型性能都同等重要。它通過分析啟動值的分佈,識別出那些對模型性能影響最大的"顯著權重"(Salient Weights),並為它們保留更高的精度(如FP16),而將其他權重進行更大力度的壓縮(如INT4)。這種方法在極低位元(如3-bit甚至更低)的量化上表現出色,且不需要反向傳播,量化速度極快。SmoothQuant:這是一種啟動-權重協同量化方法。它通過一個數學上等價的變換,將量化難度從啟動值(通常異常值較多)平滑地遷移一部分到權重上,使得兩者都更容易被量化,從而在INT8量化等場景下獲得更好的性能。投機解碼(Speculative Decoding):讓"小模型"為"大模型"開路投機解碼是一種巧妙的加速技術,它利用一個小的、速度極快的"草稿模型"(Draft Model)來輔助大的"目標模型"(Target Model)進行生成。工作原理:在生成每個token時,首先用草稿模型快速地生成一小段候選序列(例如5個Tokens)。然後,將這5個候選Tokens一次性地輸入到大的目標模型中,進行平行的驗證。如果目標模型驗證通過(即它自己本來也會生成這些Tokens),那麼就一次性地接受這5個Tokens作為最終輸出,相當於用一次大模型的計算換來了5個Tokens的生成,極大提升了速度。如果驗證失敗,則以目標模型的輸出為準,並用它來指導草稿模型的下一次生成。 (AI雲原生智能算力架構)
圖靈獎得主 Yann LeCun:大模型是“死胡同”,下一步押在那一條路?
2025 年 11 月 19 日,圖靈獎得主 Yann LeCun 宣佈:自己將離開 Meta,轉向創辦一家專注 Advanced Machine Intelligence(AMI)的新公司。這不是普通的高管跳槽。(CNBC:Yann LeCun 即將離職,創立自己的初創公司)這點陣圖靈獎得主沒有選擇加入 LLM 的軍備競賽,而是投身一個被冷落多年的方向:世界模型。LeCun 用了一個極端詞語:大語言模型是通往人類智能的“死胡同”(dead end)。在 11 月 23 日的一場題為《Do LLMs Understand?》的公開對談中,他直接指出:LLM擅長語言表達,但缺乏對真實世界的理解。幾乎同時,OpenAI前首席科學家 Ilya Sutskever 在 11 月 25 日的播客中也提出:“Just Add GPUs(拼算力)”的時代結束了。一周之內,兩位元深度學習先驅不約而同地質疑主流路線。這不是偶然,而是技術路線集體轉向的訊號:後LLM時代,正在成形。第一節 | 為什麼他說大模型是死胡同?在討論世界模型之前,必須先搞清楚:為什麼Yann LeCun 會把 LLM 稱為“死胡同”。他給出的答案,比外界以為的更系統。① 模型越來越大,但理解沒有跟上LeCun 的原話是:LLM 在語言層面表現不錯,但它們並不理解世界。沒有常識,也沒有因果關係,只是大量統計相關性的堆疊。換句話說:規模能讓模型更像會說話的人,但不能讓它更像懂世界的人。事實上,Meta 的 Llama 4 就是最好的例證。2025 年 4 月發佈後,它在真實場景中的表現遠不如基準測試,甚至被開發者質疑過度最佳化了評測指標。正應驗了 LeCun 的判斷:語言流暢度提升了,但世界理解力沒有跟上。② LLM的能力天花板,已經在實驗室裡顯露他在公開對話中強調:我們看到性能正在飽和。更大的模型,不一定帶來更高的真實智能。訓練資料正在逼近極限,算力成本呈指數上漲,而理解力卻沒有同步提升。這就是他所謂的死胡同:繼續堆算力,邊際收益越來越低。OpenAI前首席科學家Ilya Sutskever也訪談中表達了類似觀點:單純100倍擴大算力規模,不會帶來質變。③ 語言只是副產品,物理世界才是智能核心他的核心觀點是:語言是人類智能的副產品,不是核心機制。這句話背後的邏輯是:語言只描述世界的一部分,而真正的智能來自對物理世界的建模、預測和行動。但LLM做不到這一點。它們連杯子為什麼不會穿過桌子都不理解。它們知道語言中的規律,卻不知道世界的規律。飛機的設計靈感來自鳥類,但不是簡單模仿鳥類的飛行方式。同樣,智能也不是靠模仿語言表面規律產生的。④ LLM做不到規劃,更做不到行動LeCun 的批判重點在於:LLM 只是在對話裡看起來聰明,但在涉及多步驟推理、長期規劃、具身互動時,能力驟降。他舉了一個刺眼的對比:一個十幾歲的孩子,20小時就能學會開車。 但我們到現在還沒有level 5的自動駕駛。一個孩子第一次就能清理餐桌、裝滿洗碗機。 但我們連能做家務的機器人都沒有。這些對比說明:智能不是說話的能力,而是行動的能力。而這恰恰是LLM的軟肋。LeCun 的邏輯不是反對大模型,而是認為:預測語言這條路走不到終點。要想讓 AI 真正具有理解、推理與行動能力,必須換一套架構。第二節 | 世界模型:下一代AI要如何看世界?如果語言模型無法理解世界,那該怎麼建造真正的智能?LeCun的答案是:讓AI學會看世界。他指出,未來的AI必須像人類和動物一樣,能夠從多模態輸入中建構出對世界的內部理解,然後基於這個理解預測和行動。這種能力,GPT-4沒有,Claude、Gemini也都沒有。但貓有,嬰兒有,人有。① 什麼是世界模型?LeCun 解釋說:我們用預測下一個詞來訓練語言模型,是因為語言中詞彙有限,可以列舉。但真實世界無限豐富,預測像素等級的未來根本不成立。真實世界是高維、連續、混沌的感官流。人類不是通過預測下一個字來理解世界,而是通過觀察、記憶、總結,在腦中形成了一個抽象世界的內部投影。比如:嬰兒不需要有人告訴他重力是什麼,摔幾次東西就懂了貓不需要語言指導,看幾次就知道跳多高能上桌子人類開車20小時就能掌握,靠的不是背規則,而是建立了對速度、距離、慣性的直覺模型LLM缺的就是這個投影空間,它沒有世界的內部表徵。這就是LeCun正在建構的新路徑:Joint Embedding Predictive Architecture(JEPA),聯合嵌入預測架構。② JEPA:一種全新的學習範式JEPA與LLM的核心差異體現在多個層面。在輸入形式上,LLM只處理語言token,而JEPA可以處理視訊、圖像、感測器等多模態資料。在學習目標上,LLM是預測下一個詞,JEPA則是預測抽象狀態的變化。在學習方式上,LLM依靠離散序列建模,JEPA結合了表徵學習和因果建模。最關鍵的是,LLM沒有行動能力,而JEPA天然具備規劃和執行介面。LeCun用了一個形象比喻:用LLM去理解真實世界,就像用聽說來教人開車。你可以背下所有交規,但永遠學不會真正駕駛。因為語言描述不了摩擦力、慣性、視野盲區的感覺,而這些正是行動智能的核心。③ 從模擬世界開始,訓練下一代AILeCun正在AMI推動的,是一種類似動物學習的AI訓練模式:首先在模擬環境中讓AI自主互動,然後從互動中提取因果關係,形成持續記憶,最終具備規劃行動的能力。這種模式不再依賴更多token,而是依賴更好的世界模型。他說:我們不需要能背百科全書的AI,我們需要能用眼睛和手理解世界的AI。如果說 LLM 是語言的大師,世界模型就是物理世界的學徒。Yann LeCun 選擇押注後者。這不僅是技術路線的分叉,更是對 AGI 本質的重新定義。第三節 | 不只 LeCun:另一個方向也在探索在質疑 LLM 這條路的,不只 LeCun 一個人。Sutskever 也認為,縮放時代已經結束,下一代智能需要新的架構基礎。兩位元深度學習先驅達成了共識,但他們給出的答案完全不同。① LeCun押注世界模型,Sutskever押注安全超智能LeCun的方向很明確:讓AI具備對物理世界的理解和行動能力。通過自監督學習、表徵建模、因果預測,建構能夠真正看世界、理解世界的系統。他判斷10年內會出現具身AGI的原型。Sutskever的關注點在另一邊:當前AI系統的泛化能力遠不如人類,在benchmark上表現出色,但在真實場景中容易陷入錯誤循環。這種脆弱性如果不解決,規模越大風險越高。他創立SSI公司,要在AI能力繼續提升的同時,確保其安全可控。一句話總結:LeCun 要教 AI 理解世界和行動,Sutskever 要讓 AI 在變強的過程中可控。② 兩條路線背後的不同關切這種分歧源於兩人的關注焦點。LeCun關心的是 AI 如何有效泛化、如何在現實世界中行動。他強調的是:我們缺的不是算力,也不是資料,而是架構。Sutskever 關心的是 AI 的安全性和可控性。他認為在沒有解決泛化脆弱性之前,單純追求能力提升是危險的。他們代表了後 LLM 時代的兩個方向:架構創新派和安全優先派。過去十年,AI 競爭的是模型規模和訓練資料。但當兩位先驅先後離開大廠時,他們告訴我們:規則變了。下一階段的比拚,是誰先發明新架構、誰的系統既強大又可控。這是一個時代的落幕,另一個時代的起點。第四節 | 一場轉向,正在發生當圖靈獎得主公開質疑主流路線,當 OpenAI 啟動硬體項目、Google 挖來波士頓動力CTO,當數十億美元的投資開始流向具身智能,一個問題浮現出來:後LLM時代,到底會是什麼樣子?① 工業界的悄然轉向雖然 LLM 仍在快速發展,但一些關鍵變化已經在發生。OpenAI的硬體野心正在浮出水面。11月24日,公司確認首個AI硬體原型已完成,這是與蘋果前首席設計師Jony Ive合作的成果。按計畫,這款無螢幕AI裝置將在2年內發佈,徹底改變人與AI的互動方式。Google的多路線策略同樣值得關注。11月18日發佈Gemini 3 Pro,11月21日又挖來波士頓動力前CTO Aaron Saunders,推動Gemini成為通用機器人控制平台。目標是讓同一個模型適配任何形態的機器人,開箱即用。李飛飛的World Labs在融資2.3億美元後,11月12日發佈首個商業產品Marble,一個生成式世界模型平台。具身智能領域更熱鬧:Figure AI 估值390億美元,Tesla Optimus計畫 2026 年開始量產。這些動作指向一個共識:下一代 AI 不會只存在於對話方塊裡。② 兩條路線,都需要時間無論是 LeCun 的世界模型,還是 Sutskever 的安全超智能,都不是短期內能看到成果的方向。LeCun說需要幾年到十年,Sutskever說需要5到20年。這意味著: 當前的 LLM 仍然是主流應用的基礎。GPT、Claude、Gemini會繼續迭代,繼續服務數億使用者。但長期的技術制高點,可能不在這條路上。誰先在新架構上取得突破,誰就掌握了下一個十年的話語權。這是一場需要耐心的馬拉松,而不是百米衝刺。③ 對創業者和開發者意味著什麼?LeCun的轉向傳遞了幾個重要訊號:首先,不要迷信規模。更大的模型不等於更好的智能,架構創新的空間仍然巨大。其次,垂直場景有機會。世界模型最先落地的可能不是通用 AGI,而是機器人、自動駕駛、工業控制這些需要物理互動的領域。第三,開源仍然重要。LeCun一直是開放原始碼的堅定支持者,他的新公司AMI會繼續這條路線,這意味著小團隊也有機會參與到新範式的探索中。最後,要做好長期準備。這不是一兩年就能看到回報的方向,但可能是未來十年最重要的方向。LeCun 說過:真正的智能不在語言表面,而在對世界的深層理解。這不是對 LLM 的否定,而是對 AI 未來的更大想像。大模型已經證明了規模的力量,但下一步的突破,可能來自完全不同的架構。真正的AGI,不會困在對話方塊裡,而會出現在能夠理解世界、執行任務的系統中。這條路上,探索才剛剛開始。 (AI深度研究員)
AI要向電商“抽佣”了
AI浪潮,衝擊電商。在美國,OpenAI已經與電商平台合作,在ChatGPT對話方塊內直接完成購物;在中國,字節跳動旗下的豆包對話方塊內已經排他性地引入抖音商城的購物連結。ChatGPT和豆包都是大模型時代的產物,第三方資料顯示,兩者月活躍使用者分別超過7億和1.6億。此前,電商的流量入口可能是百度搜尋、微信、天貓網站;未來的電商核心入口之一,可能是大模型的應用,比如豆包、或者阿里巴巴開發的千問APP。每家電商巨頭們都希望跟上AI潮流,但不是每家企業都能避免被浪潮擊倒。流量向AI遷徙“AI從‘搜尋’轉向‘對話’,從而根本性地改變購物方式。”在其第三季度財報會議上,Shopify總裁Harley Finkelstein表示。今年早些時候,這家電商服務平台與OpenAI達成合作,一起啟用Agentic Commerce(代理式電商)。這項合作把消費者購物的場景搬到了ChatGPT對話方塊裡,而不必再跳轉到電商頁面。今年9月,OpenAI宣佈使用者可以在ChatGPT裡直接購買電商平台Etsy上的商品。ChatGPT的月活躍使用者數量已經超過7億。這款現象級的產品,正在成為電商的新入口。原來消費者的購物可能是直接點開亞馬遜網站,或者通過Google搜尋再跳轉至電商平台。現在OpenAI開始與Google、亞馬遜爭奪流量入口了。Google依然是全球流量最大的網站,但是人工智慧給其帶來的威脅已經非常明顯。ChatGPT吸引了越來越多的人使用,對話式互動也比傳統搜尋的列表式更直抵答案。“目前,搜尋引擎正在承受來自AI的強烈衝擊。以Google為例,其搜尋使用量持續下降,而ChatGPT等大模型的使用量卻在不斷攀升。”明略科技CEO吳明輝近日對第一財經記者表示。傳統搜尋引擎的主要收入來自廣告。當使用者發起搜尋時,平台呈現大量與關鍵詞相關的結果,其中相當一部分是廣告位。如果換成大模型的呈現方式,就不再是十幾條、幾十條結果的長列表,而可能只呈現一兩個答案。結果越少,可銷售的廣告資源就越少,從而直接影響Google和百度等搜尋公司的傳統商業邏輯。“OpenAI已經把 ChatGPT與Shopify打通,這意味著AI正在從‘能回答問題’邁向‘能理解你’。隨著技術不斷演進,世界上最瞭解你的人,可能已不再是家人,而是大模型。很多人把最私密的想法都交給了AI去傾訴。過去社交媒體掌握的是人與人之間的關係,資訊是‘共享’的;而如今,大模型掌握的,是人與自己之間最隱秘的對話。如果它知道使用者明天女朋友過生日,甚至能主動挑選禮物,已經無須再通過搜尋引擎去查——每個消費者都將擁有一個屬於自己的代理(Agent)。”吳明輝表示。電商流量向AI入口遷徙,同樣發生在中國。消費者如果此前已經有了初步預算和品牌預期,已經可以直接在豆包裡提問:一萬元左右的博世洗烘套裝,分別有那些可推薦?豆包提供的8條產品介紹中,都附帶了購物連結,點選後跳轉到抖音商城之中。豆包是火山引擎大模型支援的對話式搜尋工具,它與短影片平台抖音同屬於字節跳動。據第一財經觀察,目前豆包所提供的連結,都是導向了抖音商城,即便提示詞指向京東或天貓,也都無法跳鏈到京東等電商平台。這一跡象顯示,抖音和豆包之間,可以打造成一個電商閉環。據QuestMobile資料,豆包在今年三季度的月均活躍使用者規模達到了1.6億;在今年的3月份,短影片平台抖音的月活躍使用者數已經超過了10億。抖音電商負責人康澤宇表示,抖音電商在2025年的支付GMV已經位列行業第三。它已經有能力威脅傳統電商如阿里巴巴、拼多多、京東的市場地位。阿里巴巴的開源大模型,已經在世界範圍內獲得開發者的認可,但它面向普通使用者的產品尚未實現突破。阿里巴巴此前缺乏一款像豆包那樣的、人工智慧時代面向普通使用者的C端產品。它最近才推出千問APP,並將千問項目視為“AI時代的未來之戰”。記者向千問APP提出了同樣問題:“博世洗烘套裝,分別有那些可推薦?”在千問向記者提供的幾款機型介紹中,沒有相應購物連結。當明確要求千問APP給出購物連結的時候,它提供了京東購物連結,而沒有來自同屬阿里集團的天貓或淘寶購物連結。據阿里方面披露,千問APP公測第一周突破了1000萬下載量。阿里巴巴方面透露,它正在計畫將地圖、外賣、訂票、辦公、學習、購物、健康等各類生活場景接入千問APP。電商流量從傳統搜尋轉向AI互動已成趨勢。“我個人判斷,上一代搜尋引擎未來可能會逐漸式微甚至消亡。雖然使用者習慣的遷移不會一蹴而就,但新一代AI代理式的資訊互動方式,將是大勢所趨。”吳明輝表示。大模型“抽佣”電商電商平台的意義在於提升使用者購物體驗。近幾年,抖音、小紅書等平台能夠迅速蠶食搜尋引擎的市場份額,正是因為它們的使用者體驗更好,對使用者需求的理解更深,也能基於歷史行為提供更精準的推薦。傳統搜尋引擎主要基於使用者一次性的搜尋行為來推薦內容,而新一代內容平台掌握了更豐富的行為資料,不需要使用者明確搜尋,只需要不斷滑動即可獲得想要的資訊。這種體驗顯然更輕鬆,更順滑,也更能滿足使用者需求。“我認為ChatGPT這類大模型在商品搜尋與推薦環節中,相較於上一代搜尋引擎,或者Amazon這類傳統電商平台,會給使用者帶來更好的體驗。AI參與的電商模式會成為未來趨勢。”吳明輝表示,但上一代的搜尋引擎和傳統電商平台也不會坐以待斃,它們必然會在不斷迭代中尋求轉型或推出類似的產品或平台。搜尋是網際網路資訊的聚散中樞,也影響著兆資金流向。Google和百度等都在推出自己的AI產品以適應新時代。目前百度通過兩款核心產品以應對人工智慧的洶洶浪潮。其一是百度App內建的文心助手,它融合搜尋功能,支援多輪對話互動。從該產品今年的趨勢來看,文心助手使用者增長勢頭迅猛,對話輪次同比增長約5倍,訂閱使用者數達1200萬。其二,是百度獨立的人工智慧應用文心一言,它與文心助手共享底層技術,但更側重創新探索。百度正在電商層面測試AI能力。現在在百度網頁使用AI搜尋功能,如果提示詞是“博世洗碗機”推薦的話,它已經能夠提供來自於京東的購物連結。博世是一家德國企業,它的洗碗機銷量全球排名第一。但在中國,洗碗機的滲透率不到10%。線下門店目前是博世主要的銷售管道,但它也希望在電商領域開拓出新局面。“百度在人工智慧搜尋中測試電商元件,例如雙11購物節期間,電商元件所創造的日交易額峰值接近600萬元。”在今年三季度財報的溝通會上,百度執行副總裁羅戎表示,百度也已啟動具備即時互動功能的數字人直播測試。“人工智慧搜尋擁有巨大的商業化潛力。儘管人工智慧轉型會給短期營收和利潤率帶來壓力,但這是提升長期競爭力的必然選擇,為抓住未來的巨大機遇,這樣的權衡十分必要。”隨著技術的向前演進,大模型本身將可能變成面向消費者的採購代理。消費者未來的許多購買決策,可能都會直接由大模型完成。當一個消費者的大模型助手去幫他尋找最佳商品時,它可能會主動找到品牌的AI銷售代理,詢問產品詳情、詢價、驗證真偽、理解評論、比對競品。也就是說,品牌未來的官網、直播帳號、客服系統,都將升級為面向AI的互動介面。“當OpenAI、Google、國內各大模型都開始接入電商系統並承擔‘採購代理’的角色時,它們就可能會在中間抽佣、提供商業化入口。”吳明輝表示。難以迴避的資料問題現在,電商平台上的消費者,並不全然信賴大模型。一些電商商戶已經深度使用AI技術,快速生成大量創意,再由策劃人員挑選其中最優的選項。在這個階段,AI的天馬行空是一種優勢。但大模型的技術成熟度依然有待提高。“例如數字人內容,儘管技術上越來越成熟,但消費者對數字人和真人之間的感受差異仍然很明顯,這也導致部分企業在應用上會更加保守。”吳明輝對記者說。最棘手的一類問題是虛假資訊。傳統搜尋引擎擁有成熟的網頁排序體系,通過網頁之間的連結與引用關係衡量網頁權重。而在大模型時代,使用者提出一個任務,大模型會在背後進行搜尋、篩選並總結,最終呈現的答案是其“主動選擇的結果”。大模型決定了使用者能看到什麼、不能看到什麼。這比早期的“百條搜尋結果自主選擇”模式影響更大,因此模型必須確保篩選邏輯的精準性與可靠性,而不能呈現虛假或錯誤資訊。“虛假資料在每個時代都會存在,而且可以預見的是,AI能力越強,虛假資料只會更多。因為大量內容都可以由 AI生成,從格式和結構上看都非常‘完美’,但其中可能存在一些細微卻至關重要的錯誤,最終會影響使用者分析和決策結果。”吳明輝說道。子溪是一位品牌行銷與數位化專家,她在工作中清晰感受到AI有明顯的能力邊界。在2025行銷科學大會上,她表示此前為一家寵物用品企業做品牌定位時,使用AI結合抖音、小紅書、天貓和京東等平台的巨量資料,提煉出貓糧最好的賣點居然是“增肥發腮”。這讓她疑惑,此前寵物品類從業經驗告訴她:寵物主人更希望寵物吃的貓糧營養均衡。“中國寵物主人在這幾年發生翻天覆地的價值觀倒退嗎?因為‘增肥發腮’對貓咪健康是不好的。所以,我不相信AI出來的結果,不相信網際網路上巨量資料的結果。”子溪隨後帶著研究團隊,進到幾十家消費者家裡做近距離觀察、家訪,去看消費者和寵物之間如何互動。此後,她把所有的對話、照片資料、消費者日記,再讓AI做分析。“這個時候我們發現,他們對寵物食品第一需求是什麼?還是均衡營養。”據子溪分析,此前所得出的結論之所以出現巨大偏差,因為AI所用到的語料庫是網際網路上的公開資料,企業沒有自己優質的私有資料庫。“現在網際網路資料是非常偏頗的,因為在抖音、小紅書上能夠拿到流量的內容是吸引眼睛的內容。那個是不是消費者日常生活?不是,它是被粉飾的。”大模型無法掌握全世界的資料,一些企業開發的模型所能獲得的只是公開網際網路的部分資訊,這些資訊甚至都是錯誤的。而且,AI也不一定能夠掌握公開資料的最新變化。“因此,在商業場景中,最關鍵的問題不是AI能不能,而是AI用的是什麼資料、資料是否正確。能夠把企業的私有資料、行業的專業資料,以及公開資料有效整合併連接給模型,才是一個AI系統真正的價值所在。這也是我們投入最多的領域。建構Trusted and Agentic AI,幫助客戶解決對可信資料的連接與挖掘,是明略科技始終努力的方向。”吳明輝表示。技術變革帶來商業變革,但資料質量將在一定程度上決定人工智慧能否在電商領域改天換地。 (中國企業家雜誌)
一、AI大模型基本原理
最近隨著資本做空輝達,巴菲特退休之前押注Google,國內阿里的QWen3-max推出,大模型應用在沉寂大半年之後又開始活躍。畢竟輝達是賣鏟子的,真正拿鏟子去耕種的還得是大模型基座以及基於大模型的應用開發。💡 本文會帶給你什麼是AI?AI大模型能做什麼大模型現階段落地情況綜述怎樣尋找企業中大模型落地場景大模型的通俗原理大模型技術的短板大模型應用技術架構DeepSeek本地部署和應用開始上課!什麼是 AI?「AI is bullshit。深藍沒用任何 AI 演算法,就是硬體窮舉棋步。」思考:「智能冰箱」是 AI 嗎?一種觀點:基於機器學習、神經網路的是 AI,基於規則、搜尋的不是 AI。AI大模型能幹什麼?大模型,全稱「大語言模型」,英文「Large Language Model」,縮寫「LLM」。現在,已經不需要再演示了。每人應該都至少和下面一個基於大模型的對話產品,對話過至少 1000 次。本課第一個專業要求:分清對話產品和大模型。但是,千萬別以為大模型只是聊天機器人。它的能量,遠不止於此。按格式輸出分類聚類持續互動技術相關問題可能一切問題,都能解決,所以是通用人工智慧 AGI用 AI,要用「用人思維」:機器思維:研發了什麼功能,就有什麼功能。用人思維:給 ta 一個任務,總會有些反饋,或好或壞,驚喜或驚嚇。劃重點:大模型就是一個函數,給輸入,生成輸出任何可以用語言描述的問題,都可以輸入文字給大模型,就能生成問題的結果文字進而,任意資料,都可以輸入給大模型,生成任意資料輝達 CEO 黃仁勳 2024 年 6 月 2 日在 Computex 上的演講提到各種模態資料的統一支援:大模型GPT時代:一切皆為向量AI驅動干行百業效率升級,大量行業場景應用價值仍待深挖大模型現階段落地情況綜述Killer App 沒有影,AI 原生待證明。手握場景不著急,內部提效暗暗行。Killer App 沒有影AI 沒有創造新的使用場景,只是舊場景的增強,所以沒有 Killer App 的土壤可以樂觀期待 Killer App,但別苦苦追求請忽略一切張嘴就是 Killer App 的人AI 原生待證明AI 原生,是指產品的核心功能是 AI,而不是 AI 作為輔助功能。典型特點是,有 AI 後才出現。助手類,打不過 Siri 們ChatGPTKimi Chat文心一言通義千問智譜清言……搜尋類,Google百度不會袖手旁觀Perplexity秘塔 AIDevv情感陪伴類,社交巨頭正謹慎觀察Character.AI(已被 Google 人才收購)星野Replika定製 Agent,商業模式探索中ChatGPT GPTs扣子DifyAI程式設計 ,目前最成功的AI應用CursorWindsurfInsCodemarscode手握場景不著急大玩家毫不落後,AI 帶來的市場格局變化不大。拍照答題GauthQuestion AI英語學習多鄰國有道 Hi Echo圖像處理美圖秀秀Adobe Firefly辦公WPS AICopilot for Microsoft 365釘釘魔法棒飛書智能夥伴騰訊會議智能助手程式設計GitHub Copilot全家桶GoogleMicrosoft字節跳動內部提效暗暗行很多企業將大模型和業務相結合,取得了或大或小的效果行銷AI 做行銷創意,人再加工AI 批次生產行銷素材多語言翻譯客服/銷售半 AI,適合本來有人做,AI 來提效全 AI,適合本來沒人做,AI 來補位辦公公文撰寫/總結/翻譯知識庫內部客服輔助決策情報分析BI產品研發創意、頭腦風暴IT 研發提效怎樣尋找企業中大模型落地場景1. 業務流程解構明確目標 :確定解構的目標是什麼,是否是提升效率、降低成本,還是增強產品或服務的質量。分析現有流程 :通過與相關部門和團隊溝通,瞭解當前的業務流程,使用流程圖、價值流圖等工具。收集資料 :收集與流程相關的資料,包括時間、資源、瓶頸等,識別出目前流程中的問題和改進點。識別關鍵環節:確定每個環節對業務結果的影響,識別那些環節最能推動價值產生,那些是浪費或低效的環節。2. 繪製企業價值流圖識別關鍵流程:將企業流程分為不同的關鍵環節,如供應鏈管理、生產流程、銷售等。標記價值增值活動:明確那些環節增加了實際價值,那些是純粹的支援性或非增值活動。流程中的浪費:識別流程中出現的浪費,如等待、過度處理、運輸、庫存、動作等。時間與資源:標註每個環節的時間、資源消耗,以及這些消耗如何影響最終的交付。改進方案:通過價值流圖,找到需要最佳化的環節,提出改善措施。3. 識別大模型應用場景資料驅動的決策:大模型可以幫助企業分析大量資料,提供更精確的決策支援,示例:通過AI分析客戶資料,最佳化市場行銷策略。自動化與智能化:大模型可以應用於自動化任務,如智能客服、語音識別、圖像識別等,減少人工成本並提升效率。個性化服務:通過大模型實現個性化推薦系統,基於使用者歷史行為或偏好為其推薦個性化的產品或服務,提高客戶滿意度和轉化率。預測與最佳化:利用大模型對歷史資料進行分析,預測未來趨勢,最佳化生產計畫、庫存管理等業務環節。業務流程改進:利用大模型分析當前業務流程中的瓶頸和效率低下的環節,提出改進措施,最佳化資源配置。實際應用案例:業務流程解構與企業大模型應用案例 1:智能客服系統最佳化1. 業務流程分析現有流程客戶通過電話或線上管道聯絡客服,人工客服接聽後處理問題。高峰時段,客服人員處理請求的速度較慢,且重複性問題佔比高。問題分析客服響應時間長,客戶體驗差。高重複性問題,人工客服效率低。客服人員壓力大,缺乏足夠的資源。2. 價值流圖繪製關鍵流程客戶請求 -> 人工客服接聽 -> 問題解決 -> 客戶反饋問題識別高峰期間等待時間長,人工客服需要處理大量重複問題,缺乏自動化支援。改進點引入自動化工具(如智能客服)減少人工干預,提升響應速度。3. 應用大模型自然語言處理(NLP)使用大語言模型(如GPT)建構智能客服系統,支援自然語言理解和生成,自動回答常見問題。工作流使用NLP識別客戶請求意圖並進行分類。常見問題通過智能問答系統自動解答。將複雜或不常見問題轉接給人工客服。結果客服響應時間減少50%,客戶滿意度提高。人工客服壓力減輕,更多精力投入到複雜問題處理上。案例 2:智能供應鏈與需求預測最佳化1. 業務流程分析現有流程企業生產與庫存管理依賴傳統的預測模型,按月或季度調整生產計畫,庫存管理不精確,容易造成庫存積壓或缺貨。問題分析生產計畫與實際需求不匹配,導致產能浪費或供應短缺。庫存管理不精準,影響現金流和營運成本。2. 價值流圖繪製關鍵流程需求預測 -> 生產計畫 -> 原材料採購 -> 產品生產 -> 倉庫管理 -> 客戶交付問題識別傳統需求預測精度低,庫存管理滯後,無法快速響應市場變化。3. 應用大模型機器學習模型利用歷史銷售資料、市場趨勢和季節性變化等因素,應用大模型提高需求預測精度。工作流使用AI進行資料分析和需求預測。自動調整生產排程和採購計畫。基於預測結果動態調整庫存管理策略。結果需求預測準確率提高20%,庫存積壓減少30%。生產和採購計畫更加精準,營運成本降低。案例 3:智能生產線質量控制1. 業務流程分析現有流程生產線上的產品質量由人工檢測,人工檢測存在判斷失誤和效率低的問題,特別是在高產量情況下,無法及時發現質量問題。問題分析質量檢測依賴人工,容易漏檢或誤判。高生產速度下無法保證每個產品都得到充分檢查,導致次品流入市場。2. 價值流圖繪製關鍵流程原材料入庫 -> 生產加工 -> 質量檢查 -> 產品包裝 -> 交付問題識別人工檢查的精準性和效率無法滿足生產需求,生產質量無法穩定控制。3. 應用大模型電腦視覺使用視覺大模型進行產品質量檢測,自動識別產品缺陷。工作流使用大模型對生產線上每個產品進行圖像識別,即時監控產品表面缺陷。對有缺陷的產品進行標記,及時移出生產線,避免流入市場。AI即時反饋生產資料給生產線控制系統,最佳化生產流程。結果質量檢測精度提升至99%,次品率減少80%。整體生產效率提升30%,減少了人工檢測的誤差和漏檢問題。總結這三個案例展示了如何通過大模型最佳化企業業務流程。智能客服、供應鏈最佳化和生產線質量控制是大模型應用的重要領域,通過自動化、預測和最佳化,企業能夠提高效率、降低成本,並提供更好的客戶體驗。通過結合大模型的強大能力,企業可以快速應對變化,提升競爭力。成功落地大模型五要素成功落地大模型五要素:業務人員的積極對 AI 能力的認知業務團隊自帶程式設計能力小處著手老闆的耐心如何找到落地場景找落地場景的思路:從最熟悉的領域入手儘量找能用語言描述的任務別求大而全。將任務拆解,先解決小任務、小場景讓 AI 學最厲害員工的能力,再讓 ta 輔助其他員工,實現降本增效思考:你的業務中,有那些問題可能 AI 能解決?工作機會在那裡?首先要知道:純大模型崗位幾乎是不存在的。可選:獨立開發者/創業有科技屬性的公司幾乎所有崗位傳統企業跑通 AI 工作流,找全端工程師定製化開發大模型是怎樣工作的?通俗原理其實,它只是根據上文,猜下一個詞(的機率)……OpenAI 的介面名就叫「completion」,也證明了其只會「生成」的本質。下面用程序演示「生成下一個字」。你可以自己修改 prompt 試試。還可以使用相同的 prompt 運行多次。from openai import OpenAIfrom dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())client = OpenAI()#prompt = "今天我很"  # 改我試試prompt = "下班了,今天我很"#prompt = "放學了,今天我很"#prompt = "AGI 實現了,今天我很"response = client.chat.completions.create(        model="gpt-4o-mini",        messages=[{"role": "user", "content": prompt}],        stream=True)# 處理並列印流式響應內容for chunk in response:print(f"\033[34m{chunk.choices[0].delta.content or''}\033[0m", end="")略深一點的通俗原理訓練和推理是大模型工作的兩個核心過程。用人類比,訓練就是學,推理就是用。學以致用,如是也。例如,有下面訓練資料:AI 正在改變我們的生活方式。AI 技術在醫療領域有廣泛應用。AI 可以提高企業的生產效率。AI 演算法能夠預測市場趨勢。AI 在自動駕駛汽車中扮演重要角色。AI 有助於個性化教育的發展。AI 機器人可以執行複雜的任務。AI 技術正在推動智能家居的普及。AI 在金融分析中發揮著關鍵作用。AI 技術正逐步應用於藝術創作。「AI」之後出現「技」的機率大於其它字。這些字之間的機率關係,就是大模型訓練時學到的。用不嚴密但通俗的語言描述原理:訓練:大模型閱讀了人類說過的所有的話。這就是「機器學習」訓練過程會把不同 token 同時出現的機率存入「神經網路」檔案。保存的資料就是「參數」,也叫「權重」推理:我們給推理程序若干 token,程序會載入大模型權重,算出機率最高的下一個 token 是什麼用生成的 token,再加上上文,就能繼續生成下一個 token。以此類推,生成更多文字Token 是什麼?可能是一個英文單詞,也可能是半個,三分之一個可能是一個中文詞,或者一個漢字,也可能是半個漢字,甚至三分之一個漢字大模型在開訓前,需要先訓練一個 tokenizer 模型。它能把所有的文字,切成 token1 個英文字元 ≈ 0.3 個 token。 1 個中文字元 ≈ 0.6 個 token。思考:AI 做對的事,怎麼用這個原理解釋?AI 的幻覺,一本正經地胡說八道,怎麼用這個原理解釋?再深一點點這套生成機制的核心叫「Transformer 架構」Transformer 是目前人工智慧領域最廣泛流行的架構,被用在各個領域機器學習 ≈ 機器自動找一個函數函數的參數找出函數的三步驟Transformer在做一個什麼事情?標量、向量、矩陣、張量的關係點——標量(scalar)線——向量(vector)面——矩陣(matrix)體——張量(tensor)Embedding是什麼?假設我們有一個句子:“The cat sat”Transformer核心:注意力機制注意力機制中的Q、K、V用好 AI 的核心心法OpenAI 首席科學家 Ilya Sutskever 說過:數字神經網路和人腦的生物神經網路,在數學原理上是一樣的。所以,我們要:把 AI 當人看把 AI 當人看把 AI 當人看凱文·凱利說了類似的觀點:「和人怎麼相處,就和 AI 怎麼相處。」用「當人看」來理解 AI用「當人看」來控制 AI用「當人看」來說服別人正確看待 AI 的不足當什麼人呢?學習時當老師工作時當助手休閒時當朋友這是貫徹整門課的心法,乃至我們與 AI 相伴的人生的心法。使用大模型的好習慣: - 使用大模型,不同的話題要開啟新的會話; - 明確指令和問題:儘量使問題或指令簡潔明確,避免多重含義或複雜結構,幫助模型更好理解和響應。 - 分步進行:如果問題複雜,可以將問題拆解成幾個小問題,逐步處理。這不僅能提高精準度,還能避免模型處理過於龐大的資訊。 - 上下文保留:在多個會話中,如果需要參考之前的對話,可以適當提及或複述關鍵點,避免丟失上下文。 - 分配優先順序:針對多個任務或問題,可以為每個話題分配優先順序,先處理最重要或最緊急的內容。 - 適應模型的限制:瞭解模型的處理能力和上下文長度限制,避免在同一會話中輸入過長的文字,尤其是如果涉及大量資訊時,分割問題會更有效。 - 反饋循環:在與模型互動時,如果模型的回答不完全或不符合預期,可以及時提供反饋和補充說明,讓模型逐步最佳化回答。 - 使用特定的格式或範本:如果是處理特定類型的任務或問題(如程式碼、數學問題、寫作任務),可以為輸入提供特定的格式或範本,以幫助模型更準確地理解任務需求。課堂實驗:你提個 AI 相關問題,我來用人類比大模型技術的短板對時效性內容的處理:由於大型模型通常在某個時間點之前的資料上訓練,它們可能無法處理最新的事件或資訊。例如,對於最近發生的新聞事件或新興的流行文化現象,模型可能缺乏理解,GPT4最近最新2023年4月。幻覺、不精準性和濫用風險:大型模型可能產生“幻覺”,即提供錯誤但看似合理的文字。這可能導致誤資訊的傳播,甚至被用於非法或不道德目的。例如,惡意使用者可能利用模型生成看似來自可信出版物的文章,作為假新聞傳播。泛化能力的侷限性:泛化能力指的是一個模型在處理新的、未見過的資料時的表現能力雖然大型模型在多個任務上表現出色,但在處理特定、罕見或新穎的情況時可能表現不佳難以解釋和透明性差:大型模型通常是“黑箱”,即使是模型的開發者也無法完全理解模型是如何配置自身以產生文字的。這導致瞭解釋或解釋AI/ML演算法的新框架的發展,但由於模型規模的增大,解釋性AI/ML方法變得日益複雜。大模型應用產品架構Agent 模式還太超前,Copilot 是當前主流。實現 Copilot 的主流架構是多 Agent 工作流模仿人做事,將業務拆成工作流(workflow、SOP、pipeline)每個 Agent 負責一個工作流節點大模型應用技術架構大模型應用技術特點:門檻低,天花板高。純 PromptPrompt 是操作大模型的唯一介面當人看:你說一句,ta 回一句,你再說一句,ta 再回一句……Agent + Function CallingAgent:AI 主動提要求Function Calling:AI 要求執行某個函數當人看:你問 ta「我明天去杭州出差,要帶傘嗎?」,ta 讓你先看天氣預報,你看了告訴 ta,ta 再告訴你要不要帶傘RAG(Retrieval-Augmented Generation)Embeddings:把文字轉換為更易於相似度計算的編碼。這種編碼叫向量向量資料庫:把向量存起來,方便尋找向量搜尋:根據輸入向量,找到最相似的向量當人看:考試答題時,到書上找相關內容,再結合題目組成答案,然後,就都忘了Fine-tuning(精調/微調)當人看:努力學習考試內容,長期記住,活學活用。如何選擇技術路線面對一個需求,如何開始,如何選擇技術方案?下面是個不嚴謹但常用思路。其中最容易被忽略的,是準備測試資料值得嘗試 Fine-tuning 的情況:提高模型輸出的穩定性使用者量大,降低推理成本的意義很大提高大模型的生成速度需要私有部署如何選擇基礎模型凡是問「那個大模型最好?」的,都是不懂的。不妨反問:「有無論做什麼,都表現最好的員工嗎?」劃重點:沒有最好的大模型,只有最適合的大模型基礎模型選型,合規和安全是首要考量因素。然後用測試資料,在可以選擇的模型裡,做測試,找出最合適的。為什麼不要依賴榜單?榜單已被應試教育污染。唯一還算值得相信的榜單:LMSYS Chatbot Arena Leaderboard榜單體現的是整體能力。放到一件具體事情上,排名低的可能反倒更好榜單體現不出成本差異本課程主打語言是 Python,因為:Python 和 AI 是天生一對Python 是最容易學習的程式語言安裝 OpenAI Python 庫在命令列執行:pip install --upgrade openai發一條消息體驗給大模型注入新知識的程式碼竟如此簡單。from openai import OpenAI# 載入 .env 檔案到環境變數from dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())# 初始化 OpenAI 服務。會自動從環境變數載入 OPENAI_API_KEY 和 OPENAI_BASE_URLclient = OpenAI()# 消息messages = [    {"role": "system","content": "你是AI助手小瓜,是 AGIClass.ai 的助教。這門課每周二、四上課。"# 注入新知識    },    {"role": "user","content": "周末上課嗎?"# 問問題。可以改改試試    },]# 呼叫 GPT-4o-mini 模型chat_completion = client.chat.completions.create(    model="gpt-4o-mini",    messages=messages)# 輸出回覆print(chat_completion.choices[0].message.content)DeepSeek本地部署和應用ollamadocker 桌面版open-webui 版本:dyrnq/open-webui:latestDeepSeek本地部署實戰演示未來展望大模型競爭的過程繼續白熱化,第一將會不斷輪流切換多模態大模型將更加成熟,大模型的價格將不斷走低大模型應用開發才是未來最值的關注的方向,應用為王作業發掘自己身邊的大模型落地場景, 撰寫自己的大模型應用構想,要求給出需求說明和期望的效果。 (金信融息)
阿里秘密啟動“千問”項目,對標ChatGPT;用AI大模型判斷擦邊:抖音8.8萬人次被處罰丨一周AI要聞彙總
ChatGPT群聊功能上線部分地區李飛飛團隊推出首款商用世界模型Marble阿里秘密啟動“千問”項目,全面對標ChatGPT英特爾CTO跳槽至OpenAI,CEO陳立武將兼任該職檔案顯示馬斯克對OpenAI捐贈金額為3800萬美元ChatGPT群聊功能上線部分地區:人機共同決策討論、不會主動“打擾”你11月14日消息,OpenAI今日宣佈,將在韓國、紐西蘭等部分市場試點一項重要的ChatGPT新功能——首次支援與ChatGPT進行群聊。群聊基於昨天發佈的GPT-5.1模型運行,且僅在ChatGPT回覆時才計入速率限制,群聊中的使用者可以自由討論,無需每條消息都呼叫ChatGPT,從而避免觸發使用上限。使用者能夠在同一對話中輕鬆實現人際協作,甚至與ChatGPT協同工作。通過群組聊天功能,使用者可邀請親友或同事進入共享空間,共同策劃方案、決策討論或頭腦風暴。ChatGPT會根據群聊的上下文判斷何時回覆、何時保持沉默。使用者如果希望它回應,只需在消息中提到“ChatGPT”。(IT之家)百度發佈全新原生全模態大模型文心5.0百度在2025年11月13日的百度世界大會上正式推出了最新原生全模態大模型——文心5.0。該模型擁有2.4兆參數量,並採用了原生全模態統一建模技術,能夠同時理解和生成文字、圖像、音訊和視訊等多種資訊,展現出強大的多模態能力。(AI Base)李飛飛團隊推出首款商用世界模型Marble11月13日,AI教母、史丹佛大學教授李飛飛的創業公司World Labs宣佈推出首款商用世界模型Marble。Marble支援大規模多模態,可以從文字、圖像、視訊或粗略的3D佈局中建立3D世界;Marble還允許使用者互動式地編輯、擴展和組合世界。(介面新聞)GPT5.1本周開始推送,舊GPT-5模型將在三個月後被取代OpenAI 11月13日發佈公告,宣佈推出GPT-5.1系列旗艦模型,官方聲稱此次升級旨在“讓ChatGPT更智能,對話體驗更有趣”。新版本將從本周開始向使用者推送,而舊的GPT-5模型將在三個月後被徹底取代。據悉,此次更新的核心是推出的兩個新模型:最常用的GPT-5.1 Instant和主打高級推理的GPT-5.1 Thinking。(IT之家)美團首款AI IDE產品CatPaw開啟公測美團旗下首款AI IDE產品Meituan CatPaw進入公測。該產品是以Agent與人協作為核心,通過Agent智能驅動程式設計,支援程式碼補全、項目預覽偵錯等功能。使用者在官網下載安裝後,在官方公眾號領取邀請碼體驗,初始帳號默認能發起500次對話,使用完可申請獲取新額度。(介面新聞)阿里秘密啟動“千問”項目,全面對標ChatGPT《科創板日報》獲悉,阿里巴巴已秘密啟動“千問”項目,基於Qwen最強模型打造一款同名個人AI助手——千問APP,全面對標ChatGPT,加入全球AI應用的頂級競賽。阿里核心管理層將其視為“AI時代的未來之戰”,希望借助Qwen的開源技術優勢贏得競爭。這是年初公佈3800億投入AI基礎設施之後,阿里AI戰略的又一重要佈局。此前,阿里重兵一直放在B端AI市場,通過阿里雲向各行各業提供模型API服務。基於Qwen的優秀性能和國際影響力,阿里管理層認為啟動千問C端之戰的時機已經成熟。(財聯社)Meta啟動10億美元人工智慧資料中心建設Meta Platforms宣佈將在美國威斯康星州比弗丹市啟動一項佔地70萬平方英呎的人工智慧資料中心建設項目,預計2027年正式啟用,並創造約100個全職技術崗位。Meta稱上述項目預算逾10億美元,這是該公司在快速推進的AI競賽中對關鍵基礎設施的最新投資。(新浪財經)馬斯克就“阻撓人工智慧競爭”起訴OpenAI和蘋果,兩家公司撤訴申請被駁回當地時間11月13日,美國德克薩斯州聯邦法官裁定,蘋果公司和OpenAI必須回應馬斯克旗下xAI公司提起的訴訟,駁回了蘋果和OpenAI要求撤銷訴訟的申請,法官要求雙方提交進一步檔案闡述各自立場。今年8月,馬斯克旗下人工智慧公司xAI在美國德克薩斯州聯邦法院起訴OpenAI和蘋果公司,指控他們非法合謀阻撓人工智慧競爭。(介面新聞)AI企業Anthropic預計將快速擴大營收據報導,在微軟等合作夥伴的支援下,由前OpenAI成員於2021年創立的人工智慧公司Anthropic預計其企業業務將快速增長,並在2027-2028年前實現正現金流,這與OpenAI近期的較重支出形成對比。(新浪財經)英特爾CTO跳槽至OpenAI,CEO陳立武將兼任該職英特爾首席科學官(CTO)Sachin Katti跳槽至OpenAI,將在後者基礎設施崗位任職。首席執行官陳立武將兼任CTO。人工智慧仍將是英特爾最高的優先業務之一。(新浪財經)具身智能公司Dexmal原力靈機融資近10億元,阿里巴巴、蔚來資本分別領投11月14日消息,具身智能公司Dexmal原力靈機今日宣佈完成數億元A+輪融資,阿里巴巴為獨家投資方。該公司A輪融資由蔚來資本領投,洪泰基金、聯想創投、錫創投和正景基金跟投,老股東君聯資本超額追投、啟明創投和九坤創投追投;兩輪融資金額近10億元,資金主要用於智慧型手機器人軟、硬體技術研發與落地。(IT之家)檔案顯示馬斯克對OpenAI捐贈金額為3800萬美元最近公佈的法庭檔案顯示,馬斯克曾給予OpenAI的捐贈金額大約為3800萬美元。在11月7日提交的法庭檔案中,馬斯克的律師表示,這些捐贈包括2016年和2017年的五次季度撥款,每次500萬美元,2016年至2020年期間為OpenAI支付的1270萬美元租金,以及送給“關鍵員工”的四輛全新出廠的特斯拉汽車。馬斯克此前曾表示他向OpenAI捐贈了1億美元,而OpenAI則認為這個數字不到4500萬美元。(新浪財經)軟銀與OpenAI達成修訂協議,涉及增加投資225億美元軟銀集團11月11日發佈業績報告顯示,3月31日,軟銀集團與OpenAI簽署最終協議,對OpenAI Global進行最高400億美元的後續投資。扣除將向共同投資者轉貸的100億美元後,軟銀集團的實際投資額預計為300億美元。(介面新聞)摩根大通估計人工智慧熱潮未來五年將需要5兆美元融資據摩根大通的分析,人工智慧超大規模資料中心營運商為建設資料中心而大舉擴張,未來五年將需要發行約1.5兆美元的投資級債券,以及來自市場其他各個領域的廣泛融資。以Tarek Hamid為首的策略師表示,“問題不在於‘那個市場將為人工智慧AI熱潮提供資金’,而在於‘如何建構融資結構才能從各個資本市場都能獲得資金’。”(新浪財經)用AI大模型判斷擦邊:抖音直播狙擊新型低俗誘導打賞,8.8萬人次被處罰11月14日消息,抖音集團今日發文,在直播業態發展背景下,直播間不僅成為主播展示自我的舞台,也創造了大量新興崗位,成為帶動靈活就業的“蓄水池”。隨著各平台治理動作的專業化、常態化,直播發展初期的亂象問題多數得到了有效遏制,行業已進入優質、合規的發展階段。與此同時,部分違規主播、作弊團夥及黑灰產也開始變更作弊手段,與平台打起“游擊戰”,以更隱蔽的方式逃避處罰。2025年以來,8.8萬人次在抖音直播因低俗誘導打賞被處罰,11.7萬個帳號因色情違規被無限期回收直播權限。對此,抖音直播持續迭代治理策略和手段。針對較隱晦的軟色情導流場景,平台啟用了多模態大模型,綜合判斷直播間畫面、聲音、口播內容和使用者舉報等,分辨直播間是否有擦邊風險,實現風險快速攔截。另一方面,平台不斷完善舉報鏈路,在30分鐘內處置舉報風險,並結合使用者反饋更新大模型樣本,達到長效化治理的效果。(IT之家)倪光南院士:報告顯示80%的美國AI創新企業使用中國開源模型11月14日上午消息,在今日的作業系統大會&openEuler Summit大會上,中國工程院院士倪光南發表演講。他提到,一些中國企業引領的開源社區在國際上蓬勃發展,在AI時代展現出勃勃生機。中國企業積極擁抱開源理念,成為全球開源大模型創新的引領者。據美國一份報告顯示,80%的美國AI創新企業使用中國開源模型。中國開源大模型秉承開源普惠的價值觀,全面開放走向全球,依託開源匯聚全球開發者智慧,促進技術交流,帶來更多創新活力。(IT之家)“AI才女”羅福莉宣佈加入小米,此前傳言雷軍希望用千萬年薪挖角11月12日,“AI才女”羅福莉在朋友圈官宣加入小米。她在朋友圈表示,“智能終將從語言邁向物理世界。我正在Xiaomi MiMo,和一群富有創造力、才華橫溢且真誠熱愛的研究員,致力於建構這樣的未來,全力奔赴我們心目中的AGI。”對此,記者向小米方面求證,但未獲回覆。此前有傳言稱,小米創始人雷軍曾希望用千萬年薪挖角羅福莉,邀請她到小米帶領團隊從事AI大模型研究,隨後相關消息引發輿論廣泛關注。公開資料顯示,羅福莉本科畢業於北京師範大學電腦專業,碩士階段進入北京大學計算語言學深造。碩士畢業後,羅福莉加入阿里巴巴達摩院,擔任機器智能實驗室研究員,負責開發多語言預訓練模型VECO,並推動AliceMind項目的開源工作。2022年,羅福莉加入DeepSeek母公司幻方量化從事深度學習相關工作,後又擔任DeepSeek的深度學習研究員,參與研發DeepSeek-V2等模型。(藍鯨新聞、新京報)陳睿:B站UP主和使用者群在國內含AI量肯定是最高的,第三季度AI相關內容日均投稿量同比增長83%11月14日消息,嗶哩嗶哩(B站)昨日發佈了截至9月30日的2025年第三季度財報。財報發佈後,B站董事長兼CEO陳睿等公司高管出席了隨後舉行的財報電話會議,解讀財報要點。陳睿表示,他認為B站的UP主和使用者群在國內的含AI量肯定是最高的。“中國最好的講AI的UP主和中國最對AI感興趣的使用者都聚集在B站。在第三季度,每個月都有接近10萬的AI相關的UP主活躍在B站,他們要麼是做AI學習和科普的內容,要麼就是在教AI應用,或者說是用AI輔助創作。在第三季度,AI相關內容的日均投稿量同比增長了83%。而且我認為這方面還有很大的增長潛力,因為B站聚集了中國三分之二以上的年輕使用者,而年輕使用者肯定是想學習或者是想使用AI最核心的力量。”陳睿還稱,B站會專注做視訊AI的解決方案,而且會專注利用AI輔助創作者去做出更多、更好的視訊。比如,B站現在已經提供了AI翻譯視訊的功能,它翻譯的不僅是字幕,因為翻譯字幕很基礎,還包括聲音、口型等等。同時,B站也計畫推出能夠幫助創作者做視訊播客這一類視訊的AI工具。(IT之家)調查顯示97%受訪者無法分辨AI音樂總部設在法國的音樂串流媒體平台“迪澤”與益普索集團12日發佈的一項調查顯示,目前人們幾乎無法分辨人工智慧(AI)生成的音樂和人類創作的音樂。有人擔心,這或引發版權問題,進而影響音樂人生計。益普索集團受迪澤平台委託,於10月上旬請9000名來自美國、英國和法國等8個國家的成年人聆聽兩段AI製作的音樂片段及一段真人創作的音樂。結果顯示,97%受訪者分不清那段音樂由AI生成,52%對無法分辨感到不安。(新華社)人民日報曝光AI培訓坑老騙局,警惕AI培訓套路坑騙老人據報導,“超火AI培訓,老年也能第二春”“零基礎入圈AI”“打造爆款帳號,迅速變現”……這些充滿誘惑的廣告語,來自網上AI培訓機構。近來一些讀者來信反映,遇到“坑老”新騙局——打著AI培訓的旗號,實則設圈套、賣高價。不少渴望通過學習新技術追趕時代潮流的老年人被拉入騙局。記者梳理髮現,這些培訓的一般套路是:首先,製造焦慮,以學習AI有助於保持思維活躍度,避免與社會脫節為由,引起老年人關注;其次,在免費或1元試聽課上,出示眾多虛假案例,如“學完月入萬元不是夢”等內容,吸引老年人上鉤;隨後,採用飢餓行銷策略,以“名額有限”“優惠將結束”等話術刺激老年人衝動消費。(人民日報)閒魚全線AI應用已覆蓋4500萬使用者36氪獲悉,近日,在2025年世界網際網路大會現場,閒魚CEO丁健分享了閒魚AI發展新成果,目前閒魚全線AI應用已覆蓋4500萬使用者,通過AI促成的商品交易額已突破百億元,帶動新發商品日動銷提升10%。(36氪)
張一鳴震怒,字節大模型研究員多次洩密被開除
王騰前車之鑑猶在眼前,大廠紅線之下,沒人能例外。就在今天,一則“字節跳動Seed研究員因多次洩密被開除”的消息在科技圈炸開鍋。作為字節跳動佈局AGI(通用人工智慧)的核心部門,Seed承載著張一鳴“打造前沿科技護城河”的戰略野心,而核心研究員的洩密行為,被解讀為“直擊字節命門”。無獨有偶,就在兩個月前,小米中國區市場部總經理、Redmi品牌靈魂人物王騰,同樣因“洩露公司機密”被小米果斷辭退,這位手握幾百萬粉絲、一度距離副總裁僅一步之遙的大廠高管,最終為自己的“屢教不改”付出了代價。從字節的技術研究員到小米的核心高管,兩位不同賽道的職場精英,為何接連栽在“洩密”這條紅線上?背後折射出的,是科技大廠在白熱化競爭中對核心利益的極致守護,更是所有職場人必須正視的生存法則:在規則與利益面前,個人光環永遠不堪一擊。消息稱字節跳動開除Seed研究員任賾宇具體來說,根據消息來源新浪科技爆料,字節跳動Seed研究員任賾宇於昨日離職,知情人士透露其真實的離職原因是“因多次洩密被開除”。公開履歷顯示,任賾宇在機器人領域有著顯著的專業成就。他曾在義大利技術研究院出任博士後研究員,入職字節前曾先效力於珞石機器人擔任機電工程師,後加入小米公司出任高級研發工程師。並且,他還在知乎平台上擁有8.6萬關注者,個人首頁顯示他的研究方向包括協作機械臂、靈巧手、執行器和人形機器人,屬於技術領域的資深人士。圖源:知乎要理解字節此次“動真格”的原因,首先要搞懂兩個關鍵問題:Seed部門是什麼?任賾宇曾深度參與的GR-3項目有多重要?字節跳動Seed部門成立於2023年,表面上是豆包大模型的核心研發團隊,實則承載著字節佈局通用人工智慧的長期野心,其內部代號“Seed Edge”的團隊,專門聚焦前沿技術的探索與突破。在字節的組織架構中,Seed是典型的“戰略級部門”——不追求短期商業回報,而是瞄準3-5年後的科技趨勢,從語言模型、視覺多模態到機器人系統,每一項研究都可能成為字節未來的“護城河”。更值得注意的是,Seed部門的保密等級堪稱字節內部最高。此前該部門負責人喬木因與HRBP存在未申報的親密關係,且在調查中作虛假陳述,直接被字節辭退並扣罰全部年終獎,可見字節對Seed團隊的管理之嚴格。而2024年字節全年辭退違規員工353人,39人移交司法機關的資料,更印證了其“零容忍”的紀律文化。圖源:IT之家今年7月,任賾宇在社交平台公開宣稱自己“深度參與了GR-3項目”,並詳細闡述了該項目的技術原理。而GR-3並非普通的技術研發,而是字節Seed團隊獨創的Vision-Language-Action Model(VLA)模型——這種融合視覺、語言、動作的多模態模型,是未來機器人互動、智能終端控制的核心技術,一旦核心原理洩露,競爭對手可能快速跟進,字節多年的研發投入將付諸東流。從行業慣例來看,被字節這樣的大廠以“洩密”名義開除,意味著任賾宇的科技圈職業生涯可能遭遇重創,其他科技公司可能會對其敬而遠之。漠視紅線的代價令人深思的是,任賾宇同王騰一樣,並非是一時疏忽,而是被爆出“多次”觸碰公司紅線。甚至,王騰比任賾宇知名度更高,當時在公司的前景也更好,走到今天這一步真是讓人難以理解。就拿王騰來說,這位來自山東曲阜的“80後”,當年可是以668分的優異成績考入華中科技大學生物資訊技術專業。在加入小米之前,他曾在OPPO擔任產品戰略經理。2016年,29歲的王騰通過雷軍親自面試加入小米,在小米這麼多年的職業生涯也相當亮眼。他主導開發了Redmi K40等爆款產品,2023年8月底重返總部後,於9月11日公開宣佈出任Redmi品牌發言人兼市場部總經理。2024年,他的晉陞步伐進一步加快:2月出任Redmi品牌總經理,5月兼任小米中國區市場部副總經理,分管電商與零售市場。直至2024年12月,他正式晉陞為小米中國區市場部總經理,同時仍兼任Redmi品牌總經理。至此,他距離公司最高管理層僅一步之遙,但也止步於此。圖源:抖音在洩密這件事上,王騰卻是早有“前科”。早在2022年4月,時任河南分公司總經理的王騰就曾在微博與網友互動時,提前透露了Redmi K50標準版將於“下個月”發佈的消息。該行為被小米公司認定為二級洩密事件,並對他處以內部警告、取消當年晉陞資格、扣罰5000元績效獎金及季度考核分10分的處理。當時王騰還在微博調侃:“這公司保密咋做的,人人皆知了是嗎?”言語間看似輕鬆,卻隱約透露出對小米保密制度的不滿。而王騰的“大嘴巴”屬性,更是早已被雷軍看在眼裡。在此前的一次直播中,雷軍在聊到紅米品牌時,曾公開點名王騰,說他“動不動洩密被罰款”。可惜,這樣的提醒並未真正觸達王騰的內心。被雷軍點名一年後,王騰依然沒有收手,最終因洩密行為觸及公司紅線,在小米的供職生涯戛然而止。圖源:微博2025年9月,小米職業道德委員會發佈內部郵件,正式宣佈辭退王騰,理由是“洩露公司機密資訊+存在利益衝突等嚴重違規違紀行為”。儘管王騰隨後闢謠“沒有竊取機密出售、沒有收錢”,但承認“存在失職行為”,最終還是黯然離場——他的微博認證被取消,抖音帳號設為私密,快手帳號被封禁,母校華中科技大學也迅速撤下了他的校友宣傳頁面。紅線之下,沒有“例外”與“僥倖”科技公司為何對洩密行為如此零容忍?福建華策品牌定位諮詢創始人詹軍豪分析指出:“從產品層面看,若未發佈新品資訊被洩露,競爭對手可提前佈局,直接削弱產品的市場競爭力;在市場層面,提前曝光會打亂官方行銷節奏,影響消費者期待與購買決策。”而在公司聲譽上,頻繁洩密會導致合作夥伴和投資者對公司的管理能力與保密水平產生質疑,對品牌造成長期傷害。在競爭激烈的智慧型手機和科技產品市場,商業機密的保護至關重要。企業的機密涵蓋了從技術研發、產品設計、市場策略到客戶資訊等多個方面。特別是對於字節跳動這樣的公司,其在機器人技術和AI模型領域的佈局屬於核心商業機密,提前洩露可能導致競爭對手調整方向,或使公司在談判中處於不利地位。然而,在嚴格的保密制度與技術創新文化之間,科技公司也需要找到平衡點。嚴格的保密措施固然能保護公司核心競爭力,但過度強調保密可能抑制員工間的知識共享與創新思維。科技公司的生命力在於持續創新,而創新往往來源於開放交流與思維碰撞。字節跳動Seed團隊是公司前沿技術的研發核心,據悉,字節跳動創始人張一鳴一直很關注AI業務。從去年下半年開始,他每月會參加一次“Seed”核心技術團隊的復盤和討論會。在這種創新氛圍濃厚的團隊中,如何界定保密與分享的邊界,顯得尤為微妙。同樣,對於王騰這樣的市場高管,如何在行銷造勢與保密紀律之間取得平衡,也是一門藝術。市場部門需要適當預熱產品,維持公眾關注度,但提前洩露關鍵資訊則可能打亂整體行銷節奏。當然,保密與洩密的鬥爭並非中國科技公司獨有,而是一個全球性課題。近期,英特爾公司也陷入了一起資料安全洩密事件,不得不通過法律手段解決。英特爾起訴了一名前任員工,指控其竊取了約18,000份檔案。這些檔案被英特爾列為“最高機密”,據稱被賣給了外部各方。這名員工是一名軟體開發者,自2014年起在英特爾工作,於2025年7月7日被解僱,是前段時間英特爾15,000名員工被大規模裁員的其中之一。調查顯示,該員工曾在2025年7月18日嘗試訪問公司機密檔案,但被英特爾的安全系統阻止。儘管嘗試失敗,但在接下來的幾周內,他成功竊取了大約18,000份檔案。英特爾正尋求25萬美元的賠償,包括法院費用和禁止其向潛在客戶披露被盜資訊的禁令。這一事件同樣提醒公司:裁員需謹慎,特別是在進行裁員時,需要重新評估他們的網路安全措施。 (科技頭版)