#智能體AI
黃仁勳與紅杉資本對談:AI工廠與智能體AI,正重塑勞動力市場與人力資源體系
資訊來源:Citadel Securities《全球市場的未來 2025:AI與下一輪增長前沿》時間:2025年10月6日|地點:紐約 Casa Cipriani一、從晶片製造到勞動力結構:不只是技術的對話2025 年 10 月初,Citadel Securities 在紐約舉辦了《全球市場的未來 2025》(Future of Global Markets 2025)論壇。在這場聚焦“AI與下一輪增長前沿”的活動中,輝達(NVIDIA)創始人兼CEO 黃仁勳(Jensen Huang)與 紅杉資本(Sequoia Capital)合夥人 Konstantine Buhler展開了長達一個多小時的對談。這場被外界視為“資本與算力的思想交匯”的對話,並沒有只停留在硬體、模型或市場規模的層面,還延伸到了一個重要的問題:AI 不僅在改變產業,也正在改變“組織與勞動力”的形態。黃仁勳在現場提出,AI 的下一輪影響將不只是演算法迭代,而是結構性地重塑整個勞動力體系。二、從資料中心到AI工廠:生產力的邏輯變化黃仁勳提出了一個正在快速取代“資料中心”的新概念——“AI工廠(AI Factory)”。這不僅是術語的變化,而是商業邏輯的根本轉向。“傳統資料中心是一個成本中心(Cost Center),它儲存和傳輸資訊;而AI工廠是一個利潤中心(Profit Center),它製造智能並創造收入。”他解釋道,一個資料中心的能耗上限是確定的——例如 1 吉瓦(gigawatt)。若你的AI基礎設施能效比競爭對手高出三倍,那麼在同樣的能源消耗下,你的公司就能產出三倍的智能與利潤。“這就是我稱之為工廠的原因,它不是資料中心。它是一個工廠,他們用它來賺錢。”他還分享了一段有趣的往事:輝達推出首台 DGX-1 超級電腦時,他親自將機器交付給當時在 OpenAI 的埃隆·馬斯克(Elon Musk),並笑稱自己沒想到第一位客戶竟然是一個“非營利組織”。這一故事象徵著AI產業的轉折點:AI不再只是算力服務,而是一種新的製造業形態——製造智能。三、AI走進勞動力市場:從工具到“數字同事”在這場對話中,黃仁勳提出——AI 將首次系統性地進入一個過去技術難以觸及的領域:全球勞動力市場。他預言,這個市場的規模高達 100兆美元,而 AI 的介入將帶來前所未有的結構性變化:“未來的企業勞動力,將由人類員工與數字員工(Digital Humans)共同組成。”他所說的“數字員工”,並不是今天常見的自動化系統或聊天機器人,而是一種能夠理解業務語境、具備決策能力、可以持續學習的智能體(Agentic AI)。他稱這種新型勞動力為 “智能體AI”,並列舉多個角色:數字軟體工程師(Digital Software Engineer)數字護士(Digital Nurse)數字行銷人員(Digital Marketer)數字法務顧問(Digital Counsel)在他看來,隨著智能體勞動力加入,企業組織結構的邊界將被重新定義:勞動力的核心不再僅是人力,而是“人類智能 + 機器智能”的組合;組織的管理體系將從“人力管理”轉向“智能協作管理”;企業文化、培訓體系、績效機制都將被重構。四、從IT部門到“AI員工的人力資源部”在對談中,黃仁勳分享了他在輝達內部的一個設想——隨著AI系統數量和複雜度的增加,未來的 IT 部門將承擔起類似“AI員工HR”的角色:“我告訴我們的 CIO,他們未來將成為 AI 員工的人力資源部。這些數字員工將與我們的生物員工一起工作,這就是未來公司的樣子。”組織內部的人力資源邊界正在擴展:招聘(Selection):企業將從不同AI平台挑選合適的智能體(如 OpenAI、Anthropic、Harvey、Cursor 等),或訓練自研模型;入職(Onboarding):通過微調(fine-tuning)和強化學習(RLHF)讓AI理解企業文化、價值觀與業務流程;績效管理(Evaluation):根據AI輸出的精準率、響應速度、決策質量設定考核標準;迭代與離職(Offboarding):像員工輪崗一樣,AI模型將持續升級或被替換。這不是“機器人取代人類”的故事,而是組織開始學會管理智能體。五、對勞動力市場與HR職能的系統衝擊黃仁勳的觀點,不只是對技術的展望,更是對整個用工生態的再定義。從他的表述中,可以歸納出AI對勞動力市場和人力資源管理的四個核心影響方向:1. 勞動力結構從“單一人類”轉向“混合智能”企業不再只依賴僱員數量,而是計算“人機混合產能”。AI代理的工作時長、響應速度和持續學習能力,使得組織邊界被大幅擴展。2. HR的職能邊界將重新劃分傳統HR關注人類生命周期管理;未來HR需要與IT部門共管“數字勞動力”。包括模型選擇、授權、訓練反饋、倫理監管、資料安全等。3. 企業文化需要數位化嵌入如果AI要與人協作,它必須“理解文化”。企業文化將從理念轉化為可學習的語料、prompt範本、反饋機制,成為演算法訓練的一部分。4. 新的信任機制與領導力形態管理者將面臨新的領導力議題:如何協調人類與AI的分工?如何建立信任?如何在演算法的確定性與人性的模糊性之間平衡?這意味著,未來的領導力不僅是“帶人”,而是在不同類型的智能之間建立合作秩序。六、現實約束與理性判斷從趨勢看,黃仁勳的觀點符合當前AI發展的方向,但從落地角度,它仍面臨多重挑戰:法律與倫理邊界尚未確立:AI不具備主體資格,責任與資料安全問題複雜。組織文化嵌入難度大:讓AI真正理解企業價值觀仍需要大量語義建模。管理認知尚未匹配:多數企業HR與IT仍在各自體系中運作,缺乏協同機制。“AI員工上班”的未來並非明天到來,但它已經在技術與制度之間,成為一種不可逆的方向。這將是一場技術與管理的雙重革命,也是人力資源體系必須正面迎接的結構性轉折。 (AI組織進化論)
花旗:AI將顛覆資產管理行業
一、行業轉型:AI 從 “效率工具” 升級為 “阿爾法夥伴”,CEO 認知與人才結構已先行AI 在投資管理領域的定位已發生根本性轉變,從 2024 年聚焦營運效率,轉向 2025 年直接賦能投資決策,行業頂層認知與人才儲備同步跟進:CEO 層面:AI 成生存必修課,74% 擔心 2 年不落地將失業據Dataiku 發佈的 Harris Poll 調研(覆蓋全球 500 位 CEO),74% 的 CEO 認為若無法證明 AI 帶來的可量化業務成果,未來 2 年可能失去職位;金融行業 AI 滲透率已從 2023 年 40% 升至 2025 年 52%(輝達調研),投資管理領域增速更快,超 60% 頭部機構已將 AI 納入核心戰略。人才層面:AI 相關崗位佔比激增,北美成核心聚集地2024 年全球 AI 相關崗位佔比達 2.2%(2010 年僅 0.3%),其中北美佔比最高(3.2%),遠超亞太(1.7%)、歐洲(1.5%)、拉美(1.2%);投資管理領域 AI 分析師、AI 策略師等新崗位招聘量 2024 年同比增長 80%,避險基金和主權基金成為主要僱主。應用層面:從“中後台效率” 到 “前台投資決策”2024 年花旗調研顯示,80% 機構僅將 AI 用於文件總結、資料錄入等中後台任務;2025 年隨訪發現,65% 機構已在投資端測試 AI 應用,其中 30% 實現 “AI + 人類” 協同決策,史丹佛大學開發的 AI “基金經理” 甚至在 30 年回測中跑贏 93% 人類基金經理,平均超額收益達 600%(僅用公開資訊調整組合)。二、技術合力:生成式AI + 智能體 AI(Agentic AI),解鎖 “自主決策” 新能力AI 對投資管理的顛覆,核心來自生成式 AI(GenAI)與智能體 AI 的協同,前者擅長資訊合成,後者實現任務自主執行,二者結合突破傳統 AI 的能力邊界:生成式AI:處理 “人類不可能完成” 的資訊規模基礎能力覆蓋多類型資料處理—— 可同時分析 30 + 份賣方研報、10K 財報、 earnings call 紀要等非結構化資料,將傳統需數周的分析(如關稅對組合的影響)壓縮至數小時;量化領域可快速挖掘另類資料(如衛星圖像、信用卡交易資料),訊號識別效率較人類分析師提升 5-10 倍。智能體AI:自主規劃 + 執行 + 適配,從 “輔助” 到 “代理”區別於傳統AI 的單一任務執行,智能體 AI 可自主完成多步驟流程:例如監測特定行業新聞→識別宏觀指標影響→自動呼叫生成式 AI 分析相關公司 filings→生成初步報告→按預設風險參數建議組合調整,全程僅需人類稽核異常點;當前 35% 頭部避險基金已在測試 “智能體 AI + 投研” 系統,任務自動化率達 40%。應用場景擴容:投資、分銷、營運全鏈條滲透投資端新增“AI 投研助手”“交易執行協同” 等場景,分銷端實現 “客戶微群體分類”“生成式引擎最佳化(GEO)”(替代傳統 SEO),營運端可完成 “歸因分析自動化”“合規文件解讀”;未來待落地場景包括 “AI 投資副駕駛”“即時風險避險建議”,覆蓋從前端獲客到後端風控的全流程。三、核心應用:基本面與量化投資雙軌突破,四大維度重塑投研流程AI 在基本面與量化投資中的應用各有側重,但均實現從 “工具輔助” 到 “價值創造” 的跨越,具體體現在資訊合成、工具普惠、分析深度、自主決策四大維度:(1)維度 1:資訊合成革命 —— 處理量提升 100 倍,隱藏關聯自動浮現基本面投資:傳統分析師日均處理2-3 份研報,AI 可同時分析 30 + 份研報 + 10 年財報 + 即時新聞,例如研究某藥企時,AI 能自動交叉驗證管理層言論與臨床試驗資料、同行進展,發現人類易忽視的 “研發進度滯後 - 供應鏈成本上升” 關聯;2025 年測試顯示,AI 資訊合成後提出的投資假設精準率較人類單獨分析提升 35%。量化投資:AI 可快速處理另類資料(如高頻交易資料、社交媒體情緒),訊號挖掘範圍從傳統結構化資料擴展至衛星圖像、感測器資料等,2025 年量化基金用 AI 發現的 “物流資料 - 消費企業營收” 領先訊號,平均提前 3 個月預警業績拐點。(2)維度 2:工具普惠 —— 分析師人人可享 “超級算力”,效率提升 50%自動化預處理:AI 可自動完成研報標籤分類、資料清洗(如從 10K 檔案中提取毛利率、研發費用等關鍵指標),將投研準備階段時間縮短 60%;某大型資管機構測試顯示,用 AI 自動化因子研究後,量化團隊新因子挖掘效率提升 2 倍。跨層級能力平等:初級分析師可通過AI 工具發起 “行業比較”“估值建模” 等複雜分析,無需依賴資深團隊支援;2025 年調研顯示,採用 AI 工具後,不同層級分析師的投研產出差異縮小 40%,工具普惠性顯著。(3)維度 3:分析深度 —— 行為分析 + 即時反饋,阿爾法來源新增基本面:管理層行為語言學分析AI 結合法醫語言學,可識別 earnings call 中 “過度自信”(如高頻使用 “絕對”“必然”)、“迴避”(如繞開核心問題)等訊號,2025 年案例顯示,AI 識別出的 “管理層溝通異常” 訊號,後續 6 個月內對應公司股價平均下跌 8%;同時可即時篩查財務報表異常項,某基金用 AI 發現某零售企業 “應收帳款周轉率異常”,提前規避 15% 的股價下跌。量化:歷史記憶+ 場景分析AI 可儲存 20 + 年 earnings call 等歷史資料,精準還原長期趨勢(人類記憶通常僅覆蓋 3-5 年);在場景分析中,AI 可模擬 “利率加息 + 地緣衝突” 等多因子組合影響,某避險基金用 AI 完成 1000 + 種場景測試,耗時僅為傳統模型的 1/20。(4)維度 4:自主決策 —— 智能體 AI 全程操盤,即時風險響應基本面:行業/ 公司深度追蹤自動化智能體AI 可自主監測某行業宏觀指標(如新能源的裝機量、政策補貼),若出現 “補貼退坡” 訊號,自動呼叫生成式 AI 分析相關企業盈利影響,生成 “減持高成本廠商” 建議;2025 年測試中,該流程從訊號出現到建議生成僅需 4 小時,較人類團隊快 12 倍。量化:因子/ 組合即時監控智能體AI 可全程管理因子研究流程(資料獲取→回測→最佳化),同時即時監控組合風險因子(如波動率、行業敞口),若突破預設閾值,自動觸發避險操作;某量化基金用 AI 後,組合風險因子偏離度從 5% 降至 2%,避險響應時間從 1 天縮短至 1 小時。四、實施建議:從“觀望” 到 “落地”,破解 “買 vs 建” 困境 + 資料基礎搭建機構落地AI 需解決 “技術路徑選擇”“資料基礎”“人才適配” 三大核心問題,花旗給出具體實操框架:路徑選擇:模組化思維破解“買 vs 建”,聚焦差異化能力建議機構優先“外購非核心能力 + 自建核心能力”:例如分銷端的客戶聊天機器人、營運端的文件處理可採購第三方(如 Digipal、Kasisto),投資端的阿爾法訊號挖掘、組合最佳化需自建;2025 年調研顯示,採用 “模組化” 策略的機構,AI 落地成本降低 30%,見效速度提升 50%。資料基礎:資料網格(Data Mesh)替代傳統集中式,解決 “資料孤島”傳統集中式資料湖易形成瓶頸,資料網格讓各業務團隊(如投研、分銷)自主管理資料,AI 可直接呼叫各模組資料,減少 IT 依賴;某資管機構採用資料網格後,AI 模型訓練資料獲取時間從 7 天縮短至 1 天,資料質量提升 25%, hallucination(幻覺)率降低 15%。人才適配:“人類在環(Human-in-the-Loop)”+ 全員 AI 培訓必須保留人類稽核環節(如AI 生成的投資建議需分析師確認),同時設定 “緊急關閉開關” 應對異常;人才培訓需覆蓋 “AI 工具使用”“結果質疑能力”,2025 年案例顯示,完成全員 AI 培訓的機構,AI 投研產出錯誤率降低 40%,分析師接受度提升 60%。五、未來方向:六大新興應用蓄勢待發,時間序列預測+ 圖神經網路成突破口AI 在投資管理的應用將向 “長期策略”“複雜關係分析” 延伸,六大新興方向已進入測試階段:1. 戰術 vs 戰略訊號:從 “短期動量” 到 “長期趨勢”當前AI 擅長短期訊號(如 1 個月內的情緒動量),未來將探索長期訊號(如 3-5 年的行業格局變化),某主權基金用 AI 分析人口結構、政策趨勢,提前 2 年佈局 “老齡化 - 醫療裝置” 賽道,收益較基準高 18%。2. 時間序列預測:智能體 AI 自主選模型,動態最佳化智能體AI 可根據資料特徵(如股價、宏觀經濟資料)自主選擇最優 LLM 模型,若模型預測準確率下降(如從 85% 降至 70%),自動切換模型;2025 年測試中,該方式預測誤差較固定模型降低 20%。3. 圖神經網路(GNN):挖掘公司間隱藏關聯GNN 可建構 “公司 - 供應鏈 - 宏觀指標” 知識圖譜,例如發現 “某晶片廠商產能下降 - 某手機品牌毛利率承壓” 的間接關聯,2025 年量化基金用 GNN 發現的 “跨行業訊號”,年化收益較傳統因子高 12%。其他方向:生成式AI 合成無偏資料(解決歷史資料偏見)、智能體 AI 管理檢索增強生成(RAG)減少幻覺、多 LLM 協同分析(如一個 LLM 做因子研究,一個做風險評估)、生成式 AI 可解釋性(XAI)提升透明度。六、風險挑戰:過度依賴、監管差異、人才缺口成三大攔路虎AI 落地雖快,但行業仍面臨認知、合規、人才三重挑戰,需針對性應對:挑戰1:過度依賴導致 “認知債務”,MIT 研究證實神經連接變化MIT 腦科學研究發現,長期依賴 LLM 的使用者,大腦神經連接模式與 “獨立思考組” 差異顯著,出現 “接受 AI 輸出而不質疑” 的認知惰性;2025 年調研顯示,40% 分析師承認 “未驗證 AI 結論直接引用”,導致投資建議錯誤率上升 15%。挑戰2:全球監管框架碎片化,歐盟罰款最高達年營收 7%歐盟《AI 法案》(2025 年 2 月生效)對 AI 分類監管,投資決策類 AI 屬 “高風險”,違規最高罰 3500 萬歐元或全球年營收 7%;美國採用 “州 + 聯邦” 分散監管(如加州 AI 法案、SEC 指引);中國要求 AI 生成內容必須標註,三大標準規範 GenAI 安全;機構需投入 20%-30% AI 預算用於合規適配。挑戰3:人才缺口達 40%,“AI 系統管理者” 需求激增投資管理領域AI 人才缺口 2025 年達 40%,其中 “懂 AI + 懂投資” 的複合型人才最稀缺;崗位需求從 “AI 使用者” 轉向 “AI 系統管理者”(如最佳化智能體 AI 任務流程),2025 年這類崗位薪資較傳統分析師高 80%。七、總結:AI 是投資管理的 “seismic shift”(地震式變革)花旗認為,AI 已不是 “可選項” 而是 “必選項”,機構需從 “被動適應” 轉向 “主動佈局”,具體建議如下:場景優先:優先落地“資訊合成”“行為分析” 等已驗證場景(ROI 明確),再探索 “長期訊號生成” 等前沿方向;技術組合:採用“生成式 AI + 智能體 AI + 資料網格” 組合,平衡效率與安全,避免單一技術依賴;人才儲備:短期內引入外部AI 專家,長期建立 “全員 AI 培訓體系”,培養 “人類 - AI 協同” 能力。 (資訊量有點大)
中國國內首次!8.9毫秒推理速度破紀錄,1元打穿百萬token
【新智元導讀】當所有人還在為參數內卷時,智能體真正的決勝點已經轉向了速度與成本。浪潮資訊用兩款AI伺服器直接給出了答案:一個將token生成速度幹到10毫秒以內,一個把每百萬token成本打到1元時代。Agentic AI時代,已經到來!輝達GTC大會上,老黃公開表示,當AI具備了感知和推理能力時,智能體AI就誕生了。「它如同數字世界的「機器人」,本質是理解-思考-行動」。當前,AI智能體革命已至臨界點。國內外科技巨頭紛紛加速佈局,全力爭奪這一賽道主導權。據Gartner預測,到2028年,AI智能體將參與人類約15%的日常工作決策。Georgian報告也顯示,如今,91%的企業研究主管正計畫在內部鋪開Agentic AI的落地應用。然而大規模部署之前,「互動速度」與「成本控制」仍是橫亙在許多企業面前的兩大關鍵挑戰。這裡有簡單的一個案例,就足以說明一些問題。國外一支開發團隊基於Azure的OpenAI服務,建構了一個智能體。然而,隨著時間的推移,響應變得越來越慢,一次簡單查詢耗費10秒以上。當他們用OpenAI API測試完全相同的提示詞後發現:OpenAI響應時間為1-2秒,Azure則需要5-10秒。同一款模型,同一個提示詞,卻有五倍差異。要知道,智能體的互動速度,直接決定了使用者體驗的質量。如今,人們對AI響應速度的期待,已從「秒級」進化到「毫秒級」。不僅如此,成本又直接決定了智能體產業化的可行性。多智能體的協作,對低延遲和token消耗又提出了更高的要求。分毫必爭的響應速度,決定了人們是否願意買單;而真金白銀的投入,則決定了企業能否持續推動AI智能體落地。那麼,如何才能既要又要呢?在2025人工智慧計算大會上,浪潮資訊重磅發佈了兩大破局創新系統:元腦SD200超節點AI伺服器,以及元腦HC1000超擴展AI伺服器。在元腦SD200上,DeepSeek R1大模型的Token生成速度飆升至8.9毫秒,創下國內LLM推理的最快紀錄,首次將智能體即時互動帶入「10毫秒」時代。在元腦HC1000上,LLM的推理成本被前所未有地壓縮至「1元/百萬Token」,徹底擊穿規模化部署的成本天花板。Scaling Law下一站:AI智能體爆發2025年,大模型的Scaling並未放緩,而是進入了一個全新的階段。Scaling Law的焦點,早已從「預訓練」轉向了「推理」。從o3、Gemini 2.5,到Grok 4、GPT-5,全球頂尖AI不斷迭代,每一次發佈都刷新了以往SOTA。這一演進的節奏仍在加速。爆料稱,GoogleGemini 3.0、OpenAI Sora 2都將於十月初面世。反觀國內,DeepSeek R1/V3.1-Terminus、Qwen家族等開源模型,月更、周更已成為常態。在能力邊界上,LLM正從純文字,走向了融合視覺、聽覺的多模態模型,並逐步演變為一個底層「作業系統」。可以預見,AI能力將依舊會指數級增長——LLM性能越來越強,所處理的任務長度和複雜度,也在不斷提升。我們看到,Scaling Law推動的模型參數量,從百億千億向兆、甚至百兆邁進。與此同時,在後訓練階段增加算力投入,可顯著提升LLM推理能力。為何這一轉變如此重要?因為「推理」是建構Agentic AI的基礎。眾所周知,2025年,是「智能體元年」。作為LLM的核心應用形態,智能體落地進入了爆發期。在這一賽道上,Google、OpenAI、Anthropic等巨頭競相佈局。比如,OpenAI的「編碼智能體」GPT-5-Codex深受開發者歡迎;另外,還有正在內測的「GPT-Alpha」,具備高級推理、全模態,可以呼叫工具。然而,AI智能體的產業化落地並非易事。能力、速度和成本,成為了當前AI智能體產業化決勝的「鐵三角」。AI不再侷限於技術演示、實驗,而要深入場景,成為創造可衡量價值的核心生產力。這意味著,商業成功的核心已從單純追求模型能力,轉向對能力、速度、成本三者的綜合平衡。互動速度:決定智能體的商業價值在智能體時代,速度不再是錦上添花,而是生存底線。token的吞吐速度,已成為AI應用建構的「隱形計時器」。在人機互動時代,我們對AI延遲感知不強,只要響應速度跟上人類閱讀思維即可。一般來說,只要滿足20 token/s輸出速率,就能實現流暢的閱讀體驗。而現在,AI的遊戲規則徹底改變。互動主體不再是「人-機」對話,而是「智能體-智能體」的高頻博弈。延遲那怕是幾毫秒,也可能導致決策失效。而且,在規模化商業部署中,這種差異會被無限放大,形成「以快殺慢」的絕對碾壓。智能體間互動,多為「小封包」高頻通訊。這好比修了16條車道高速公路,AI只跑兩公里,巨大的頻寬對於小包傳輸如同虛設。而傳統通訊協議「上下高速」的過程,反而成了主要耗時。延遲是會層層累加的。當前智能體僅是初露鋒芒,未來網際網路將由它們主導協作。每一個互動環節的微小延遲,都會在複雜的協同網路中呈指數級放大,最終導致整個應用響應慢到無法接受。如果延遲無法降低,那就失去了商業化的可能性。舉個栗子,在欺詐防控場景中,對智能體響應速率提出了極限要求——約10毫秒。當前,DeepSeek響應速度基本在10-20毫秒左右,其他的普遍高於30毫秒。這遠不足以支援AI的高頻互動。token成本:規模化的生死線此外,token成本,是智能體能否實現規模化擴張,並且盈利的關鍵。即便模型能力卓越,若token成本無法控制在合理範圍內,高頻、並行的實際應用,將難以持續。一方面,LLM存在著「token膨脹」效應:推理前思考過程已產生上千萬token。一個複雜任務,直接讓token成本指數級暴漲。那麼,是什麼原因導致token思考數暴增?首先必須承認的是,模型本身演算法能力差異是影響因素之一。不同LLM在設計和訓練過程中,演算法架構和最佳化策略各有優劣,而最佳化程度更高的LLM可通過更高效推理路徑,在較少token消耗下完成相同的任務。其次,底層計算架構選擇路徑等,也會進而影響token成本。因為LLM運行有依賴於底層的計算架構,包括硬體加速器、分散式運算框架等等。若是計算架構無法高效支撐LLM推理需求,比如在分佈式系統中存在通訊瓶頸或計算資源分配不均,LLM可能需要生成更多token「繞路」完成任務。當前,在做AI Coding的程式設計師,每月消耗token數比一年前平均增長約50倍,達到1000萬-5億token。企業每部署一個智能體,平均token成本大概1000-5000美元。未來五年,token消耗預計增長100萬倍。可見,不論是速度,還是成本,都成為AI智能體商業化落地的最大挑戰。面對這個難題,我們該如何解?兩大核心方案,拿下速度成本難題浪潮資訊,同一時間給出了兩大解決方案——元腦SD200超節點AI伺服器元腦HC1000超擴展AI伺服器元腦SD200若要實現更低延遲token生成能力,就需要在底層基礎設施,比如架構、互聯協議、軟體框架等關鍵點上,實現協同創新。浪潮資訊新的突破,在於元腦SD200超節點AI伺服器。如前所述,DeepSeek R1在元腦SD200上token生成速度實現了8.9毫秒。目前,最接近的競爭對手,最好的資料是15毫秒。這是國內首次將智能體即時互動,帶入到10毫秒時代。為何元腦SD200能夠取得如此大的速度突破?這背後離不開團隊,融合了智能體應用和超節點開發的技術成果。 首創多主機3D Mesh系統架構它可以實現單機64路本土AI晶片縱向擴展(Scale Up),提供4TB視訊記憶體和6TB記憶體,建構超大KV Cache分級儲存空間。而且,單節點即可跑4兆參數LLM,或同時部署多個協作的智能體。此外,在硬體設計上還支援了「開放加速模組」(OAM),相容多款本土AI晶片。 跨主機域全域統一實體位址空間團隊還通過遠端GPU虛擬對應技術,突破了跨主機域統一編址的難題,讓視訊記憶體統一地址空間擴展8倍。它還支援拓撲動態伸縮,可按需擴展128、256、512、1024卡的規模。通過Smart Fabric Manager,元腦SD200實現了單節點64卡全域最優路由,保障了晶片間通訊路徑最短,進一步縮短了通訊延遲。最重要的是,互連協議的設計,是元腦SD200實現極低延遲的關鍵。首先,團隊採用了基建的協議棧,只有物理層、資料鏈路層、事務層三層協議,原生支援Load/Store等「記憶體語義」,GPU可直接訪問遠端節點的視訊記憶體或主存。並且,基礎通訊延遲達到了「百納秒級」。其次,浪潮資訊Open Fabric原生支援由硬體邏輯實現的鏈路層重傳,延遲低至微秒級。不依賴OS、軟體棧,它就能匹配更低延遲、更高吞吐的AI推理場景。元腦SD200還採用了,分佈式、預防式流控機制,無需丟包或ECN來感知擁塞。得益於以上高效、可靠的協議設計,元腦SD200實現了業界最低0.69微秒通訊延遲。當然了,超節點的大規模商業化應用,還必須依靠整機的高可靠的設計。為此,浪潮資訊從系統硬體層、基礎軟體層、業務軟體層,建構了多層次、可靠的保障機制。系統硬體層:全銅纜電互連,短距離緊耦合傳輸,每十億小時故障率低於「光模組互聯」方案100倍基礎軟體層:創新GPU故障資訊轉儲、跨域故障關聯定位等技術,實現全方位可觀測、全端維運自動化業務軟體層:基於Profiling性能資料啟動故障預隔離和任務自動遷移,保證業務故障預測與自癒,實現推理響應不中斷在元腦SD200上,團隊還非常強悍地實現了推理性能超線性擴展。這意味著,性能的提升幅度超過了資源投入的增加幅度。以DeepSeek R1-671B為例,從16卡擴展到64卡,實現了16.3倍超線性的擴展率!具體來看,元腦SD200將這件事做到了極致的完美:通過PD分離策略、動態負載平衡等技術,充分發揮出了超節點的架構優勢,讓系統內部的處理流程變得極其高效,資源競爭和擁堵被降到最低。最終,將通訊耗時控制在了10%以內。可以設想,在實際高並行場景下,當請求量急劇攀升時,系統能夠高效地將負載均勻分佈至各個計算單元,避免了個別節點的「擁堵」拖累整個系統的響應時間。這意味著,無論是第1個請求,還是第100萬個請求,都能獲得同樣穩定且低水平的延遲。既能「跑得快」又能「跑得多」,保證絕對極致的低時延,這就是實現規模化的生命線!基於軟體生態FlagOS,元腦SD200還能繼續相容更大的生態,主流程式碼即可直接編譯運行。當前,元腦SD200已實現對Pytorch算子的全覆蓋,AI4S的典型應用可以一鍵遷移。如下所示,64個AlphaFold 3蛋白質結構預測,即可在一台元腦SD200超節點AI伺服器同時運行。速度挑戰解決之後,token成本又該怎麼打下來?元腦HC1000為此,浪潮資訊給出的答案是——元腦HC1000超擴展AI伺服器。它基於全對稱DirectCom極速架構打造,能夠聚合海量的本土AI晶片,支援極大的推理吞吐。對於一個企業來說,在起步探索、POC階段,平台通用性更加重要,可以快速驗證想法,搶佔市場先機。這對其創新、迭代的速度,至關重要。但當它進入大規模部署階段,即應用被市場驗證,token呼叫數呈指數級增長是時,核心目標又轉變為——高效、低成本營運。而元腦HC1000,就能把推理成本打到最低1元/百萬token。 全對稱DirectCom極速架構DirectCom極速架構,每計算模組配置16顆AIPU,採用了直達通訊的設計,解決了傳統的伺服器架構下,協議轉換和頻寬增強問題,實現了超低延遲。計算通訊1:1均衡配比,實現了全域的無阻塞的通訊。傳統意義上,計算與通訊是互斥關係,計算時不會傳輸,計算完成後再傳。當前,有很多將計算和通訊結合的策略,主要是把原來在傳過程,針對GPU等待時間做最佳化。除此之外,還包含了許多細粒度的任務,比如不同模型架構,不同並行情況,通訊資料區塊大小和通訊策略都要最佳化,才能提升效率。HC1000還採用全對稱的系統拓撲設計,可支援靈活PD分離、AF分離,按需配置算力,最大化資源利用率。它還支援多元算力,讓不同的晶片協同工作。 超大規模無損擴展同時,HC1000支援超大規模無損擴展,實現從1024卡到52萬卡不同規模的系統建構。計算側支援DirectCom和智能保序機制,網路側支援包噴灑動態路由,實現了深度算網協同,相較傳統RoCE方法提升1.75倍。它還支援自適應路由和智能擁塞控制演算法,將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍。總結來看,元腦HC1000是通過「全面最佳化降本」和「軟硬協同增效」,實現了高效token生產力。它不僅創新了16卡計算模組,單卡成本暴降60%+,每卡分攤系統均攤成本降低50%。而且,它採用了大規模工業標準設計,降低了系統複雜度的同時,還提高了系統可靠性,無故障執行階段間大幅延長。系統採用的DirectCom架構保障了計算和通訊的均衡,讓算網協同、全域無損技術,實現了推理性能1.75倍飆升。通過對LLM的計算流程的細分和模型結構的解耦,實現了計算負載的靈活的按需配比。單卡MFU計算效率,最高可以提升5.7倍。元腦SD200+元腦HC1000,成為浪潮資訊兩大「殺手鐧」,分別攻克了AI智能體應用速度和成本難題。那麼,下一步又該走向何方?「專用計算架構」是未來近期,OpenAI在算力佈局上,動作頻頻:先是和甲骨文簽下3000億美元大單,隨後又獲得輝達100億美元的投資。緊接著,他們又官宣了「星際之門」五大超算全新選址計畫。這一系列舉措,無不指向一個核心事實——對於LLM訓練和部署而言,算力需求始終是一個「無底洞」。當前,AI算力的可持續發展正面臨三大關鍵挑戰:工程極限:系統規模的擴展已逼近工程能力的上限。能源壓力:算力的大幅增長給電力基礎設施帶來了巨大負擔。效能失衡:算力投入和產出失衡,商業兌現處理程序緩慢。目前,市面上的「AI晶片」仍以通用晶片為主。GPU,是增加了CUDA核心和矩陣運算Tensor核心的傳統圖形計算晶片;ASIC,則是最佳化了矩陣計算和張量處理的通用矩陣計算晶片。但正如前文所述,這些基於通用計算架構的方案,正逐漸在能效比和成本效益上觸及瓶頸。僅是單純依靠堆疊更多計算單元,或是提升製程工藝的傳統路徑,難以沿著scaling Law在算力規模、能耗、成本之間取得平衡。其原因在於,通用架構雖然適用性強、易於產業化推廣,但效率低下。相比而言,應用面較窄的專用架構,則有著更高的效率。對此,浪潮資訊AI首席戰略官劉軍認為,未來的關鍵便是在於「發展AI專用計算架構」:我們必須推動發展路徑的轉變,要從一味地追求規模擴展,轉向注重提升計算效率。並以此為基礎,重新構思和設計AI計算系統,大力發展真正面向AI應用的「專用計算架構」。具體而言,就是從硬體層面來最佳化算子與演算法,定製出大模型專用晶片,進而實現軟硬體層面的深度協同最佳化,即「演算法硬體化」。只有這樣才能讓性能的Scaling,追上token的高速增長。這不僅是突破算力瓶頸的必經之路,更是推動AI產業邁向下一階段的基石。面對大模型時代,浪潮資訊的前瞻性思考為業界指明了一條方向:通過創新計算架構,讓AI更好地走向落地。 (新智元)
亞馬遜CEO:未來幾年公司大量崗位將被AI替代
當地時間6月17日,亞馬遜CEO安迪·賈西在該公司官網撰文談論AI對亞馬遜的一系列影響,其中特別提到,隨著公司推出更多的生成式AI和智能體,未來只需更少的人去做目前正在做的一些工作,員工總數將減少。在他看來,像生成式AI這樣的技術是千載難逢的機會,徹底改變了使用者和企業的各種可能性。因此,亞馬遜正在進行相當大的投資,也取得了一定進展。亞馬遜CEO安迪·賈西  圖片來源:視覺中國今年4月,賈西曾披露,亞馬遜2025年計畫資本支出高達1000億美元,其中大部分將用於AI相關項目,涵蓋資料中心、網路裝置、AI硬體以及生成式AI服務能力建設等。該數字接近亞馬遜去年總收入的六分之一。而在本月初,亞馬遜又宣佈計畫在美國北卡羅來納州展開重大投資,將投入100億美元用於人工智慧創新,並且會創造至少500個新工作崗位。賈西表示,亞馬遜內部營運已在廣泛使用生成式AI。例如在配送網路中,正在使用AI來改善庫存配置、需求預測和機器人的效率,以提高交付速度。不過,他認為亞馬遜目前在AI的應用上仍處於起步階段。隨著公司推出更多的生成式AI和智能體,“它會改變我們完成工作的方式。我們將需要更少的人來做今天正在做的一些工作,而需要更多的人做其他類型的工作。”賈西強調,很難確切描述AI到底會產生怎樣的影響,但在未來幾年,“預計這將減少我們的企業員工總數”。公開資料顯示,截至2024年底,亞馬遜的員工總數為156萬人,是全球員工最多的企業之一。其中包含全職和兼職員工,大部分人從事倉庫分揀和配送工作,企業職能部門大約有35萬人。自2023年以來,亞馬遜已多次進行裁員,波及北美零售核心、遊戲、通訊及可持續發展等多個關鍵領域。此前亞馬遜曾表示,預計裁員超1.8萬個崗位。對於當時大規模裁員的原因,賈西給出的理由是:“由於經濟形勢不明朗以及不確定性增加,我們將不得不繼續裁員。”而在未來,裁員的關鍵因素很可能轉嫁到AI身上。事實上,在矽谷大型科技公司中,AI正在搶走越來越多人的“飯碗”。4月底,微軟CEO薩蒂亞·納德拉曾透露,微軟公司內部程式碼庫中,有20%至30%的程式碼由人工智慧生成。微軟首席技術官凱文·斯科特早先時候更大膽預測,到2030年,95%的程式碼將由AI生成。知名風投機構Khosla Ventures的創始人Vinod Khosla也給出激進預言,未來 “80%職業的80%工作將被AI取代”。在他看來,AI將更好、更快、更廉價地完成大多數工作,無論是藍領還是白領工作,AI都能進行 “無差別攻擊”。不過,也有人持不同觀點。輝達CEO黃仁勳強調,儘管AI技術在不斷進步,但它不會完全取代人類在工作中的角色。GoogleCEO桑達爾·皮查伊則認為,AI能幫助工程師等將精力集中在高價值項目上,而非崗位的 “替代者”。 (介面新聞)
新·摩爾定律誕生:AI智能體能力每4個月翻一番!智能爆炸在即
【新智元導讀】AI編程智能體的能力正在飛速增長,最新研究揭示了這一「新摩爾定律」,如果AI智能體的任務時長繼續以每4個月翻倍的速度增長,到2027年它們可能完成長達167小時的月級任務!程式設計智能體能完成的任務量,正以爆炸式的速度增長!而且,這一趨勢還在加速。2024到2025年,它們的任務處理能力每4個月翻一倍;而在2019到2025年,這個翻倍周期則是7個月。22號,AI研究網站AI Digest發表了上述觀點,揭示了一個AI智能體的新摩爾定律。部落格地址:https://theaidigest.org/time-horizons從圖表中可以清晰地看到這一趨勢,任務時長的增長軌跡幾乎是一條陡峭的指數曲線。2019年,GPT-2隻能處理不到1秒的簡單任務;2022年ChatGPT發佈時,AI已經可以完成30秒的程式設計任務。現在,智能體可以自主完成人類需要一小時才能完成的程式設計任務。頂尖的AI系統可以完成的任務長度正在呈指數級增長——每7個月翻一番。這個趨勢是METR的研究人員發現的。他們選取了2019到2025年間最強的AI模型,測試了它們在大約200個任務上的表現。主要是程式設計任務,也有一些邏輯推理任務。然後,他們把AI的成功率和每個任務的長度做了對比——任務長度指的是專業人士完成這些任務需要的時間,從不到30秒到超過8小時不等。測試過所有模型後,出現了兩個明顯的規律:任務長度和AI成功率高度相關(相關係數R²=0.83)。AI成功率達到50%的任務長度——即「時間跨度」——正在呈指數增長。接下來是什麼?這個指數增長的趨勢看起來很穩健,沒有停下來的意思。如果按照這個趨勢推算下去,AI智能體將能夠完成:2026年:2小時的任務;2027年:1個工作日(8小時)的任務;2028年:1個工作周(40小時)的任務;2029年:1個工作月(167小時)的任務。最近,這一趨勢還在加速。2024-2025年間,時間跨度是每4個月任務長度翻一番,而2019-2025年間則是每7個月翻一番。如果按照2024-2025年加速的趨勢(每4個月翻倍)推算,AI智能體可能在2027年就能完成月級任務(167小時)。然而,僅觀察一年的資料給出預測可能會不太穩定,實際的進步速度也可能會放緩。不過,考慮到這個趨勢已經開始加速,它很可能處於一個比指數增長還要快的增長軌道上。這也很符合直覺:隨著增長軌道直線上升,1周和2周任務之間所需技能的差距,可能比1年和2年任務之間的差距更大。此外,隨著AI能力的提升,它們在開發更強大AI方面的作用會越來越大,可能導致超指數級增長。智能爆炸AI智能體的能力提升會反過來加速更強大AI的研發,形成飛輪效應:更強大的AI智能體能夠更快地開發出更先進的AI系統,從而進一步提升能力。這種正反饋循環可能導致超指數增長,甚至觸發「軟體智能爆炸」(software intelligence explosion),即AI能力在短時間內急劇提升,遠遠超過人類的水平。此外,演算法進步也在推動這一趨勢。METR的研究表明,近年來AI在演算法效率上的提升,顯著降低了計算資源需求。通過更高效的預訓練和後訓練方法,即使硬體資源不增加,AI智能體的能力也能快速提升。AI智能體任務時長的指數增長,可能成為人類歷史上最具變革性的趨勢之一。它能在短時間內完成複雜任務,將徹底改變軟體開發、科學研究、醫療診斷等多個領域。例如,一個能夠自主完成月級任務的AI智能體,可以完全自動化軟體工程項目,甚至獨立進行科學研究,從而大幅提高生產效率。這一趨勢也帶來了潛在的社會挑戰。隨著AI智能體能力的快速提升,人類社會可能難以適應這種變化。許多傳統職業可能面臨自動化,人類可能需要轉向更具創造性和策略性的角色。 (新智元)