#Flex
一文讀懂英特爾(Intel)Flex 140顯示卡
在AI時代,大家都在卷大模型訓練,大算力堆疊。但你有沒有想過——99% 的AI工作,其實是推理?訓練只是一次性投入,推理才是源源不斷的算力消耗,尤其在視訊分析、圖像識別、即時推薦等場景中。這時候,一張“訓練不強但推理極卷”的顯示卡就顯得格外重要。它就是——Intel Flex 140。今天,我們就一文帶你讀懂這張專為AI 推理 + 媒體轉碼場景打造的神秘角色👇一 Flex 140 規格參數一覽Flex 系列是 Intel 在 2022 年推出的 資料中心 GPU 產品線,主打 AI 推理 + 媒體處理,Flex 140 是該系列的中端型號。它的設計目標不是和 H100 拼訓練性能,而是要解決如下問題:✅ 即時視訊流的轉碼和處理✅ 多模型 AI 推理負載✅ 低功耗運行、超強並行能力📌 本質上,它是一張“通用推理+媒體”加速卡,定位類似 NVIDIA 的 A10/A2/V100 推理版本。🎯 超小功耗 + 全功能支援,特別適合邊緣伺服器和大規模推理叢集。二 有那些技術亮點?✅ 1. 面向 AI 推理最佳化支援 FP32 / BF16 / INT8 精度通過 OpenVINO™ 工具套件 高效運行 YOLO、ResNet、MobileNet、Transformer 等模型針對多模型/多實例並行最佳化,可在一張卡上跑數十個推理實例✅ 2. 超強視訊編解碼能力支援 AV1 編碼/解碼(比 H.265 更高壓縮效率)同時轉碼 36 路 1080p 視訊流視訊幀中插入 AI 檢測、識別、推薦,邊轉碼邊推理✅ 3. 易部署、易擴展無需外接供電,僅 75W TDP可部署在標準 1U/2U 伺服器中無需風扇,適合密集部署場景三 Flex 140對比NVIDIA A10 / A2 / L4🎯 如果你重視視訊轉碼 + 多實例推理,Flex 140 極具性價比;但如果你已重度依賴 CUDA 生態,NVIDIA 更方便。💡 與 Gaudi 系列有啥關係?Flex 系列不是 Gaudi 的低配版,而是專為推理和視訊打造的“平行支援部隊”。四 適合什麼應用場景?Flex 140 不是用來跑 GPT 的,但它特別適合這些 “落地型 AI + 視訊” 應用場景:📌 它的最大優勢是:一張卡,搞定視訊 + AI 推理 + 多流並行。五 結論Flex 140是Intel推理市場的一把瑞士軍刀,專注“小而強、小而全”的部署場景。在那些“訓不起大模型、但又必須即時推理+轉碼”的應用裡,它是你的最優選擇。 (AI算力那些事兒)
華為AI新技術,揭曉!
華為發佈AI容器技術Flex:ai,透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度,實現AI工作負載與算力資源的匹配,可大幅提升算力利用率。在2025AI容器應用落地與發展論壇上,華為公司副總裁、資料儲存產品線總裁周躍峰博士在論壇上正式發佈AI容器技術-Flex:ai,同時,華為聯合上海交通大學、西安交通大學與廈門大學共同宣佈,將此項產學合作成果向外界開源。本次發佈並開放原始碼的Flex:ai XPU池化與調度軟體,是基於Kubernetes容器編排平台建構,透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度,實現AI工作負載與算力資源的匹配,可大幅提升算力利用率。目前,AI產業高速發展催生海量算力需求,但全球算力資源利用率偏低的問題日益凸顯。有業內人士對《科創板日報》記者表示,業界算力資源的平均使用率僅30%至40%,甚至低於30%。小模型任務獨佔整卡導致資源閒置,大模型任務單機算力不足難以支撐,大量缺乏GPU/NPU的通用伺服器更是處於算力「休眠」狀態。AI時代如何喚醒並有效率地運用算力叢集資源,成為整個產業一大難題。而容器技術作為一種輕量級虛擬化技術,可以將模型程式碼、運行環境等打包成一個獨立的、輕量級的鏡像,實現跨平台無縫遷移。容器還可按需掛載GPU、NPU算力資源,按需分配和回收“資源”,提升叢集整體資源利用率。Gartner的分析師表示,目前AI負載大多已容器化部署和運行,據預測,到2027年,75%以上的AI工作負載將採用容器技術進行部署和運行。在AI容器領域,業界已經有多家企業推出了不同產品。此前,輝達於以7億美元(約合人民幣49.7億元)收購了以色列AI公司Run:ai。這家公司核心產品,正是基於kubernnetes建構的軟體平台,用於調度GPU的運算資源,透過動態調度、池化、分片等技術,實現GPU資源利用率的最佳化,讓深度學習訓練與推理任務在企業級環境中高效運作。本次華為發表並開放原始碼的Flex:ai XPU池化與調度軟體,與Run:ai公司的核心產品相比,在虛擬化、智慧調度等方面實現了突破。具體來看,針對AI小模型訓推場景中「一張卡跑一個任務」的資源浪費問題,華為與上海交通大學聯合研發XPU池化框架,可將單張GPU或NPU算力卡切分為多份虛擬算力單元,切分粒度精準至10%。這項技術實現了單卡同時承載多個AI工作負載,且透過彈性靈活的資源隔離技術,可實現算力單元的按需切分,“用多少,切多少”,使此類場景下的整體算力平均利用率提升30%,提高單卡服務能力。針對大量通用伺服器因缺乏智慧運算單元而無法服務AI工作負載的問題,華為與廈門大學聯合研發跨節點拉遠虛擬化技術。該技術將叢集內各節點的空閒XPU算力聚合形成“共享算力池”,一方面為高算力需求的AI工作負載提供充足資源支撐;另一方面,可讓不具備智能計算能力的通用伺服器通過高速網路,可將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行,從而將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行,從而促進通用計算資源與智能算力。面對算力叢集中多品牌、多規格異構算力資源難以統一調度的痛點,華為與西安交通大學共同打造Hi Scheduler智慧調度器。此調度器可自動感知叢集負載與資源狀態,結合AI工作負載的優先權、算力需求等多維參數,對本地及遠端的虛擬化GPU、NPU資源進行全域最佳調度,實現AI工作負載分時復用資源。周躍峰介紹,Flex:ai的發佈主要希望推動AI平民化。 「先前AI產業化落地的時候,醫院的某一個科室往往買8張卡,最多是16張卡。這樣小叢集就很難進行粗放的GPU或NPU利用和調度。能不能把一張卡虛擬化成多張卡,以更小的算力單元進行調度,讓每一張卡的算力能力釋放出來,讓平民能夠充分化。周躍峰表示,Flex:ai將在發佈後同步開源在魔擎社群中。此外,華為也希望透過開源推動形成以AI容器技術為載體的資源高效利用新範式。開放原始碼的Flex:ai可以在產學研各界開發者的參與下,共同推動異構算力虛擬化與AI應用平台對接的標準建構,形成算力高效利用的標準化解決方案。 (科創板日報)
AI巨頭突發大招!價格腰斬,但背後的真相讓人不寒而慄…..
💥 當大家還在為AI服務高昂的價格發愁時,OpenAI悄悄放出了一個大招!這家AI領域的"霸主"剛剛宣佈推出的Flex處理服務,直接將價格腰斬50%!但等等,這背後隱藏的條件,可能會讓你三思而後行.....想像一下,你正在進行一個關鍵項目,突然系統提示"資源暫時不可用"🚫,這種體驗,你能接受嗎? 📱2025年4月17日,OpenAI正式推出了"Flex處理"服務,這是一種針對其最新發佈的o3和o4-mini推理模型的API選項。乍一看,這簡直是開發者的福音——只需支付原價的一半,就能使用同樣強大的AI模型!但這背後的真相是什麼呢?🤔就像餐廳裡的"經濟套餐"一樣,價格便宜的背後總有其原因。OpenAI明確表示,作為價格降低的交換條件,使用者必須接受"響應時間更慢"和"偶爾資源不可用"的情況。具體來看,o3模型的Flex處理價格為每百萬輸入令牌(約75萬字)5美元,每百萬輸出令牌20美元,而標準價格則是每百萬輸入令牌10美元,每百萬輸出令牌40美元。對於o4-mini模型,Flex處理將價格從每百萬輸入令牌1.10美元和每百萬輸出令牌4.40美元,降至每百萬輸入令牌0.55美元和每百萬輸出令牌2.20美元。💰 這一降價策略背後,是否反映了當前AI行業的激烈競爭?事實上,Flex處理服務的推出恰逢前沿AI成本持續攀升之際,而競爭對手紛紛推出更經濟、更高效的經濟型模型。就在OpenAI宣佈這一消息的同一天,Google推出了Gemini 2.5 Flash,這是一種在性能上匹配甚至超越DeepSeek的R1的推理模型,且輸入令牌成本更低。 📝 OpenAI在向客戶宣佈Flex定價的電子郵件中還表明,使用層級為1-3的開發者(根據在OpenAI服務上的消費金額確定)需要完成新引入的ID驗證流程才能訪問o3模型。o3和其他模型的推理摘要和流式API支援也同樣需要驗證才能使用。OpenAI此前表示,ID驗證旨在阻止不良行為者違反其使用政策。行業專家指出,這種"雙軌定價"策略可能是AI公司在資源有限情況下的必然選擇。一方面需要滿足高優先順序任務的即時需求,另一方面也希望為那些時間不那麼緊迫的任務提供更經濟的選擇。 🌟Flex處理服務主要針對優先順序較低的"非生產"任務,如模型評估、資料豐富和非同步工作負載。換句話說,如果你的項目不要求即時響應,選擇Flex處理可能是一個經濟實惠的選擇。但問題來了:在當今這個"快"就是王道的時代,多少人真正願意為了省錢而犧牲速度和穩定性呢?也許,OpenAI此舉是在測試市場對"差異化服務"的接受度,為未來可能的更廣泛定價策略鋪路。 👥你認為這種"慢一點,省一半"的策略會受到開發者歡迎嗎?如果你是開發者,會選擇標準服務還是Flex處理呢?歡迎在評論區分享你的想法,也請將這篇文章轉發給你的開發者朋友,看看他們的觀點! (澤問科技)