#Flex | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Flex

邁威爾科技與Flex將被納入標普500！盤後大漲！

本次變動將於6月22日周一美股開盤時生效，屆時Campbell's與Pool Corp將同步從指數中移除。Marvell盤後股價上漲6%，Flex上漲4%。 Marvell Technology Inc（納斯達克：MRVL）在經歷了連續兩天的大幅下跌後，於周五盤後交易中強勢反彈。此前，標普道瓊斯指數公司宣佈了季度再平衡調整方案，Marvell Technology Inc將被納入標誌性的標普500指數。受此消息提振，這家半導體公司的股價在盤後交易中大漲6%。此次納入標普500指數，為Marvell跌宕起伏的一周畫上了句號。本周二，Nvidia首席執行長黃仁勳將Marvell稱為下一家"兆美元公司"，此言一出令其股價一飛衝天。市場熱情隨之高漲，投行Stifel隨即將目標價從$230.00上調至$321.00，分析師Tore Svanberg表示，首席執行長Matt Murphy在台北國際電腦展（Computex）上的主題演講是"一次高規格的再度確認，印證了我們長期以來所堅持的資料基礎設施投資邏輯，與管理層上周在F1Q27業績電話會議上所描繪的財務發展路徑高度契合。" 然而，半導體類股的樂觀情緒在周四急轉直下——競爭對手博通公佈的財報未能達到投資者預期。隨後的獲利了結浪潮將Marvell股價在周五常規交易時段內拖累了16.7%，不過這一跌幅尚未抹去其本周整體28.5%的漲幅。

一文讀懂英特爾（Intel）Flex 140顯示卡

在AI時代，大家都在卷大模型訓練，大算力堆疊。但你有沒有想過——99% 的AI工作，其實是推理？訓練只是一次性投入，推理才是源源不斷的算力消耗，尤其在視訊分析、圖像識別、即時推薦等場景中。這時候，一張“訓練不強但推理極卷”的顯示卡就顯得格外重要。它就是——Intel Flex 140。今天，我們就一文帶你讀懂這張專為AI 推理 + 媒體轉碼場景打造的神秘角色👇一 Flex 140 規格參數一覽Flex 系列是 Intel 在 2022 年推出的資料中心 GPU 產品線，主打 AI 推理 + 媒體處理，Flex 140 是該系列的中端型號。它的設計目標不是和 H100 拼訓練性能，而是要解決如下問題：✅ 即時視訊流的轉碼和處理✅ 多模型 AI 推理負載✅ 低功耗運行、超強並行能力📌 本質上，它是一張“通用推理+媒體”加速卡，定位類似 NVIDIA 的 A10/A2/V100 推理版本。🎯 超小功耗 + 全功能支援，特別適合邊緣伺服器和大規模推理叢集。二有那些技術亮點？✅ 1. 面向 AI 推理最佳化支援 FP32 / BF16 / INT8 精度通過 OpenVINO™ 工具套件高效運行 YOLO、ResNet、MobileNet、Transformer 等模型針對多模型/多實例並行最佳化，可在一張卡上跑數十個推理實例✅ 2. 超強視訊編解碼能力支援 AV1 編碼/解碼（比 H.265 更高壓縮效率）同時轉碼 36 路 1080p 視訊流視訊幀中插入 AI 檢測、識別、推薦，邊轉碼邊推理✅ 3. 易部署、易擴展無需外接供電，僅 75W TDP可部署在標準 1U/2U 伺服器中無需風扇，適合密集部署場景三 Flex 140對比NVIDIA A10 / A2 / L4🎯 如果你重視視訊轉碼 + 多實例推理，Flex 140 極具性價比；但如果你已重度依賴 CUDA 生態，NVIDIA 更方便。💡 與 Gaudi 系列有啥關係？Flex 系列不是 Gaudi 的低配版，而是專為推理和視訊打造的“平行支援部隊”。四適合什麼應用場景？Flex 140 不是用來跑 GPT 的，但它特別適合這些 “落地型 AI + 視訊” 應用場景：📌 它的最大優勢是：一張卡，搞定視訊 + AI 推理 + 多流並行。五結論Flex 140是Intel推理市場的一把瑞士軍刀，專注“小而強、小而全”的部署場景。在那些“訓不起大模型、但又必須即時推理+轉碼”的應用裡，它是你的最優選擇。 (AI算力那些事兒)

華為AI新技術，揭曉！

華為發佈AI容器技術Flex:ai，透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度，實現AI工作負載與算力資源的匹配，可大幅提升算力利用率。在2025AI容器應用落地與發展論壇上，華為公司副總裁、資料儲存產品線總裁周躍峰博士在論壇上正式發佈AI容器技術－Flex:ai，同時，華為聯合上海交通大學、西安交通大學與廈門大學共同宣佈，將此項產學合作成果向外界開源。本次發佈並開放原始碼的Flex:ai XPU池化與調度軟體，是基於Kubernetes容器編排平台建構，透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度，實現AI工作負載與算力資源的匹配，可大幅提升算力利用率。目前，AI產業高速發展催生海量算力需求，但全球算力資源利用率偏低的問題日益凸顯。有業內人士對《科創板日報》記者表示，業界算力資源的平均使用率僅30%至40%，甚至低於30%。小模型任務獨佔整卡導致資源閒置，大模型任務單機算力不足難以支撐，大量缺乏GPU/NPU的通用伺服器更是處於算力「休眠」狀態。AI時代如何喚醒並有效率地運用算力叢集資源，成為整個產業一大難題。而容器技術作為一種輕量級虛擬化技術，可以將模型程式碼、運行環境等打包成一個獨立的、輕量級的鏡像，實現跨平台無縫遷移。容器還可按需掛載GPU、NPU算力資源，按需分配和回收“資源”，提升叢集整體資源利用率。Gartner的分析師表示，目前AI負載大多已容器化部署和運行，據預測，到2027年，75%以上的AI工作負載將採用容器技術進行部署和運行。在AI容器領域，業界已經有多家企業推出了不同產品。此前，輝達於以7億美元（約合人民幣49.7億元）收購了以色列AI公司Run:ai。這家公司核心產品，正是基於kubernnetes建構的軟體平台，用於調度GPU的運算資源，透過動態調度、池化、分片等技術，實現GPU資源利用率的最佳化，讓深度學習訓練與推理任務在企業級環境中高效運作。本次華為發表並開放原始碼的Flex:ai XPU池化與調度軟體，與Run:ai公司的核心產品相比，在虛擬化、智慧調度等方面實現了突破。具體來看，針對AI小模型訓推場景中「一張卡跑一個任務」的資源浪費問題，華為與上海交通大學聯合研發XPU池化框架，可將單張GPU或NPU算力卡切分為多份虛擬算力單元，切分粒度精準至10%。這項技術實現了單卡同時承載多個AI工作負載，且透過彈性靈活的資源隔離技術，可實現算力單元的按需切分，“用多少，切多少”，使此類場景下的整體算力平均利用率提升30%，提高單卡服務能力。針對大量通用伺服器因缺乏智慧運算單元而無法服務AI工作負載的問題，華為與廈門大學聯合研發跨節點拉遠虛擬化技術。該技術將叢集內各節點的空閒XPU算力聚合形成“共享算力池”，一方面為高算力需求的AI工作負載提供充足資源支撐；另一方面，可讓不具備智能計算能力的通用伺服器通過高速網路，可將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行，從而將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行，從而促進通用計算資源與智能算力。面對算力叢集中多品牌、多規格異構算力資源難以統一調度的痛點，華為與西安交通大學共同打造Hi Scheduler智慧調度器。此調度器可自動感知叢集負載與資源狀態，結合AI工作負載的優先權、算力需求等多維參數，對本地及遠端的虛擬化GPU、NPU資源進行全域最佳調度，實現AI工作負載分時復用資源。周躍峰介紹，Flex:ai的發佈主要希望推動AI平民化。「先前AI產業化落地的時候，醫院的某一個科室往往買8張卡，最多是16張卡。這樣小叢集就很難進行粗放的GPU或NPU利用和調度。能不能把一張卡虛擬化成多張卡，以更小的算力單元進行調度，讓每一張卡的算力能力釋放出來，讓平民能夠充分化。周躍峰表示，Flex:ai將在發佈後同步開源在魔擎社群中。此外，華為也希望透過開源推動形成以AI容器技術為載體的資源高效利用新範式。開放原始碼的Flex:ai可以在產學研各界開發者的參與下，共同推動異構算力虛擬化與AI應用平台對接的標準建構，形成算力高效利用的標準化解決方案。（科創板日報）

AI巨頭突發大招！價格腰斬，但背後的真相讓人不寒而慄…..

💥 當大家還在為AI服務高昂的價格發愁時，OpenAI悄悄放出了一個大招！這家AI領域的"霸主"剛剛宣佈推出的Flex處理服務，直接將價格腰斬50%！但等等，這背後隱藏的條件，可能會讓你三思而後行.....想像一下，你正在進行一個關鍵項目，突然系統提示"資源暫時不可用"🚫，這種體驗，你能接受嗎？ 📱2025年4月17日，OpenAI正式推出了"Flex處理"服務，這是一種針對其最新發佈的o3和o4-mini推理模型的API選項。乍一看，這簡直是開發者的福音——只需支付原價的一半，就能使用同樣強大的AI模型！但這背後的真相是什麼呢？🤔就像餐廳裡的"經濟套餐"一樣，價格便宜的背後總有其原因。OpenAI明確表示，作為價格降低的交換條件，使用者必須接受"響應時間更慢"和"偶爾資源不可用"的情況。具體來看，o3模型的Flex處理價格為每百萬輸入令牌（約75萬字）5美元，每百萬輸出令牌20美元，而標準價格則是每百萬輸入令牌10美元，每百萬輸出令牌40美元。對於o4-mini模型，Flex處理將價格從每百萬輸入令牌1.10美元和每百萬輸出令牌4.40美元，降至每百萬輸入令牌0.55美元和每百萬輸出令牌2.20美元。💰 這一降價策略背後，是否反映了當前AI行業的激烈競爭？事實上，Flex處理服務的推出恰逢前沿AI成本持續攀升之際，而競爭對手紛紛推出更經濟、更高效的經濟型模型。就在OpenAI宣佈這一消息的同一天，Google推出了Gemini 2.5 Flash，這是一種在性能上匹配甚至超越DeepSeek的R1的推理模型，且輸入令牌成本更低。 📝 OpenAI在向客戶宣佈Flex定價的電子郵件中還表明，使用層級為1-3的開發者（根據在OpenAI服務上的消費金額確定）需要完成新引入的ID驗證流程才能訪問o3模型。o3和其他模型的推理摘要和流式API支援也同樣需要驗證才能使用。OpenAI此前表示，ID驗證旨在阻止不良行為者違反其使用政策。行業專家指出，這種"雙軌定價"策略可能是AI公司在資源有限情況下的必然選擇。一方面需要滿足高優先順序任務的即時需求，另一方面也希望為那些時間不那麼緊迫的任務提供更經濟的選擇。 🌟Flex處理服務主要針對優先順序較低的"非生產"任務，如模型評估、資料豐富和非同步工作負載。換句話說，如果你的項目不要求即時響應，選擇Flex處理可能是一個經濟實惠的選擇。但問題來了：在當今這個"快"就是王道的時代，多少人真正願意為了省錢而犧牲速度和穩定性呢？也許，OpenAI此舉是在測試市場對"差異化服務"的接受度，為未來可能的更廣泛定價策略鋪路。 👥你認為這種"慢一點，省一半"的策略會受到開發者歡迎嗎？如果你是開發者，會選擇標準服務還是Flex處理呢？歡迎在評論區分享你的想法，也請將這篇文章轉發給你的開發者朋友，看看他們的觀點！ (澤問科技)