在近日舉辦的2023世界人工智能大會上,AI芯片企業亮點頗多,積極參與這波大模型淘金熱。他們紛紛展示出大模型實力,以及在具體行業和場景落地的示範案例。
其中,上海燧原科技有限公司(以下簡稱燧原科技)打造的燧原曜圖文生圖MaaS平台服務產品讓人眼前一亮。其底層算力由“邃思”系列芯片提供,還涵蓋軟硬件一體的全棧解決方案。
這家成立僅5年的公司,已成為AI芯片賽道的“黑馬”。其背後,離不開騰訊的戰略支持。
“業內沒有,就自己搞一個”
2018年,燧原科技成立不久,騰訊就開始與其開展深度合作,加強人工智能領域雲端算力平台產品和服務等核心業務發展。
复盤來看,騰訊對燧原科技最大的助力是助其商業化落地及讓其芯片項目上雲。近年來,騰訊與燧原科技在國內首次採用“存算分離”架構的芯片仿真混合雲平台項目突圍成功,成為燧原科技第一個上雲的芯片項目。
燧原科技芯片上雲的這一步並不容易。
騰訊雲計算相關專家表示,芯片是一個相對傳統的行業,很多企業部署了較重的線下IDC(互聯網數據中心)資產,遵循著一套標準化的使用流程。但其實,芯片設計在不同階段對算力的需求不同,波動明顯且難以預測。為了突發的需求部署大量的冗餘資源,很不划算。而且,芯片研發需要的是高性能先進計算資源,如果要一直更新機型,負擔很重。
顯然,雲計算的彈性特點能很好滿足芯片設計快速、靈活地獲取海量高性能計算資源的需求。然而,核心知識代碼和流程工藝等數據的安全是重中之重,是芯片企業的命門,上雲是否安全?於是,燧原科技試探性地問:能否把所有的存儲放在本地,在需要彈性算力的環節使用雲?
通常來講,數據中心會將存儲和計算資源部署到一起,但燧原科技需要的是更加徹底的“存算分離”,雲上僅包含計算,所有數據存儲在本地,通過專線遠程訪問。相比起雲上的存算分離,這種架構對網絡時延、帶寬吞吐率和效率的要求都更加嚴苛。
這也是中國國內芯片企業從未實踐過的構想。
“但這個顧慮是燧原科技上雲前最大的障礙,那就必須搞定。業內沒有,就自己搞一個。”騰訊云有關負責人說,隨後的幾個月,騰訊雲、上海速石信息科技有限公司(以下簡稱速石)與燧原科技一起,大膽假設、小心求證,搭建了“存算分離”芯片仿真混合雲平台。
為此,騰訊雲提供足夠多的算力機型,在需要彈性算力時,根據業務作業的不同類型,配置相應的算力資源。速石平台的雲原生調度器,則能不改變用戶的使用習慣,讓使用者無感地調用雲資源,減少上雲的學習成本。為了進一步提高安全性,在傳輸層面,一條連接騰訊雲和燧原科技的超大帶寬專線拉起,保證傳輸通道安全可信。同時,騰訊雲的iOA(智能辦公自動化系統)方案,可確保終端的安全。
芯片仿真混合雲平台於2022年6月正式上線,當年10月,算力達到初始規劃的數倍。
仿真週期縮短30%—50%
算力“爆炸”背後,是一個關鍵的環節——芯片各項功能的一致性驗證。在這一階段,雲平台始終處於高壓狀態,有時候,算力會突然衝到幾萬核——相當於在一瞬間同時拉起數百台大規格的機器,整個系統必須保持高穩定性和實時響應能力。在最激烈的時刻,三方人員進行了長達14天×24小時的輪班值守。
騰訊雲具備豐富多元的裸金屬實例、GPU(圖形處理器)實例,在芯片的仿真驗證和性能對比測試環節,可一站式完成多代次、多卡型的驗證工作,極大提升部署效率和測試效率。
在遠端,騰訊雲越來越多的專家加入,工作群隨時都有總監級研發人員被拉進去提供支持。速石也投入了包括首席架構師在內的大量精銳力量。經過不斷的改進調優,平台最終做到充分的並行作業,在兩分鐘時間裡即能快速完成服務器交付,小時級別完成研發環境交付。
最終,經過16天×24小時值守,他們成功了。
長達8個月的實戰後,燧原科技看到了一張成績單:總體任務並發量通過雲端彈性同步提高,縮短仿真週期30%—50%。未來,燧原科技打算逐步擴大用雲規模,盡量讓使用彈性算力的環節都上雲。(科技日報)
