平台企業"燧原科技"助力AI芯片項目上雲！

2023/07/15

•

在近日舉辦的2023世界人工智能大會上，AI芯片企業亮點頗多，積極參與這波大模型淘金熱。他們紛紛展示出大模型實力，以及在具體行業和場景落地的示範案例。

其中，上海燧原科技有限公司（以下簡稱燧原科技）打造的燧原曜圖文生圖MaaS平台服務產品讓人眼前一亮。其底層算力由“邃思”系列芯片提供，還涵蓋軟硬件一體的全棧解決方案。

這家成立僅5年的公司，已成為AI芯片賽道的“黑馬”。其背後，離不開騰訊的戰略支持。

“業內沒有，就自己搞一個”

2018年，燧原科技成立不久，騰訊就開始與其開展深度合作，加強人工智能領域雲端算力平台產品和服務等核心業務發展。

复盤來看，騰訊對燧原科技最大的助力是助其商業化落地及讓其芯片項目上雲。近年來，騰訊與燧原科技在國內首次採用“存算分離”架構的芯片仿真混合雲平台項目突圍成功，成為燧原科技第一個上雲的芯片項目。

燧原科技芯片上雲的這一步並不容易。

騰訊雲計算相關專家表示，芯片是一個相對傳統的行業，很多企業部署了較重的線下IDC（互聯網數據中心）資產，遵循著一套標準化的使用流程。但其實，芯片設計在不同階段對算力的需求不同，波動明顯且難以預測。為了突發的需求部署大量的冗餘資源，很不划算。而且，芯片研發需要的是高性能先進計算資源，如果要一直更新機型，負擔很重。

顯然，雲計算的彈性特點能很好滿足芯片設計快速、靈活地獲取海量高性能計算資源的需求。然而，核心知識代碼和流程工藝等數據的安全是重中之重，是芯片企業的命門，上雲是否安全？於是，燧原科技試探性地問：能否把所有的存儲放在本地，在需要彈性算力的環節使用雲？

通常來講，數據中心會將存儲和計算資源部署到一起，但燧原科技需要的是更加徹底的“存算分離”，雲上僅包含計算，所有數據存儲在本地，通過專線遠程訪問。相比起雲上的存算分離，這種架構對網絡時延、帶寬吞吐率和效率的要求都更加嚴苛。

這也是中國國內芯片企業從未實踐過的構想。

“但這個顧慮是燧原科技上雲前最大的障礙，那就必須搞定。業內沒有，就自己搞一個。”騰訊云有關負責人說，隨後的幾個月，騰訊雲、上海速石信息科技有限公司（以下簡稱速石）與燧原科技一起，大膽假設、小心求證，搭建了“存算分離”芯片仿真混合雲平台。

為此，騰訊雲提供足夠多的算力機型，在需要彈性算力時，根據業務作業的不同類型，配置相應的算力資源。速石平台的雲原生調度器，則能不改變用戶的使用習慣，讓使用者無感地調用雲資源，減少上雲的學習成本。為了進一步提高安全性，在傳輸層面，一條連接騰訊雲和燧原科技的超大帶寬專線拉起，保證傳輸通道安全可信。同時，騰訊雲的iOA（智能辦公自動化系統）方案，可確保終端的安全。

芯片仿真混合雲平台於2022年6月正式上線，當年10月，算力達到初始規劃的數倍。

仿真週期縮短30%—50%

算力“爆炸”背後，是一個關鍵的環節——芯片各項功能的一致性驗證。在這一階段，雲平台始終處於高壓狀態，有時候，算力會突然衝到幾萬核——相當於在一瞬間同時拉起數百台大規格的機器，整個系統必須保持高穩定性和實時響應能力。在最激烈的時刻，三方人員進行了長達14天×24小時的輪班值守。

騰訊雲具備豐富多元的裸金屬實例、GPU（圖形處理器）實例，在芯片的仿真驗證和性能對比測試環節，可一站式完成多代次、多卡型的驗證工作，極大提升部署效率和測試效率。

在遠端，騰訊雲越來越多的專家加入，工作群隨時都有總監級研發人員被拉進去提供支持。速石也投入了包括首席架構師在內的大量精銳力量。經過不斷的改進調優，平台最終做到充分的並行作業，在兩分鐘時間裡即能快速完成服務器交付，小時級別完成研發環境交付。

最終，經過16天×24小時值守，他們成功了。

長達8個月的實戰後，燧原科技看到了一張成績單：總體任務並發量通過雲端彈性同步提高，縮短仿真週期30%—50%。未來，燧原科技打算逐步擴大用雲規模，盡量讓使用彈性算力的環節都上雲。（科技日報）