當你走入一家剛數位化升級過的商場,可能會發現比以前更容易逛到喜歡的店舖。
你也可能完全沒發現,剛離開的面包店買起來比上次來順手是因為貨櫃轉了90度。
還有可能,到了飯點你跟隨著人流就找到了新的美食。
這些變化的背後,是曾經只會統計人流、監測危險行為的AI攝影機,已經智能到會“算計”商業綜合體。
攝影機的智能升級,又源於視覺AI進入了全新的視訊大模型時代。
視訊大模型,讓AI的能力從小學生等級,躍升為教授級,零售、智能製造、城市管理、環境監測這些已經用上視覺AI的場景,將進入全新的視訊大模型AI時代。
那個最被人熟知的英特爾酷睿CPU和銳炫GPU組合而成的的英特爾視訊AI計算盒,就是進入全新視訊AI時代最容易獲取的鑰匙。
傳統商業綜合體的佈局和管理,依靠的是經驗。比如地下一層是超市餐飲,一層是化妝品、珠寶,二層是女裝、童裝,三層是男裝。
可消費者的習慣在變化,不同地區的消費者的消費偏好也不相同,經驗能發揮的作用在減小,AI的價值越來越明顯。
已經廣泛應用的AI攝影機,能夠統計人流,也可以幫商場的顧客更快找回遺失的物品,但在吸引顧客和提升商場營運方面的效果還不顯著。
生成式AI時代的視訊大模型,讓零售行業的數位化再上一層樓。
北京楓藍國際購物中心副總陳鐵生頗有心得,擁有17年歷史的楓藍國際購物中心,經過了兩次轉型,第二次轉型引入了開域集團的數位化系統,能夠統計商場各個電梯和樓層的客流量,不同樓層的客流特點和消費需求,深入瞭解購物中心消費者對餐飲、零售的偏好程度。
有了更豐富的資料洞察,最佳化商舖佈局,調整商品種類和行銷策略就更加容易。
引入開域集團的數位化系統,楓藍國際購物中心從經驗管理向精細化管理轉變,也帶來了業績的增長,商場活動的到店量增長了兩成,銷售額增長了近三成。購物中心就這樣被生成式AI“算計”了。
能“算計”大型購物中心,視訊大模型也能“算計”店舖、貨架。
連鎖烘焙品牌多樂之日的北京盈科店,也用上開域集團的數位化系統,借助新一代的視訊AI生成的顧客到店動線圖,發現約6成顧客在經過面包櫃後會直接走向緊鄰的收銀台,這導致了三明治櫃檯的顧客相對較少。
營運團隊做了一個簡單的調整,把三明治展櫃轉了90度,順應顧客的動線,持續數天的資料顯示光顧三明治櫃檯的顧客有所增加。
這兩個案例都充分說明,開域集團數位化系統所使用的視訊大模型,與2018年後的新零售所使用的AI,已經發生了革命性改變,視訊大模型有更大的商業價值。
傳統的視覺AI演算法之所以不能像視訊大模型一樣為包括零售在內的應用提供更具價值的資料和建議,主要還是技術存在侷限性。
整合在傳統AI攝影機裡的演算法CNN和RNN,一個能表徵視訊內容,比如地點,人物;另一個能捕捉動態,比如視訊中人物的運動方向、軌跡,難以同時記住一個人以及其運動軌跡。
這就讓傳統AI視覺演算法很難給商場或者面包店提供特定顧客的消費特點,幫助做出營運決策。
視訊大模型的Transformer架構,平衡了內容表徵和視訊的動態,既能記住視訊中特定的人,還能記住這個人運動的軌跡。
這是演算法的革新,傳統的CNN、RNN、LSTM演算法就像是一個還不能觸類旁通的小學生,老師用大量的圖文教小學生知識,比如認識貓,但小學生辨別的時候,只要和老師教過的有明顯不同,就可能識別失敗。
並且傳統的AI演算法的資訊傳遞必須按順序進行,如果傳輸過程很長,資訊會失真或丟失。
所以傳統的AI演算法泛化性差,部署時要配備專業的AI團隊,面向不同場景分別進行訓練和部署,不僅耗費資源和時間,建設周期也極為漫長。
還有一個問題,傳統視訊AI方案要集中式部署,視訊流資料需要借助網路傳輸至後端處理,海量的資料傳輸和資料安全面臨巨大挑戰。
泛化性差和需要集中部署都限制了傳統視覺AI的大規模應用以及商業價值的挖掘。
比傳統AI更進一步的生成式AI,就像是會自監督學習,且觸類旁通的大學生。
與小學生的學習過程截然不同,大學生不依賴老師的經驗進行自主學習,通過學習優質的資料(具有代表性的視訊,配有精準的自然語言描述),比如描述恰當的一隻白色的貓躺在客廳沙發上,和大量質量不那麼好的資料,比如一隻灰色的貓在奔跑的視訊,對應描述是房間,大量學習之後,這個大學生能判斷出是一隻灰色的貓在房間裡奔跑。
Transformer不僅能自監督學習,得益於資訊不需要按順序傳遞,還能根據上下文理解,這打開了視覺AI的新世界,能在更多場景裡完成更多複雜的任務。
比如在購物中心,傳統AI的視訊搜尋侷限於限定關鍵詞,基於視訊大模型的解決方案,直接搜“找出穿白衣服的小男孩”等,很快就能完成搜尋和定位。
得到結果的時間和精準性,很大程度取決於底層的軟硬體。
相比一維的文字,二維的圖像,處理三維的視訊對於處理器有更高的要求,並且視訊大模型出現不久,非常考驗硬體對演算法的快速適配。
全球範圍內廣泛應用的英特爾酷睿CPU和銳炫GPU建構的英特爾視訊AI計算盒,是當下部署視訊大模型不二的選擇。
其中的酷睿CPU處理器在視訊流讀取、資料分析等環節,能夠滿足視訊大模型方案在高速資料處理、電腦視覺和低時延確定性計算上的需求。針對複雜的工作環境,英特爾也對處理器的穩定性和可靠性進行了專門最佳化,保障24小時不間斷工作。
英特爾銳炫顯示卡為視訊大模型中大量的推理任務提供算力支援。微架構中的Xe核心整合高頻寬矩陣引擎XMX,能夠對AI推理中常見的矩陣乘法和累加計算提供基於硬體的性能加速。
算力強大的硬體還不夠,OpenVINO工具套件保證了英特爾視訊AI計算盒能夠快速適配視訊大模型演算法,並實現部署。
OpenVINO工具套件中基於 x86 核心指令集的推理引擎,能使用硬體指令集來加速AI推理。OpenVINO 工具套件還可對計算圖結構進行進一步最佳化,通過提升算子計算平行性等方式,提升視訊大模型方案的推理效率。
開域集團就是借助英特爾視訊AI計算盒的強勁算力,以及OpenVINO工具套件提供AI加速,建構視訊大模型的數位化商場解決方案,將視訊大模型能力有效下沉至包括視覺終端、數字工牌等在內的商場中的各類終端產品。
開域集團CTO趙宇迪說,“使用了銳炫GPU,通過OpenVINO和英特爾oneAPI工具包等工作套件,充分發揮了英特爾銳炫GPU在AI模型推理方面的潛力,使得模型遷移和部署更加簡單快捷,同時大幅提升了模型的推理速度。”
當然,開域集團也會借助英特爾視訊AI計算盒之外更多英特爾強大的軟硬體,充分發揮生成式AI的優勢,為零售、地產、園區等領域提供先進數位化解決方案,幫助使用者解鎖數位化轉型新密碼。
英特爾視訊AI計算盒還有一個非常顯著的優勢——相容現有安防監控系統。
得益於英特爾視訊AI計算盒更具相容性的設計,新方案可以便捷地接入大多數現有的安防監控系統,並快速完成部署和偵錯,比如攝影機只需要一根網線即可完成資料傳輸和電力供給,大幅降低安裝維護難度。
在此基礎上,英特爾視訊AI計算盒的泛化性能實現更豐富的AI功能,支援更廣泛的場景。
開域集團的解決方案是“雲-邊-端”的架構設計,基於邊緣部署的視訊大模型讓系統避免了海量的網路資料傳輸,使AI反應速度更快。
資料在邊緣測的英特爾視訊AI計算盒處理不上傳雲端,也能夠保障資料安全和隱私。
加上開域集團在零售數位化領域的技術積累與豐富經驗,自研的演算法與大模型相結合,不僅能幫助商戶最佳化門店佈局,創新行銷策略,也能顯著提升商場和人員管理的效率。
比如可實現跨鏡完整識別“人”在空間內的行為軌跡,在保障個人隱私安全的前提下,實現客流人數/人次的精準統計,還可以無感分離導購、保安等非顧客行為對客流資料的影響。
不僅能實現流量統計、店舖導覽等常見功能,還能實現店舖吸引力、客流偏好、消費者分析、軌跡與熱力、停留時長、爬樓率等更多維度的資料洞察,從而實現更為精細化的商業營運和管理。
也能通過對消防通道佔用、跌倒識別、非營業時間闖入、員工空崗、玩手機監控以及車流統計等多種情況進行自動化巡檢,幫助商場管理者和商戶降本增效。
視訊大模型擁有強大的泛化能力和自動處理能力,降低在商業綜合體中部署AI的工作量和成本,提高使用者處理突發事件能力,也能在地產零售、生產物流、園區管理以及城市管理等多個行業應用。
倉儲物流園可以通過攝影機、感測器等裝置即時掌握車輛動態,最佳化物流效率消除安全隱患。
智能製造產線可以用視訊大模型方案自動識別裝置故障的早期跡象,提前預警和維護。
解決城市管理中的交通擁堵,視訊大模型也能發揮更大價值,通過對歷史交通視訊資料的學習,掌握交通流量的變化規律並預測未來一段時間內的擁堵情況。
凍結的預訓練大模型就已經能夠實現如此強大的AI功能,接下來視訊大模型仍然會繼續演進,朝著理解更長視訊,適配更豐富的場景的方向發展。 (雷峰網)