Memories.ai試圖為未來的AI設備裝上「視覺記憶」。這家由前Meta Reality Labs研究員Shawn Shen和Ben Zhou創立的公司,11月6日發布了其第二代模型——大型視覺記憶模型(Large Visual Memory Model)2.0,並同步宣布與高通達成戰略合作。LVMM 2.0 透過將原始影片轉換為裝置上的結構化內存,對影片進行編碼、壓縮並建立支援亞秒搜尋的索引,讓使用者可以用自然語言提出問題,跳到確切的時刻。與高通的合作也意味著,Memories.ai可以為搭載高通晶片的AI硬件,例如AI眼鏡等可穿戴設備,提供一個本地化的視覺記憶解決方案,讓你的設備能記住你看到過的東西,並隨時幫你找出來。在合作官宣後,我們也和Shawn聊了聊,他們不參與最擁擠、最燒錢的「通用智能」戰場,不負責讓AI「思考」或「理解」記憶的含義,核心只做兩件事:將用戶看到的視覺資訊進行高效“編碼”,並支援快速且精準的“搜尋”。「從第一原理出發,人類構建記憶也是兩塊:第一,編碼器,能夠實時地把我們感知的世界編碼成電信號,儲存在腦子裡;第二,搜索引擎,用來查找回憶,我們做的也是這兩塊。至於搜出來後,怎麼整理、篩選、組成上下文交給大語言模型,Shawn說道。“我們不做推理,也不做很多'記憶'公司在做的上下文工程。我們認為那些工作解決的問題太具體細分了,而我們想做一家AI Infra公司。”這是一個務實的想法,不與Google、OpenAI這樣的龐然大物硬碰硬,也不和Agent公司爭奪垂直領域,而是選擇一個最底層的切口,成為生態鏈上一個不可或缺的“關鍵底層”,但它同樣具有野心——未來無論誰家的Agent和硬體.ai。Shawn是Memories.ai的共同創辦人,他先前在劍橋大學期間主要研究的就是多模態模型——訓練模型去關聯視覺、語言和上下文。博士畢業後他去了Meta Reality Labs繼續做多模態AI研究,去年和同在Meta Reality Labs 的Ben一起創立了Memories.ai。以下為我們與Shawn的對話實錄:編碼模型+搜尋引擎,一家模型+Infra公司矽星人:為什麼選擇「視頻記憶」這個方向?你們似乎是這個領域裡非常少有的玩家。Shawn:我們想做的是真正模擬人的記憶。我一直認為,人的記憶本質上是視覺記憶,回憶的載體是活生生的視覺畫面,而不是文字記憶。所以我們從第一原理出發,決定要做視覺記憶。矽星人:你們的技術路線是怎麼樣的,怎麼建構視覺記憶?Shawn:我們本質上只做兩件事。從第一原理出發,人類建構記憶也是兩塊:第一,我們有一個編碼器(Encoder),能夠即時地把我們感知的世界(透過視訊方式)編碼成電訊號,儲存在腦中;第二,我們有一個搜尋引擎來找回憶。我們做的也是這兩塊:一個編碼模型,把原始的影片轉成結構化資料;一個搜尋引擎,根據使用者的提問,在結構化的資料庫裡找到最相關的資料。我們覺得,未來的編碼模型一定會做得越來越小,甚至一定會做進端側。因為影片需要即時、持續地處理,不像大語言模型,用戶一天只問幾十個問題。未來的機器人需要時時看著世界,這必須在端側處理。如果不在端側,持續上傳到雲端的耗電量會非常大,而且還有隱私問題。矽星人:我體驗了你們的產品,除了核心的影片Chatbot,還有基於海量影片的影片行銷洞察、AI剪輯等等,這些都是你們未來的方向,還是僅僅作為案例範例?Shawn:那些較偏應用層的功能,例如影片剪輯(Video Editor),更多是作為示範案例,之後我們會開源。我們一度想嘗試,但很快就發現想做深非常難,而且沒有必要。因為現在也沒有一家Video Editor Agent 或Video Marketing Agent 公司真正跑出來。我們業務有三塊:to C(或to Prosumer)、to Developer 和to 大B(大客戶)。 to Prosumer 和to Developer 這兩塊,我們的目的不是賺錢,更多是擴大品牌影響力。對於Prosumer,我們的定位是一個一體化視覺平台,使用者可以上傳各種影片來學習和理解。我們後面也會推出連接器(Connector),可以連接到你自己的視訊來源,例如Google Drive 或本地硬碟。對於開發者,我們會開放API。現在已經有許多影片剪輯Agent、影片行銷Agent公司在基於我們的API建立自己的產品。我們自己做的這幾個Agent,其實是作為「參考設計」。對於B端業務,Memories.ai已經吸引了許多企業合作需求,我們會篩選合適的專案進行深度合作。例如安保和監視器中,對房屋周圍情況的記憶,對獨自在家的寵物行為的記憶,舉個例子,你可以問AI,家裡的花瓶是怎麼碎了,然後AI查詢出,是你的小狗在幾點打碎的。所以,我們只專注做兩件事:編碼(Encoding)和為影片優化的搜尋(Search)。我們不做推理(Reasoning),也不做很多所謂「記憶」公司在做的上下文工程。我們認為那些工作解決的問題太具體(Problem Specific)了,而我們想做的是一家Infra公司。矽星人:如果每個垂直領域的記憶都那麼不同,記憶公司該怎麼去處理,都要做的話,是一個很大的挑戰。Shawn:是的。因為記憶,尤其是基於文本的記憶,太場景化了。就算是同樣做客服機器人,你不同需求場景對記憶的處理方式就是不一樣的,上下文也不同,這很難做成一個基礎設施級的產品。而什麼東西能成長得最快?在企業端,就是找到一個痛點,然後找到更多有類似痛點的企業,做成一個SaaS。在消費端,就是輸入輸出(Input-Output)要簡單,一個API 呼叫就結束了,而不是在裡面還要做各種各樣的工作,那樣很難Scale。現在大部分記憶框架,對我來說就是情境工程。而我們做的編碼,是完全獨立於具體問題的,就是怎麼把視頻變成結構化數據;搜索,就是當我在海量的結構化視頻數據裡,有一個當下的任務或查詢時,怎麼搜到最相關的內容。至於這些內容搜出來之後,你怎麼整理、怎麼篩選、怎麼組成上下文餵給大語言模型,這些就是RAG做的事了。當然對於B 端大客戶,我們會提供端到端的方案。矽星人:編碼模型是你們的核心。這個過程中,對影片的結構化處理很複雜,例如對人物、動作、情節、事件的多層拆解。你們的編碼模型和先前的相比,差異在那裡?Shawn:主流視覺模型,例如ViT,把視訊向量和文字向量對齊,用對比學習進行對齊,通常是基於靜態圖片(Image)進行訓練的,這帶來了幾個問題:第一,它不是真正的多模態,只能理解視覺,無法融合音頻等資訊。第二,它無法理解時間概念,因為輸入的是靜態圖片。第三,由於它是跟文字描述做對齊訓練,如果文字裡沒有涵蓋某些概念,模型就永遠學不到。而我們做的是一個世界模型編碼器。它有三大不同:真正的多模態: 能將視覺、音頻等多種信息融合到同一個嵌入空間裡;理解時間與動作: 基於視頻流進行訓練,因此能真正理解動作(Action);自監督學習: 我們尤其在人物、動作和物體的理解上做了大量優化。矽星人:所以本質上你們是一家模型公司。Shawn:對,我們本質上是一家研究驅動的模型公司,一個研究實驗室(Research Lab)。視訊記憶模型的未來在端側矽星人:這一代模型,藉著跟高通合作的契機,做成了能在端側運作的模型,它和第一代模型的關係是什麼?Shawn:它們都是編碼和檢索模型。第二代則做得更小,更多的是尺寸上的差別。矽星人:你認為這類模型,它存在的價值主要是在端側嗎?Shawn:我覺得對於編碼模型來說,在端側非常重要。就像人一樣,視覺訊息是持續不斷進來的。舉個例子,你的手機相冊,大部分人其實不會上傳到雲端做備份。矽星人:那現在它辨識精準度的問題,接下來要如何進一步優化?Shawn:首先,肯定是要在更大的資料上做訓練,模型會變得越來越準。第二,還是要把模型做得更小。我覺得「準」是有一個天花板的,因為我們不是做推理模型。推理模型沒有天花板,可以做得無限聰明。而我們的編碼模型,它的目標就是對視訊訊息做一次無損的重構(lossless reconstruction),最多就是能做到完全轉回去,這就是天花板,可能未來5 到10 年達到。現在更重要的,就是怎麼把模型不斷變小,先在NPU,後面在CPU,再後面在一個更便宜的處理器上就能即時跑。矽星人:跟高通的合作,是第一次把模型放進NPU 或晶片裡嗎?Shawn:對,之前都是在雲端依賴GPU,透過API 呼叫。現在可以直接做端側部署了。矽星人:接下來和高通的合作,會有階段性的部署計畫嗎?Shawn:有。我們現在就在跟他們做共同銷售(Co- sell),一起去服務很多終端廠商客戶,我們也能提供許多新創公司的合作機會。我們做各種各樣的POC(概念驗證),包括未來的一些AI 眼鏡公司。主要的use case 就是手機上的AI 相簿、安防領域的智慧監控,以及AI 助理的端側視覺能力。矽星人:這幾個案例的市場規模,就足夠支撐你們在長線的事情上繼續投入了。Shawn:是的。而我們現在也在做First Party(第一方)的APP,高通也會在這方面支持我們。矽星人:這個事挺重要的。一方面,直接在晶片上跑,速度會天然快很多。另一方面,回顧商業史,行動網路時代的許多大公司,例如字節跳動,最初也是在智慧型手機轉換期透過預先安裝來獲得槓桿。所以這次合作的節點,從這兩個角度看都很重要。是高通主動找到你們的嗎?Shawn:是高通找到我們的。你看現在輝達漲得這麼快,那麼下一個破局點在那裡,很自然就能想到了穿戴式裝置和機器人。這些設備什麼地方需要巨大的算力?就是對視覺資訊的即時處理。矽星人:為什麼現在大廠很少做類似的事?Shawn:我覺得更多的是因為大家現在都在競爭「智能」。 「智能」和「編碼」是兩條完全不同的技術路徑。 「智能」要做的是要有足夠的創造力,而且沒有上限。我們做的“編碼”,是把影片轉成結構化數據,從技術上說,我們需要的創造力是越少越好。這是完全不一樣的訓練方法和技術路徑,最後只會越走越遠,而不會趨同。矽星人:這很有意思。我們來看「記憶」這個領域,包括像DeepSeek OCR 、 Sora出來,外界總是想把它放到多模態的框架裡討論,包括你們也能被歸類到「世界模型」的討論中。但我自己感覺,其實不應該把視覺只是當成一種“模態”,包括你們的思路其實也是把它當作一個更基礎的東西。只是因為這波大語言模型太強了,所有東西都在向token 對齊,但人的記憶可能是基於視覺的,不是基於token 的。Shawn:是的。你看,人思考用文字,所以我們寫公式是用token 的。但是人回憶,永遠是回憶視覺。因為視覺回憶起來夠快、夠準。我現在讓你一字不落地背誦一篇長文可能很難,但讓你回憶幾十年前童年的某個場景,你卻可以很快地回溯出來。因為視覺訊息對於人腦來說,是一個非常容易被儲存和檢索的模態。有了這些視覺訊息之後,你才會去做相關的推理。矽星人:我們知道,像LLM(大語言模型)處理的Token,資料儲存和檢索相對高效,甚至可以用「大力出奇蹟」的暴力方式來處理。但視覺訊息要大得多,將非結構化的視覺訊息轉換成模型能理解的「結構化資料」的過程,是否也意味著它的處理方式與現有LLM完全不同?舉一個更具體的例子:當我回憶童年時,我的人腦並不會像電腦一樣,從2000年到2005年把所有「視訊畫面」都線性地掃描一遍,你們的模型要如何才能實現這種類似人腦的、非線性的視覺記憶檢索?Shawn:對,其實在研究領域大家都很早期。比方說,DeepSeek OCR,他們也開始探索如果拿視覺當作一個Native的Reasoning框架,之後會發生什麼,其實我們也是用這樣的方式去思考的。大語言模式是無監督訓練,去Predict the next token,我們現在做世界模型的Encoder。世界模型不是predict next token,是predict the next frame。矽星人:你的最小單位是frame,裡麵包含了時間等多維度資訊。Shawn:對。創業要找到北極星指標,學會Say No矽星人:所以你們在一個研究上都未成熟的領域,需要去定義問題,同時又要商業化、要融資,技術本身又很新。Shawn:對,在矽谷大家也更認同這一點,就是我們去做一個長期(5到10年)的事。我們現在主要還是把自己定位成一個Research Lab,在長期道路上做正確的事。矽星人:但做這個事情需要資源,你們的資源怎麼去競爭,策略是什麼?Shawn:我們需要三類資源,資料資源、算力資源、人才資源。因為我們做的模型,天生就不需要特別多的算力資源,模型本來就小,編碼模型預先訓練一次花幾百萬美元。所以,對我們更重要的是數據資源和人才資源,我們主要是在這兩方面有一些核心競爭力。矽星人:可以展開講講嗎?比如數據。Shawn:第一,我們平台上有幾萬用戶,上傳了超過百萬的個人影片。第二,我們會透過硬件,專門去做第一人稱視角的視訊資料擷取,這類資料本身就非常稀缺,但我們也累積了大量的資料。第三就是人才資源,我們在矽谷有一定的存在感,是一家人才濃度很高的公司。大家其實都是因為對我們所做的事情有興趣而來的。矽星人:以前在學術界,現在身為CEO,這個轉變感覺怎麼樣?Shawn:挺好的。挑戰很大,每個階段都不同,很多東西體驗了才知道。例如大家都說要保持健康,但只有你真生病了才知道重要。創業也是,大家總說要招最牛的人,真正做了才知道這確實至關重要,不能只招執行力強的人。第二點是要專注,學會說不。新創公司資源永遠有限,怎麼專註一件事,做好優先排序與時序安排。聽別人講和自己上手體驗完全不一樣,我現在是各種環節都得自己上,從產品到市場,到跟客戶交流,企業銷售會議,甚至模型、產品發布的視頻文案都是我做的。矽星人:我們觀察到你的產品思路不斷在改變。例如一開始對Prosumer 端的想像可能野心很大,但試了一下馬上就知道了市場的真實回饋。Shawn:今年三、四月份,我們也覺得影片行銷(Video Marketing)是利用多模態的一個非常好的市場。但試了之後發現不是。我們的技術是理解海量視頻,AI 助理(AI 的記憶)才是我們未來真正想做的方向。像是影片剪輯、影片行銷這些,即使做了,你還得去找更細的切入點,例如是給品牌用還是給個人用,是做有UI 的還是純自然語言互動的。切得越小,跟我們主體方向越遠。所以我們決定這些就作為Demo或Side Project,我們還是會更專注於更長期的事。我們的北極星(North Star)是:做未來所有智能體(機器人、AI 助理等)的記憶系統。只要硬體上有攝影機、內部有AI,我們就為它提供看見、理解並記住世界的能力。矽星人:你現在也依然在大學裡擔任教授,這種給公司和產品的定位能力和學術裡去「定義問題」有點像?Shawn:對,就是一句話概括你要做什麼。定位定義好了,你才知道怎麼打市場,目標客群是什麼。例如我們的目標客戶群一直是創辦人和建構者(Founders and Builders),我們也確實做到了,現在的AI 創業團隊應該都聽過我們。矽星人:你那一句話的定位是什麼?變化過嗎?Shawn:沒太變過。如果用一句話概括,就是「讓AI 看見和記住」(Making AI to see and remember)。另一個是「Large Visual Memory Model」這個詞,它本身就定義了:第一,你是做視覺記憶(Visual Memory)的;第二,你是模型(Model)公司;第三,你是做基礎層(Foundational)工作的。在萬物皆可被記錄的時代,如何「記住」本身,或許比如何「思考」更為根本。(矽星人Pro)