#智慧科技
對話Memories.ai:“人的記憶本質上是視覺,AI也該如此”
Memories.ai試圖為未來的AI設備裝上「視覺記憶」。這家由前Meta Reality Labs研究員Shawn Shen和Ben Zhou創立的公司,11月6日發布了其第二代模型——大型視覺記憶模型(Large Visual Memory Model)2.0,並同步宣布與高通達成戰略合作。LVMM 2.0 透過將原始影片轉換為裝置上的結構化內存,對影片進行編碼、壓縮並建立支援亞秒搜尋的索引,讓使用者可以用自然語言提出問題,跳到確切的時刻。與高通的合作也意味著,Memories.ai可以為搭載高通晶片的AI硬件,例如AI眼鏡等可穿戴設備,提供一個本地化的視覺記憶解決方案,讓你的設備能記住你看到過的東西,並隨時幫你找出來。在合作官宣後,我們也和Shawn聊了聊,他們不參與最擁擠、最燒錢的「通用智能」戰場,不負責讓AI「思考」或「理解」記憶的含義,核心只做兩件事:將用戶看到的視覺資訊進行高效“編碼”,並支援快速且精準的“搜尋”。「從第一原理出發,人類構建記憶也是兩塊:第一,編碼器,能夠實時地把我們感知的世界編碼成電信號,儲存在腦子裡;第二,搜索引擎,用來查找回憶,我們做的也是這兩塊。至於搜出來後,怎麼整理、篩選、組成上下文交給大語言模型,Shawn說道。“我們不做推理,也不做很多'記憶'公司在做的上下文工程。我們認為那些工作解決的問題太具體細分了,而我們想做一家AI Infra公司。”這是一個務實的想法,不與Google、OpenAI這樣的龐然大物硬碰硬,也不和Agent公司爭奪垂直領域,而是選擇一個最底層的切口,成為生態鏈上一個不可或缺的“關鍵底層”,但它同樣具有野心——未來無論誰家的Agent和硬體.ai。Shawn是Memories.ai的共同創辦人,他先前在劍橋大學期間主要研究的就是多模態模型——訓練模型去關聯視覺、語言和上下文。博士畢業後他去了Meta Reality Labs繼續做多模態AI研究,去年和同在Meta Reality Labs 的Ben一起創立了Memories.ai。以下為我們與Shawn的對話實錄:編碼模型+搜尋引擎,一家模型+Infra公司矽星人:為什麼選擇「視頻記憶」這個方向?你們似乎是這個領域裡非常少有的玩家。Shawn:我們想做的是真正模擬人的記憶。我一直認為,人的記憶本質上是視覺記憶,回憶的載體是活生生的視覺畫面,而不是文字記憶。所以我們從第一原理出發,決定要做視覺記憶。矽星人:你們的技術路線是怎麼樣的,怎麼建構視覺記憶?Shawn:我們本質上只做兩件事。從第一原理出發,人類建構記憶也是兩塊:第一,我們有一個編碼器(Encoder),能夠即時地把我們感知的世界(透過視訊方式)編碼成電訊號,儲存在腦中;第二,我們有一個搜尋引擎來找回憶。我們做的也是這兩塊:一個編碼模型,把原始的影片轉成結構化資料;一個搜尋引擎,根據使用者的提問,在結構化的資料庫裡找到最相關的資料。我們覺得,未來的編碼模型一定會做得越來越小,甚至一定會做進端側。因為影片需要即時、持續地處理,不像大語言模型,用戶一天只問幾十個問題。未來的機器人需要時時看著世界,這必須在端側處理。如果不在端側,持續上傳到雲端的耗電量會非常大,而且還有隱私問題。矽星人:我體驗了你們的產品,除了核心的影片Chatbot,還有基於海量影片的影片行銷洞察、AI剪輯等等,這些都是你們未來的方向,還是僅僅作為案例範例?Shawn:那些較偏應用層的功能,例如影片剪輯(Video Editor),更多是作為示範案例,之後我們會開源。我們一度想嘗試,但很快就發現想做深非常難,而且沒有必要。因為現在也沒有一家Video Editor Agent 或Video Marketing Agent 公司真正跑出來。我們業務有三塊:to C(或to Prosumer)、to Developer 和to 大B(大客戶)。 to Prosumer 和to Developer 這兩塊,我們的目的不是賺錢,更多是擴大品牌影響力。對於Prosumer,我們的定位是一個一體化視覺平台,使用者可以上傳各種影片來學習和理解。我們後面也會推出連接器(Connector),可以連接到你自己的視訊來源,例如Google Drive 或本地硬碟。對於開發者,我們會開放API。現在已經有許多影片剪輯Agent、影片行銷Agent公司在基於我們的API建立自己的產品。我們自己做的這幾個Agent,其實是作為「參考設計」。對於B端業務,Memories.ai已經吸引了許多企業合作需求,我們會篩選合適的專案進行深度合作。例如安保和監視器中,對房屋周圍情況的記憶,對獨自在家的寵物行為的記憶,舉個例子,你可以問AI,家裡的花瓶是怎麼碎了,然後AI查詢出,是你的小狗在幾點打碎的。所以,我們只專注做兩件事:編碼(Encoding)和為影片優化的搜尋(Search)。我們不做推理(Reasoning),也不做很多所謂「記憶」公司在做的上下文工程。我們認為那些工作解決的問題太具體(Problem Specific)了,而我們想做的是一家Infra公司。矽星人:如果每個垂直領域的記憶都那麼不同,記憶公司該怎麼去處理,都要做的話,是一個很大的挑戰。Shawn:是的。因為記憶,尤其是基於文本的記憶,太場景化了。就算是同樣做客服機器人,你不同需求場景對記憶的處理方式就是不一樣的,上下文也不同,這很難做成一個基礎設施級的產品。而什麼東西能成長得最快?在企業端,就是找到一個痛點,然後找到更多有類似痛點的企業,做成一個SaaS。在消費端,就是輸入輸出(Input-Output)要簡單,一個API 呼叫就結束了,而不是在裡面還要做各種各樣的工作,那樣很難Scale。現在大部分記憶框架,對我來說就是情境工程。而我們做的編碼,是完全獨立於具體問題的,就是怎麼把視頻變成結構化數據;搜索,就是當我在海量的結構化視頻數據裡,有一個當下的任務或查詢時,怎麼搜到最相關的內容。至於這些內容搜出來之後,你怎麼整理、怎麼篩選、怎麼組成上下文餵給大語言模型,這些就是RAG做的事了。當然對於B 端大客戶,我們會提供端到端的方案。矽星人:編碼模型是你們的核心。這個過程中,對影片的結構化處理很複雜,例如對人物、動作、情節、事件的多層拆解。你們的編碼模型和先前的相比,差異在那裡?Shawn:主流視覺模型,例如ViT,把視訊向量和文字向量對齊,用對比學習進行對齊,通常是基於靜態圖片(Image)進行訓練的,這帶來了幾個問題:第一,它不是真正的多模態,只能理解視覺,無法融合音頻等資訊。第二,它無法理解時間概念,因為輸入的是靜態圖片。第三,由於它是跟文字描述做對齊訓練,如果文字裡沒有涵蓋某些概念,模型就永遠學不到。而我們做的是一個世界模型編碼器。它有三大不同:真正的多模態: 能將視覺、音頻等多種信息融合到同一個嵌入空間裡;理解時間與動作: 基於視頻流進行訓練,因此能真正理解動作(Action);自監督學習: 我們尤其在人物、動作和物體的理解上做了大量優化。矽星人:所以本質上你們是一家模型公司。Shawn:對,我們本質上是一家研究驅動的模型公司,一個研究實驗室(Research Lab)。視訊記憶模型的未來在端側矽星人:這一代模型,藉著跟高通合作的契機,做成了能在端側運作的模型,它和第一代模型的關係是什麼?Shawn:它們都是編碼和檢索模型。第二代則做得更小,更多的是尺寸上的差別。矽星人:你認為這類模型,它存在的價值主要是在端側嗎?Shawn:我覺得對於編碼模型來說,在端側非常重要。就像人一樣,視覺訊息是持續不斷進來的。舉個例子,你的手機相冊,大部分人其實不會上傳到雲端做備份。矽星人:那現在它辨識精準度的問題,接下來要如何進一步優化?Shawn:首先,肯定是要在更大的資料上做訓練,模型會變得越來越準。第二,還是要把模型做得更小。我覺得「準」是有一個天花板的,因為我們不是做推理模型。推理模型沒有天花板,可以做得無限聰明。而我們的編碼模型,它的目標就是對視訊訊息做一次無損的重構(lossless reconstruction),最多就是能做到完全轉回去,這就是天花板,可能未來5 到10 年達到。現在更重要的,就是怎麼把模型不斷變小,先在NPU,後面在CPU,再後面在一個更便宜的處理器上就能即時跑。矽星人:跟高通的合作,是第一次把模型放進NPU 或晶片裡嗎?Shawn:對,之前都是在雲端依賴GPU,透過API 呼叫。現在可以直接做端側部署了。矽星人:接下來和高通的合作,會有階段性的部署計畫嗎?Shawn:有。我們現在就在跟他們做共同銷售(Co- sell),一起去服務很多終端廠商客戶,我們也能提供許多新創公司的合作機會。我們做各種各樣的POC(概念驗證),包括未來的一些AI 眼鏡公司。主要的use case 就是手機上的AI 相簿、安防領域的智慧監控,以及AI 助理的端側視覺能力。矽星人:這幾個案例的市場規模,就足夠支撐你們在長線的事情上繼續投入了。Shawn:是的。而我們現在也在做First Party(第一方)的APP,高通也會在這方面支持我們。矽星人:這個事挺重要的。一方面,直接在晶片上跑,速度會天然快很多。另一方面,回顧商業史,行動網路時代的許多大公司,例如字節跳動,最初也是在智慧型手機轉換期透過預先安裝來獲得槓桿。所以這次合作的節點,從這兩個角度看都很重要。是高通主動找到你們的嗎?Shawn:是高通找到我們的。你看現在輝達漲得這麼快,那麼下一個破局點在那裡,很自然就能想到了穿戴式裝置和機器人。這些設備什麼地方需要巨大的算力?就是對視覺資訊的即時處理。矽星人:為什麼現在大廠很少做類似的事?Shawn:我覺得更多的是因為大家現在都在競爭「智能」。 「智能」和「編碼」是兩條完全不同的技術路徑。 「智能」要做的是要有足夠的創造力,而且沒有上限。我們做的“編碼”,是把影片轉成結構化數據,從技術上說,我們需要的創造力是越少越好。這是完全不一樣的訓練方法和技術路徑,最後只會越走越遠,而不會趨同。矽星人:這很有意思。我們來看「記憶」這個領域,包括像DeepSeek OCR 、 Sora出來,外界總是想把它放到多模態的框架裡討論,包括你們也能被歸類到「世界模型」的討論中。但我自己感覺,其實不應該把視覺只是當成一種“模態”,包括你們的思路其實也是把它當作一個更基礎的東西。只是因為這波大語言模型太強了,所有東西都在向token 對齊,但人的記憶可能是基於視覺的,不是基於token 的。Shawn:是的。你看,人思考用文字,所以我們寫公式是用token 的。但是人回憶,永遠是回憶視覺。因為視覺回憶起來夠快、夠準。我現在讓你一字不落地背誦一篇長文可能很難,但讓你回憶幾十年前童年的某個場景,你卻可以很快地回溯出來。因為視覺訊息對於人腦來說,是一個非常容易被儲存和檢索的模態。有了這些視覺訊息之後,你才會去做相關的推理。矽星人:我們知道,像LLM(大語言模型)處理的Token,資料儲存和檢索相對高效,甚至可以用「大力出奇蹟」的暴力方式來處理。但視覺訊息要大得多,將非結構化的視覺訊息轉換成模型能理解的「結構化資料」的過程,是否也意味著它的處理方式與現有LLM完全不同?舉一個更具​​體的例子:當我回憶童年時,我的人腦並不會像電腦一樣,從2000年到2005年把所有「視訊畫面」都線性地掃描一遍,你們的模型要如何才能實現這種類似人腦的、非線性的視覺記憶檢索?Shawn:對,其實在研究領域大家都很早期。比方說,DeepSeek OCR,他們也開始探索如果拿視覺當作一個Native的Reasoning框架,之後會發生什麼,其實我們也是用這樣的方式去思考的。大語言模式是無監督訓練,去Predict the next token,我們現在做世界模型的Encoder。世界模型不是predict next token,是predict the next frame。矽星人:你的最小單位是frame,裡麵包含了時間等多維度資訊。Shawn:對。創業要找到北極星指標,學會Say No矽星人:所以你們在一個研究上都未成熟的領域,需要去定義問題,同時又要商業化、要融資,技術本身又很新。Shawn:對,在矽谷大家也更認同這一點,就是我們去做一個長期(5到10年)的事。我們現在主要還是把自己定位成一個Research Lab,在長期道路上做正確的事。矽星人:但做這個事情需要資源,你們的資源怎麼去競爭,策略是什麼?Shawn:我們需要三類資源,資料資源、算力資源、人才資源。因為我們做的模型,天生就不需要特別多的算力資源,模型本來就小,編碼模型預先訓練一次花幾百萬美元。所以,對我們更重要的是數據資源和人才資源,我們主要是在這兩方面有一些核心競爭力。矽星人:可以展開講講嗎?比如數據。Shawn:第一,我們平台上有幾萬用戶,上傳了超過百萬的個人影片。第二,我們會透過硬件,專門去做第一人稱視角的視訊資料擷取,這類資料本身就非常稀缺,但我們也累積了大量的資料。第三就是人才資源,我們在矽谷有一定的存在感,是一家人才濃度很高的公司。大家其實都是因為對我們所做的事情有興趣而來的。矽星人:以前在學術界,現在身為CEO,這個轉變感覺怎麼樣?Shawn:挺好的。挑戰很大,每個階段都不同,很多東西體驗了才知道。例如大家都說要保持健康,但只有你真生病了才知道重要。創業也是,大家總說要招最牛的人,真正做了才知道這確實至關重要,不能只招執行力強的人。第二點是要專注,學會說不。新創公司資源永遠有限,怎麼專註一件事,做好優先排序與時序安排。聽別人講和自己上手體驗完全不一樣,我現在是各種環節都得自己上,從產品到市場,到跟客戶交流,企業銷售會議,甚至模型、產品發布的視頻文案都是我做的。矽星人:我們觀察到你的產品思路不斷在改變。例如一開始對Prosumer 端的想像可能野心很大,但試了一下馬上就知道了市場的真實回饋。Shawn:今年三、四月份,我們也覺得影片行銷(Video Marketing)是利用多模態的一個非常好的市場。但試了之後發現不是。我們的技術是理解海量視頻,AI 助理(AI 的記憶)才是我們未來真正想做的方向。像是影片剪輯、影片行銷這些,即使做了,你還得去找更細的切入點,例如是給品牌用還是給個人用,是做有UI 的還是純自然語言互動的。切得越小,跟我們主體方向越遠。所以我們決定這些就作為Demo或Side Project,我們還是會更專注於更長期的事。我們的北極星(North Star)是:做未來所有智能體(機器人、AI 助理等)的記憶系統。只要硬體上有攝影機、內部有AI,我們就為它提供看見、理解並記住世界的能力。矽星人:你現在也依然在大學裡擔任教授,這種給公司和產品的定位能力和學術裡去「定義問題」有點像?Shawn:對,就是一句話概括你要做什麼。定位定義好了,你才知道怎麼打市場,目標客群是什麼。例如我們的目標客戶群一直是創辦人和建構者(Founders and Builders),我們也確實做到了,現在的AI 創業團隊應該都聽過我們。矽星人:你那一句話的定位是什麼?變化過嗎?Shawn:沒太變過。如果用一句話概括,就是「讓AI 看見和記住」(Making AI to see and remember)。另一個是「Large Visual Memory Model」這個詞,它本身就定義了:第一,你是做視覺記憶(Visual Memory)的;第二,你是模型(Model)公司;第三,你是做基礎層(Foundational)工作的。在萬物皆可被記錄的時代,如何「記住」本身,或許比如何「思考」更為根本。(矽星人Pro)
《和亞智慧突破光學對位技術 搶進全球AR眼鏡供應鏈》今年4月掛牌興櫃的和亞智慧科技(股票代號:7825),市場傳出已接獲美系客戶國際訂單,由和亞智慧(7825)自主開發的自動化光學對位(Active Alignment, AA)系統, 為AR眼鏡實現高解析度、亮度均勻與沉浸式體驗,據悉該美系客戶已在日前發表新一代的智慧眼鏡,並計畫自2026年起,每年生產1000萬副智慧眼鏡。AR智慧眼鏡開始吹起消費市場新一波浪潮,為近期消費性電子產品上的創新突破,這類產品不僅能將虛擬影像疊加於現實世界,還結合即時互動、語音控制與環境感知功能,能為使用者帶來沉浸且直覺的數位體驗,而其中微型投影是AR眼鏡的關鍵核心技術。自動化光學對位突破 搶攻全球AR眼鏡供應鏈目前市場上的AR眼鏡多採用微型投影技術,核心在於將影像精準投射至眼前的光學模組,任何細微誤差都可能造成影像模糊、亮度不均、色彩偏差,甚至投影錯位,進而影響產品品質與使用體驗。而和亞智慧的自動化光學對位(Active Alignment, AA)解決方案,能透過多軸高精度平台與即時光學回饋演算法,主動修正組裝過程中的微小誤差,確保光源、LCOS或uLED面板與光學組件達到最佳匹配,並已累積多項發明專利,進一步鞏固了和亞智慧在 AR領域的光學檢測以及精密對位技術的技術壁壘。和亞智慧長期深耕光學、影像與AI領域已逾20年,自動化光學技術已取得多項專利,並成功應用於AR眼鏡,近期陸續接獲國際AR產品專案訂單,再次驗證其技術實力與市場信任,和亞智慧預計於2026年申請上櫃,隨著虛實融合應用生態系逐步擴展,公司在AR光學技術領域的深厚實力與持續創新,將有望在新興科技市場中扮演更加關鍵的角色。
把國產劇賣到非洲,80後小夥衝進福布斯榜
5月,2025福布斯中國人工智慧科技企業TOP50榜單發佈,“趣丸科技”在其中的顯眼,不單單因為它是廣州唯一一家上榜的企業,還因為它很“臉生”。搜尋這家公司,它更被熟悉的身份,是以興趣(遊戲)社交、電競為招牌的一家網際網路“中廠”。實際上,趣丸科技在AI領域動作頻頻。去年,趣丸先後推出“音訊大模型”MaskGCT和“音樂大模型”天譜樂,兩個模型初步證明了趣丸的AI能力。今年,趣丸在社交大模型上也有所探索,預備在“AI+社交”的賽道上拿出“殺手鐧”。AI領域高手如雲,一家多年耕耘細分領域的網際網路公司何以闖入,以至“榜上有名”?趣丸科技/受訪者供圖南風窗近日專訪了趣丸科技創始人宋克,他講述的,不只是一個網際網路公司“轉型”的故事,更是一個有十多年履歷的創業老兵對AI時代的理解與思考。不難發現,趣丸推出的模型,針對的依然是細分領域,音訊、音樂、社交等等。比起那些高呼生產力、揚言要“顛覆底層邏輯”的大模型公司或者“AI原生”公司,似乎是不務正業。宋克告訴南風窗,這背後關係到對AI能力及其商業化邏輯的思考,趣丸的“玩物喪志”,是有意而為。AI必然要改變世界,但改變的方式還不一定。風起至今,“小龍”“小虎”們幾起幾落,市場冷靜後,發現追求“革命性的顛覆”既非坦途,也不是唯一的路。1 從X到AI中國大部分AI創企的故事,要從2023年前後、也即ChatGPT“出圈”後講起,但趣丸的“轉型”時間更早。2021年,在“語音+社交”領域站穩的趣丸,一度陷入焦慮。“我們在移動網際網路的新產品,都敗了。”宋克直白地說,那個時期,公司發現不管那一個賽道,都已經有巨頭把持,難再入局。因此,趣丸內部開會探討,要做一家怎樣的公司並持續創新?宋克平頭,微胖,“80後”,曾經是個“網癮少年”。趣丸做興趣(遊戲)社交,擁有四支電競隊伍,用他的話說,是“把興趣做成了事業”。追問他自認為的高光時刻,他說出兩個,都與遊戲相關:一個是在2013年9月到10月,他剛到廣州創業一兩個月,在第一個月賺到29萬,“真的是(靠)打遊戲賺到了錢啊”,他加重語氣強調;另一個仍是創業初期,那是趣丸的遊戲社交應用“TT語音”使用者達到30萬人的一刻,從此團戰叫人不再麻煩,也不用多花簡訊費用,“太開心了”,宋克講道。TT語音曾經的品牌代言人為楊超越有這樣的經歷,宋克把“興趣創造價值”作為了趣丸的價值主張;他也會在公司裡強調,時下年輕人流行什麼,大家就一定要去研究和嘗試,“用好奇心保持活力”。回到2021年,趣丸內部討論過後,成立了一個叫“X”的項目組。宋克說,這是個探索技術的團隊,對他們沒有KPI及任何的考核,也不設定盈利目標,任務只是去調研市場上最新的技術,項目組有十幾個人,“不能說是技術很牛的人,但一定是對技術很有興趣和追求的人”。宋克的想法是,既然使用者的需求已經被解決了,那麼趣丸能做的,是找到新的技術再“反攻”。這表明,趣丸針對的還是“老的”網際網路市場,只是在探索過程中,發現一些需求只能由AI來滿足,或者AI能夠更好地滿足。2021年,OpenAI的GPT-3已經震驚AI圈內,但大模型還不是一門顯學。趣丸一開始的探索,也不是衝著AI去的。OpenAI的GPT-4o模型評估“大事都是從一個很小的點開始。”宋克說。趣丸拿住了語音賽道,但短影片明顯正在升溫,宋克想到,很多聲音好聽的人,不一定希望以真人形象出鏡,“我們當時想到直播時,把主播的臉換成動漫臉這樣的技術”。2021年、2022年,“換臉”還不像今天這樣普遍。但是技術攻克下來,產品上線以後,使用者不買帳。使用者會覺得,換臉的主播一定不好看,不然為什麼換臉呢?於是,這項技術就被擱置起來。2023年,元宇宙爆火,讓宋克靈光一閃。元宇宙打造的“數字孿生”,把真人數位化,實質也是換臉,只不過是把真人臉換成同一張數字人臉。“我們儲備好了這項能力,甚至所有工程都不用再開發。”宋克說,於是趣丸快速切入,成為美團數字人直播的第一家技術提供商。入局以後,關於聲音的技術問題自然浮出。數字人直播早期,可選音色少,語音複製也很粗糙,更關鍵的是,虛擬的聲音“機器味”太重,“說話沒有人味”,觀眾自然不愛看。數字人直播早期並不受歡迎此時,大模型已憑藉對自然語言的理解能力大為火熱,宋克想到,越過“恐怖谷”的最好辦法,可能是將大模型對文字的理解與輸出能力,平移到語音領域。這就是趣丸“音訊大模型”MaskGCT的序章,也是趣丸轉型AI的脈絡。如今的X項目組改名為人工智慧事業部。宋克在採訪中一直強調,趣丸不是為了AI而AI,而是在發現使用者需求與解決問題的邏輯下,順其自然。2 AI前後,同與不同宋克還記得ChatGPT帶來的震撼,它把AI分出前後兩個時代。趣丸最開始做數字人的時候,用的是傳統建模技術,“特別麻煩”。宋克說,過程中用到很多相機,對一個人拍個半天,這人還要說很多的話,才能做出來。類似的效果,在大模型時代只需說一句話。ChatGPT以前也有AI,“那時候演算法+規則,我們就叫AI了”。宋克用趣丸旗下產品“唱鴨”的歌曲生成為例,“演算法+規則”時期,和今天一樣輸入歌詞,也能得到一首歌,但“生成”過程由程式設計好的規則來定,什麼曲風,用什麼調,供使用者挑選,“真的是人工加智能”。宋克笑道。接觸了ChatGPT不久,宋克認為,生成式AI是未來最大的一個機會,趣丸要變了。生成式AI將會是未來最大的一個機會“生成式AI不是每一首歌都比演算法+規則機制的好,但是它的上限很高、下限很低,這是最大的不同。”宋克說。趣丸意識到,趣丸一定要變化,一定要開始去積累資料,要自己下手訓大模型。公司一把手的“行動力”和“決心”,要從預算上來體現。宋克介紹,趣丸並不是一家激進的公司,主營業務的成本很高,但這成本投下去,看得到營收。“平時團隊花錢是很摳門的,預算的審批也很慢。”他坦言道。但他這次變了風格。“我當時逼著團隊報預算。”宋克回憶說,每個部門都要報預算,要多少張卡、多少機器,“一次性批掉”,接著公司去找各個雲算力廠商談檔期,爭取算力。因為反應快,2023年後一段時間顯示卡與算力的緊張,沒對趣丸造成什麼影響。宋克列舉了一項資料,“2024年,花在(訓模型)這方面的預算就有1.45億”,這對趣丸來說是一筆很大的花銷。趣丸科技數字人/受訪者供圖砸下重金,宋克看中的是大模型與應用的先發優勢。數字人直播賣貨,其效果受制於它的資料積累。“大家都做數字人直播,技術很快就能追平,但是我的數字人已經賣了幾年的貨,資料積累多,銷售資料高,對一個商家來說該選擇誰,這是很明顯的。”宋克說。資料的“護城河”,疊加強化學習帶來的先發優勢,是AI與移動網際網路時代的一大區別。宋克表示,在過去,產品可以直接抄襲,比拚財力、規模,比講故事的能力,但這在AI時代就不一定行得通了。下了決心,不代表沒有煎熬。作為“創業老兵”的宋克,也不住地感嘆創業難。訓模型需要時間,做產品也需要時間,而且加起來時間不短,“重金”砸下去了,聽不見響。“又激動又焦慮,(創業)就是這個狀態。”模型能不能訓出來,訓出來後好不好用,應用側能不能掙到錢……沒有答案。趣丸作為老牌“中廠”,天然傾向於確定性高的事情,但宋克認為:“闖入AI,一切是未知的,可能會死。但你自己知道,如果不去做,你將來就等死。”3 把國產短劇搬到非洲2024年,趣丸的音訊大模型MaskGCT和音樂大模型 “天譜樂”問世。宋克說,趣丸是幸運的,訓出的模型能用、好用,如天譜樂,在當時已經十分接近行業領先的Suno的模型能力。在MaskGCT項目立項前半年,2024年初,宋克已經想好模型的定位,七個字“情感情緒多語種”。這七個字的意思是,模型輸出的聲音有感情,能理解並表現情緒,而“多語種”是考慮到未來的出海,比如短劇的出海,把中文改為多語種,更適應海外傳播。宋克沒有把這解釋成自己的洞見,他解釋說,這背後其實是老老實實的網際網路思維——去發現使用者的需求。七個字代表的,就是他們當時看到的使用者痛點。而創業有未知的風險,也有未知的驚喜。宋克介紹,有在非洲做影視發行的中國商人找上來,表示有一個需求,在當前的中國其他公司可能解決不了。在非洲通用兩個語種,英語和法語,但是非洲人愛看韓劇,於是發行人把韓劇“搬”到非洲,中間還需要跨越韓語到中文,中文再翻成英、法文,效率不高,成本不低。非洲人愛看韓劇和中國短劇剛好,這事兒MaskGCT能做。“他們也沒想到,把韓語台詞直接改為英語、法語的需求,居然可以由一家中國公司解決。”宋克說。強調解決需求的“產品力”,超過了強調大模型的能力,是趣丸與一眾AI公司的不同。這可能跟趣丸的 “出身”是網際網路有關。天譜樂大模型就是一個典型例子。去年9月,趣丸推出天譜樂,公司高層介紹時,對天譜樂的一句話生成、圖片及視訊生成配樂等“普通人玩法”面面點到,但更大篇幅介紹的是MidiRender,一種針對音樂人嚴肅創作的“專業玩法”。宋克介紹天譜樂時也提到MidiRender,它能以音樂人創造的旋律為底本,在生成時接受嚴格控制,並且是在音軌、音階、採樣率等方面的精細化控制。效果上,“音樂人可能以前要用一個月製作的歌,現在一個小時可能就出來了”。天譜樂AI宋克的邏輯清楚明了:“小白要玩音樂,天譜樂的能力也是有的、可以滿足,但普通人更多是嘗鮮玩下,嘗過以後就算了,是低頻的。對音樂人來說,這是他的工作,他才是高頻使用者。”宋克解釋,因此在商業化的角度,應該圍繞音樂人、創作者去打造產品。瞭解使用者是誰、發現使用者需求,再去為他們提供輔助、解決問題,這是宋克的思維習慣。這習慣的另一面是,他對一款應用是否是“AI原生”,或者趣丸是不是一家AI公司的問題,並無執著。作為網際網路創業者,宋克懂得“行規”,一些酷炫的概念或材料,比如“超強AI”“原生AI”,又或是“勤於打榜”,前綴定語很長的某個“第一”,其實目的很“複雜”。他特別提到,“很多早期的模型公司,我很不認可他們講的這個那個模型的能力有多強,就能夠掙多少多少錢”。模型能力與盈利收入不一定成正比講模型能力的有很多,但很少有人講的是,這個產品是給誰、提供了什麼樣的價值,以及基於這個價值的商業化該怎麼做,那麼,其實“從模型到所有的前置設定,都是不成立的”。模型能力與價值、商業化,混為一談是不行的,這是宋克作為商人的基本嗅覺。價值主張上,趣丸團隊也有明顯的不同,即不追求“AI替代人類”。從天譜樂到MaskGCT的主打功能上,其實不難發現這一取向。宋克承認了這一點,並稱一位趣丸同事的話很讓他認同,這句話是“AI時代,演算法是犀利,但重要的是人,因為洞察與熱愛永遠不會被替代”。在硬科技領域,這句話顯得“雞湯”,但是不妨一嘗。4 元年之年AI會怎樣改變人類社會呢?宋克也想知道答案。對於趣丸的定位,他想得很清楚,“趣丸是一家擁有AI能力的公司”,以人的需求為核心,提供輔助,也提供娛樂消遣。度過了網際網路時代,對趣丸能否在AI時代“活下來”的問題,他倒回答得很豁達,自稱對過程在意,對結果不在意。無論結果,“至少不要在30年之後,說什麼當年我要是去幹了AI會怎麼怎麼樣這樣的話題”。AI圈內喜歡“元年”的說法。2023年是“大模型元年”,2024年是“智能體元年”,2025年則被稱為“應用元年”。今年元旦,宋克是在美國矽谷度過的,他笑道,當天喝了點酒,他也發了個“應用元年”云云的朋友圈。“應用元年”過半,AI元年真的遍地開花了嗎?宋克認為,是的。他的依據是,當下大模型概念已經足夠普及,其實圈內也不會再在模型層面去強調能力了。人們已經在大量地使用AI工具和產品,而這一趨勢正在擴大AI公司的營收。AI音樂創作秀《譜夢行》通過“天譜樂AI”與兩位唱作型歌手ICE楊長青、上上的精彩合作/受訪者供圖應用元年的關鍵,在於怎麼理解 “應用”。宋克的思維並不 “守舊”,他認為,“應用”在AI時代並不是指APP,“應用元年”的意思是,AI的能力真的被拿到各行各業、並且被大量的人使用。這個角度上,應用元年已經成了。一個明顯趨勢是,使用AI的人越來越多。宋克帶有玩笑性質地說,到2026年,可能是應用爆發年,各家做成了產品商業化的公司,開始有更多的收入,佈局更多的場景,良性循環起來。這樣的元年是宋克所期待的。此次採訪的第一個問題是,“福布斯中國”的榜單上,趣丸何以成為唯一上榜的廣州公司?宋克回答,不是趣丸做得多好,是廣州創業者的氣質相對務實,所以在強調大模型的時期顯得低調。但是,“應用端慢慢爆發的時候,廣州上榜的企業會越來越多,因為我們這裡做的事更偏向於使用者端、應用端,務實的事情。我覺得這個時間窗口已經非常臨近了”。 (鹽財經)
【Computex】Fortune雜誌─全球晶片巨頭正迎來人工智慧行業的關鍵節點
全球半導體晶片巨頭本周將齊聚台灣頂級科技博覽會,展示人工智慧主導產業“下一個前沿”。圖片來源:視覺中國輝達首席執行黃仁勳(Jensen Huang)在周一[台北國際電腦展(Computex)前夕]發表主題演講,此時科技行業正面臨美國關稅衝擊和供應鏈中斷的雙重挑戰。這場為期四天的活動將吸引全球電腦和晶片企業匯聚於此,其半導體產業對從iPhone到運行ChatGPT的伺服器等所有產品的生產都至關重要。台灣生產全球大部分最先進的晶片,包括最強大的人工智慧應用和研究所需的晶片。黃仁勳上周五在台北對記者表示:“我將披露諸多令人驚喜的消息。”“我們處於技術生態系統的核心,這裡有許多合作夥伴,期待共同宣佈諸多合作項目、新項目、新技術和新倡議。”來自高通(Qualcomm)、聯發科技(MediaTek)和富士康(Foxconn)的高管也將在台北國際電腦展上發表演講,屆時,將人工智慧從資料中心融入筆記型電腦、機器人和汽車的技術進展將成為焦點。專業研究公司Counterpoint在一份報告中指出:“從驅動更智能個人裝置的代理式人工智慧到重塑自動化的物理人工智慧,本屆展會勾勒出下一個前沿領域圖景。”技術專家保羅·余(Paul Yu)告訴法新社,該行業正處於人工智慧硬體發展的“關鍵節點”。智璞產業趨勢研究所(Witology Markettrend Research Institute)的保羅·余表示:“過去兩年半來,大量投資推動了人工智慧技術的飛速發展。”“2025年至2026年將是人工智慧模型訓練向盈利性應用轉型的關鍵時期。”“台灣將繼續蓬勃發展”專業平台TechInsights的埃裡克·史密斯(Eric Smith)表示,雖然美國關稅政策是該行業面臨的頭號難題,但大多數台北國際電腦展參展企業“選擇迴避直接討論關稅議題,因為形勢存在高度不確定性”。上月,美國政府宣佈對半導體技術進口開展國家安全審查,此舉或使該行業成為唐納德·川普總統貿易大棒的攻擊目標,並可能面臨極具破壞性的關稅衝擊。自1月上任以來,川普威脅要對美國眾多主要貿易夥伴加征高額關稅,迫使企業將生產線遷回美國本土。依賴出口貿易的台灣已承諾擴大對美投資,以避免其對美出口產品被徵收32%的關稅。但人們擔心台灣可能會失去晶片領域的主導地位——即所謂的“矽盾”,這一地位不僅是其抵禦中國大陸入侵或封鎖的屏障,也是美國提供安全承諾的動因。晶片代工巨頭台積電(TSMC)已宣佈計畫在既有650億美元投資基礎上,再向美國追加1000億美元。台積電供應商環球晶圓(GlobalWafers)上周也宣佈,將在美國德克薩斯州新建晶圓廠,並計畫追加40億美元以擴大對美投資。但上周五,當被問及關稅對台灣的影響時,黃仁勳展現出積極態度,稱台灣將“繼續保持技術生態系統的核心地位”。“這裡有這麼多具備敏銳洞察力的公司,有如此多富有創新精神與活力的公司。”黃仁勳說。“我始終相信台灣會繼續蓬勃發展......無論過去、現在還是未來。” (財富FORTUNE)
《Costco 與中保科合作 科技+愛心!讓智慧照護更普及》隨著台灣即將邁入超高齡社會,銀髮族的健康與安全成為眾多家庭關注的焦點。好市多(Costco)攜手中保無限科技集團,推出「中保無限+家庭守護專案」,專屬提供黑鑽會員,透過智慧科技,為長輩打造更安全的居家環境,讓會員即使不在身邊,也能遠距關懷家中長輩。科技照護新選擇:隨時監測長輩健康狀況家庭守護專案運用智慧監測技術,讓子女透過APP掌握長輩的日常活動。透過隨身攜帶的守護按鈕,長輩可在緊急時通知健康守護中心,獲得即時協助。居家環境內則可安裝生活動態感應器,若偵測到活動異常,系統將自動發出提醒,讓家人能夠即時關心。此外,專案也涵蓋一氧化碳、瓦斯、煙霧與溫度感知偵測器,只要超過安全警戒值,系統將立即通知緊急聯絡人,必要時甚至協助聯繫119或110,確保長輩在家中的安全無虞。黑鑽會員獨享優惠 安心守護長輩好市多黑鑽會員可享有獨家優惠,最低每月999元起,即可獲得全方位的智慧居家安全守護方案。這不僅是一項創新的會員福利,也展現好市多長期關注高齡社會需求的企業精神。透過科技輔助,讓家庭成員即使分隔兩地,也能隨時為長輩提供關懷與安全保障。關懷偏鄉長輩 好市多公益不間斷除了照顧會員的長輩,好市多長期投身公益,特別關注偏鄉長者的福祉。自2014年起,好市多便與門諾醫院合作,支持「門諾醫院偏鄉部落共餐計劃」,在花蓮卓溪部落設置定點服務窗口,協助獨居長者獲得穩定的膳食與健康關懷。共餐計畫不僅提供每日營養膳食,還包含健康檢測、社交互動及生活關懷,至今已服務超過10萬人次,為偏鄉長輩帶來實質幫助。此外,好市多也積極支持「門諾東區視力保健中心」,為花東地區學童及長輩提供視力篩檢及配鏡服務,幫助改善視力問題,提升學童的學習能力與長輩的生活品質。透過這些公益行動,好市多持續深化在台灣的社會責任,讓關懷不僅止於會員,而是擴展至整個社會。企業與家庭同行 守護長輩安心生活好市多秉持「家有一老,必要一保」的理念,透過科技創新與公益投入,幫助會員安心守護家人,並擴及偏鄉長輩,讓更多人受惠。隨著台灣邁向超高齡社會,好市多也將持續投入相關服務,攜手會員與社會,共創更安全、溫暖的環境。