世界人工智慧大會(WAIC 2024)有可能是有史以來「最年輕」的一次展會——也是獵頭參會最多的一屆。
為期3天的展會期間,華為、阿里雲和騰訊、百度等大廠在展會期間佔據了最大的論壇和展會場地,不過在聲量和關注度上,AI新勢力們吸引了更多關注——新勢力既包括MiniMax、智譜、百川智能、面壁智能、智子引擎等新創大模型公司,也包括快手、生數科技、愛詩科技、Haiper AI、FancyTech等視訊生成公司,以及星動紀元、宇樹科技、銀河通用等機器人公司。
從年紀看,這些公司都是最近兩三年才成立的,其中不少創業者還有一半身份在大學校園,尤其在人形機器人領域,比如星動紀元創始人陳建宇,他的身份同時還是清華大學助理教授,北大-銀河通用聯合實驗室主任王鶴同時是北京大學助理教授,而穹徹智能聯合創始人盧策吾同時是上海交通大學教授。
這些年輕公司和年輕創業者顯示了由ChatGPT掀起的生成式人工智慧所處的階段:一切剛剛開始。這裡充滿著機會,也充滿著不確定性,以及「危險」。「新皮層」獲得的消息稱,不少獵頭公司派人參與了這次展會,獵聘等獵頭公司在展覽中心設立了展台,獵頭們則忙於在各個會場和展台「狩獵」。與此同時,不少開設分會場的公司都祭出了更為嚴格的保安措施,不允許參會者尋求公司高管、產品負責人們的聯絡方式。有初創公司內部人士對「新皮層」稱,他們甚至收緊了對外發佈新產品的節奏。
根據官方公佈資訊,截至7月6日下午14時,本次人工智慧大會線下參觀人數突破30萬人次。
在這個體感溫度高達40度卻仍有30萬人參與的大會中,我們整理了討論最為熱烈的6個議題,它們是業界過去1年中最為困惑、最富爭議、同時也是對未來發展最具預測性的關鍵問題。你會看到大廠如何基於既有立場講述新故事,也可以看到新勢力如何各顯神通努力將自己留在牌桌上。
高通倡導強化端側算力,以推動AI的深層次應用
高通中國區董事長孟樸稱,當前生成式AI的研發和應用主要集中在雲端,如果將20%的生成式AI工作負載轉移到終端側,預計到2028年將節省160億美元的計算資源成本。而且,為了推動深層次AI的廣泛應用,也需要將其能力延伸到日常使用的智能裝置上。高通倡導在終端側開發更高性能的AI處理器,並最佳化生成式AI模型,使其體量更小、效率更高。孟樸認為隨著小型生成式AI模型質量提高,最終市場能夠在終端裝置上運行與雲端大模型相當、甚至更好的AI模型。目前,高通已推出第三代驍龍8移動平台,最高可以支援100億參數的生成式AI模型。
華為的創新方向是把端側問題放到雲端解決,降低對端側晶片依賴
和高通中國區董事長孟樸的觀點不同,華為常務董事、華為雲首席執行官張平安在發言中更加強調雲端計算在大模型時代的重要性。他聲稱,不能把人工智慧基礎設施放在對最先進製程AI晶片的依賴上,端側算力受限,就應該把端側的算力需求釋放到雲端,因為中國公司在雲端擁有更強的5G網路優勢,通過網路的上行和下載效率解決端側算力問題。
張平安稱,目前華為終端裝置的很多任務都在雲端完成,比如雲辦公、雲拍照、雲手機、雲遊戲、雲設計。一個簡單的例子是拍照。張平安稱,華為手機裡有多個鏡頭,使用者拍照時每按一次快門,手機都會拍下至少6張照片,然後演算法會通過整合這6張照片最終為使用者提供細節豐富的景象。這一整合過程在端側解決和在雲端解決的結果差異巨大,借助雲端算力,多張照片整合後的效果可以更加清晰和立體。
華為已專門派了很多項目組思考如何把端側算力需求放在雲層解決,從而保持端側功能的豐富性,又降低功耗和對晶片的依賴。「對我們來說,我們思考的創新方向就是不要把端側做得太複雜。」張平安在發言中說。
阿里雲創始人王堅說「算力問題是個偽命題」
之江實驗室主任、阿里雲創始人王堅自稱「一個無藥可救的技術樂觀主義者」。今天很多人說中國公司的算力是個問題,他認為這是個偽命題,因為「跟(中國)現有的基礎模型相比,我們的應用做得不夠好;與(中國)現有的算力相比,我們的基礎模型做得不夠好;與我們現有的電力相比,我們的算力還不夠」。在這個不等式下,他認為能源至少不是做人工智慧要擔心的問題,是做基礎設施要擔心的問題。新的能源會出來、新的算力形式會出來,所有問題都是要在動態過程中解決。
對於大公司而言,王堅認為人工智慧的影響反映在兩方面:第一, 只要是新技術,一定會有新的大公司出現,如果沒有新的大公司出現,那它是不是顛覆性的技術要打個問號。他相信,這個時代一定會有新的大公司出來,就像當年的GE一樣;第二, 一定會有大公司烈火重生。在他看來,前幾天蘋果發佈會,不是拿人工智慧服務了C端客戶,而是用人工智慧技術重新建構了公司,從重構它的作業系統開始。
王堅稱,網際網路時代有草根創業的說法,對很多東西的依賴性比較少。但是人工智慧還是有很多依賴性,比如資料,這對大公司會友好些。但是大公司面臨的挑戰還是存在。有一個因素容易被忽略,就是人。AI對每個部門都會產生影響,很多大企業要求所有部門所有人都擁抱AI,很難。王堅認為,小企業跟大企業的根本差別是,「大企業覺得AI是工具的革命,小企業覺得AI是革命的工具」。大企業也意識到AI是革命的工具,那變化就來了。
MiniMax創始人兼CEO閆俊傑認為大模型精準率是個問題
ChatGPT的發佈已有一年半,距離GPT-4的發佈也已過去1年。這一年多,國內不少公司都推出了號稱「對標」GPT-4的國產模型。但無論GPT4還是國產對標它的模型,都沒有真正大規模進入生產力領域提供幫助,而仍然停留於娛樂功能。在如何才能突破這一困境的問題上,MiniMax創始人兼CEO閆俊傑和智譜AI CEO張鵬給出了不同觀點。
MiniMax創始人兼CEO閆俊傑認為,大模型目前最核心的問題還是模型錯誤率較高,比如GPT-4在很多測試指標上可能正確率只有60%、70%,意味著有30%至40%的錯誤率。大模型的產品多採取對話形式,就因為對話的容錯率較高。每一步30%、40%的錯誤率,多步錯誤率就更高,由此建構的Agent就無法使用。
閆俊傑認為,降低大模型的錯誤率,使其從30%至40%降到3%至4%、甚至2%,錯誤率降低一個數量級,是讓AI從輔助人類的工具到獨立完成工作的最核心的標誌。這需要綜合性的解決方案,做合成資料、提高訓練效率、研究比Transformer更好的新型網路結構、研究各種新演算法、做更好的對齊,所有這些技術加在一起,也許能夠讓業界半年或者一年之後獲得一個錯誤率個位數的模型。
智譜AI CEO張鵬認為急需解決的問題不是大模型的精準率,而是多模態輸入
不過智譜AI CEO張鵬不認為提升正確率是解決大模型應用難的關鍵。他以上一代AI——人臉識別為例,表示它在精準率指標上已經超過人類水平了,但大家仍然覺得那不是人工智慧的終級答案。「精準率是一個方面。一般而言,精準率大多數限定在一些評測集或者任務上的量化評測,但有些東西很難量化,比如人的邏輯性、抽象思考能力。」張鵬說。
他認為,未來大模型需要更像人,首先在資訊輸入方式上更像人,人在現實世界中解決問題所需要的輸入是多模態資訊,除了自然語言還有視覺、聽覺、觸覺,因此突破大模型應用瓶頸也在於先解決好多模態問題。他舉例稱,使用者希望大模型幫忙掃地、做飯、洗衣服,這些任務所需要輸入的資訊都應該是多模態的。這些方面的能力突破會帶來AI的普惠。
在「智能駕駛前沿洞見」圓桌對話環節,同濟大學汽車學院教授朱西產、嬴徹科技CTO楊睿剛、上海交通大學人工智慧學院教授嚴駿馳、光輪智能創始人兼CEO謝晨等幾位專家就端到端模型的未來、可解釋性、如何驗證等話題展開了討論。
光輪智能創始人謝晨認為,汽車公司「應該完全擁抱,且一定要最激進地去做端到端,如果一個公司沒有做端到端的能力,我認為它不應該存在,它很有可能會被淘汰。」他認為從產品體驗角度來看,端到端最關鍵的點不是安全性,而是它更加像人,這是商業化必經的一個點。而且,端到端技術是符合scaling law(規模定律)的。(註:端到端模型由特斯拉提出並最早實踐,它意味著自動駕駛系統需要用一個獨立的神經網路去學習駕駛環境並自主「做出決策」,過去,多數——尤其L2級及以下的自動駕駛方案都將感知與決策分開,並且決策是根據工程師預先編寫的應對策略庫作出的。)
端到端模型面臨著不可解釋性的問題。不過謝晨認為,人做很多事情也很難完全推理出來,討論不可解釋性更多是因為人類對AI的不信任,特別信任AI以後,可解釋性就不再是個問題。同濟大學的朱西產教授則持反對意見,他認為「任何時候都要可解釋」。
圓桌中得到一致認同的觀點是「端到端模型的驗證是現階段的關鍵問題」。
特斯拉使用「里程覆蓋」這一指標反映智駕能力。根據馬斯克的說法,當使用者里程數達到20億英里,智駕等級從輔助級變為監督級(註:特斯拉沒有使用通用的L1-L5分級,而是按照輔助級、監督級、自動級來劃分自動駕駛能力)。
圓桌嘉賓認為,單純地看「里程覆蓋」並不合理,因為光說里程不看場景是沒有用的。在沒人、沒車的地方跑再遠,意義也不大,還是得回到場景,建立場景庫。「怎樣的場景測試才算詳盡,不管是學術界還是業界,都在探索之中。」嬴徹科技CTO楊睿剛說。
光輪智能創始人謝晨更加看重車企持續獲取資料的能力,而不是里程數或場景數。「我問過特斯拉的內部人員,車輛數達到多大規模時可以感知到資料閉環的能力,他們回答說上百萬輛。比如改完演算法,晚上推給歐洲的車隊,第二天早上就能拿到歐洲使用者迴環的結果。這才是真正的資料能力。」謝晨稱,特斯拉已經過了訓練資料的階段,他們希望擁有把一個corner case(邊角案例)泛化成一萬個corner case的能力。當你發現一個司機拐彎出現了問題,你不會從邏輯上找原因,而是會讓他過更多的彎,再以此判斷他是否是一個好司機,這也可以避開可解釋性的問題。
特斯拉的FSD(Full Self-Driving,全自動駕駛)還沒有正式進入中國市場,楊睿剛和謝晨分享了他們的試駕體驗。楊睿剛稱,相較於FSDv11,FSDv12對司機的注意力要求大大提升,雖然技術水平在提高,但個人的體驗達到某個層面後是下降的。「開V11的時候,在高速上手基本可以隨便放,現在(指FSDv12)不看路超過3秒,一定報警。」謝晨也有類似體驗,他表示「還是因為特斯拉太自然了,太自然了,我就想脫手」,他對特斯拉FSD未來在中國的滲透率表示樂觀(進一步閱讀有關特斯拉市場滲透率的評估可移步《FSD將入華,我們算了算它能幫特斯拉多賺多少錢》)。
同濟大學汽車學院教授朱西產提到NOA(Navigate on Autopilo,導航輔助駕駛)產品能否大行其道,要看明年歐盟最終頒布的法規允許脫手、脫眼的時間是多少,「如果達到15秒還好,如果是10秒,那買NOA系統的錢就白花了,開傳統車的脫手時間也能達到這個水平。」他說。
整個WAIC大會期間,有關視訊生成的話題在多個分會場中都是話題中心,其中一場以視訊生成為主題的論壇邀請了五源資本副總裁石允豐、FancyTech(時代湧現)創始人兼CEO空界、美圖集團高級副總裁陳劍毅、井英科技創始人、CEO朱江 、Haiper AI聯合創始人兼CEO繆亦舒、Morph AI創始人兼CEO徐懷哲等多位視訊生成領域創業公司加入。
作為風險投資人,五源資本副總裁石允豐一直在尋找AI領域的機會。他發現,視訊生成技術在過去一年有了很大變化,最初,他認為這一技術可能帶來移動網際網路時代抖音、快手之後的下一個大流量平台,但現在他認為視訊生成技術更大的機會可能在實體世界的應用,如機器人和自動駕駛,這些領域如果能持續預測並建立物理世界的小模型,將解決許多難題;反過來,視訊生成技術可能很難對新平台的誕生產生幫助,因為其消費價值完全被老平台(抖音、快手等)捕獲了。
視訊生成內容目前在公共領域中消費價值還很低。石允豐認為,當前視訊生成技術還處於早期階段,類似於GPT-2剛出現時的情況。在不穩定的技術基礎上尋找產品市場契合點(PMF)非常具有挑戰性,挑戰之一是使用者的忠誠度。他發現,Luma AI發佈最新模型Dream Machine 4天內獲得了1000多萬使用者,這些使用者之前應該都用過Runway和Pika。
石允豐認為,雖然有些應用能迅速吸引使用者,但如果沒有有效的變現手段,這些使用者增長並沒有實際意義。相反,相較於高複雜度的應用,圖生表情包、鬼畜視訊等簡單應用短期內看起來更work。
Haiper AI聯合創始人兼CEO繆亦舒在分享中同樣強調了視訊生成對於AI的學習價值。「視訊生成不僅僅是技術問題,它還涉及到感知和理解世界的方式。」繆亦舒說,人類學習是多模態的,包括視覺、聽覺、閱讀和動覺,而視訊生成技術是模擬這種多模態學習的一種方式。這一說法與智譜CEO張鵬的觀點相似,他們都認為,多模態的輸入和學習可以讓AI學會更多東西,因為人就是這麼學習的,而不是只學習語言或任何一種單一模態。
視訊生成的理想很豐滿,現實很骨感,FancyTech(時代湧現)創始人兼CEO空界同樣對這一結論深有體會。他2019年創立的FancyTech也主打視訊和數字人生成,主要服務於To B市場,幫助商家生成基礎素材,尤其是替代傳統的基礎拍攝部分。
空界認為,在國內大模型領域創業有3種視角:其一是做適合本地市場的國產模型;其二是做對標OpenAI的尖端模型,一開始就面向全球市場;最後一種是像FancyTech這樣,先務實地通過AI業務先有收入,保證留在牌桌上。「PMF不是一天找到的,剛開始一定要聚焦,留在牌桌上也很重要。」空界說。
一些公司已經將視訊生成技術用於短劇、遊戲等產業 。以「開發下一代AI娛樂超級應用」的井英科技已於去年推出海外首個AI短劇App——Reel.AI,讓使用者可以用AI生成短劇。井英科技創始人兼CEO朱江稱,他相信AI將重新定義娛樂體驗,使視訊不僅是觀看的對象,還能互動和參與。Reel.AI基於井英科技的自研模型開發,朱江認為,AI的技術升級或者發展是不連續性的,可能突然出現技術成熟的階段,催生新型的娛樂應用和媒介。因此,對技術的深刻理解和及時調整戰術方向對這一代創業者至關重要。
遊戲是個內容密集型行業,AI技術可能重塑這一產業從從立項到研發再到面向玩家的各個階段,盛趣遊戲也正在探索將AI技術融入其遊戲研發流程,盛趣遊戲技術中心AI負責人李鋒稱, 視訊生成技術的確可以幫助設計者更生動地表達和理解遊戲概念,不過他們更加想要的不是AI直接生成視訊,而是希望它能生成視訊背後的資料,這樣遊戲公司就可以通過遊戲已有的渲染技術將資料實現出來,這樣能對最終畫面更加可控。
包括Runway、Sora在內的視訊生成產品為視訊創作帶來了革命性變化,但是美圖集團高級副總裁陳劍毅稱,他們發現「普通使用者並不關心視訊是否由AI生成,他們更看重內容的吸引力」。而AI目前在幫助使用者表達情感和記錄生活方面的作用還有限。對於普通使用者來說,AI視訊生成目前的價值在於讓一些難以實拍的場景變得易於獲取,比如自然現象的模擬,AI可以讓創造者低成本獲得極光、冰川融化的場景。不過陳劍毅也認為,AI視訊生成的顛覆性在短期內可能被高估,從長遠來看,它的影響可能被低估。未來,AI視訊生成可能讓每個人都能在虛擬世界中得到一種形式的永生。更重要的是,AI技術可以幫助更多人克服對鏡頭的恐懼。
整個論壇中,不少發言者都認為視訊生成技術目前僅相當於語言模型的GPT-3甚至GPT-2階段,新加坡南洋理工大學助理教授劉子緯認為其中一大阻礙是業界還沒能找到「視訊生成的第一定律」。「語言模型的scaling law可以讓業界明確投入多少資本、資源就可以實現多大程度的智能,而多模態領域的scaling law還沒找到。」他說。
人形機器人在本次WAIC上賺足了關注度。走進世博展覽館就能看到一個巨大的人形機器人陣列。18台來自不同企業和機構的人形機器人組成「十八金剛」集體迎賓。人形機器人的展區也人頭攢動。除了還在櫃子裡的特斯拉柯博文Optimus,傅利葉、星動紀元、宇樹科技、達闥等多家公司都開放性地展示了各自的人形機器人產品。星動紀元的XBOT雙手靈活,能夠精準快速地做出夾、捏、握、擰等動作,還會點贊和比耶。
具身智能和人形機器人都是近年才被普及到大眾層面的新概念,如果要具備身體的智能,什麼樣的機器人形態是最優的?所有公司都認同類人形態在資料獲取方面更具價值,因為只有像人一樣行動,才有可能實現類人等級的智能;而且,最終若要像人一樣服務千行百業、實現通用,那麼它最好體形也像人。
不過並不是所有廠商目前都將產品做成了完全與人相同的人形,比如北大-銀河通用聯合實驗室,其首款機器人上半身與人類相似,只是雙手並非人類那樣的五指,而是左吸盤、右抓手,這樣方便機器人在商用貨架上工作;另外,其機器人的下半身並沒有像人那樣的雙腿,而是做成了可移動的底盤,因為「現在的機器人硬體技術還做不到讓機器人在彎腰、蹲、跪的同時,手部還能操作,現在做不到。」北大-銀河通用聯合實驗室主任王鶴解釋說,未來等這些問題解決了,他們也會「擁抱」人形。
根據大會官方資訊,今年WAIC展覽現場共有56款具身智能產品首發首秀,智慧型手機器人42款,其中人形機器人22款。即便都是人形,展會上「十八金剛」的關節模組、自由度以及佈置的方案也不一樣。宇樹科技的首席營運官陳立認為,未來會有一到兩種方案脫穎而出,形成一個標準硬體載體。
硬體標準的收斂對於機器人的訓練成本密切相關。邁柯博的商務總監魏昌說,成本也是很大的問題。Google曾經花了1700萬美元訓練了一個廚房場景的大模型資料集,但「我們發現,如果把廚房的檯面高度稍微做些更改,花1700萬美元訓練的資料集和大模型幾乎沒有用。」
和視訊生成一樣,具身智能領域的ChatGPT時刻也尚未到來,甚至更為早期。如果發佈Demo是一個行業的0到0.1階段,那0.1到1的過程就是POC(Proof of Concept,概念驗證),星動紀元創始人陳建宇認為,目前大部分具身智能公司處於這個階段。可能明年一部分公司會完成POC驗證。
如何讓機器把讀萬卷書和行萬里路的知識結合起來還是個難題。目前,業內普遍把具身智能背後的演算法分為high-level policy和low-level policy,即所謂的大腦和小腦,大腦負責感知和決策,小腦負責執行。星動紀元的創始人陳建宇認為,一個大小腦融合的端到端架構更有價值,因為他們最近發現,在一個很大的模型上面,如果想把物理層面的資料反饋給大語言模型效果並不好。「這個也是最近輝達提出來的叫作RLPF(Reinforcement Learning from Physical Feedback,基於物理世界反饋的強化學習)的概念,區別於RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習)的語言模型,是一個很有意思的問題。」陳建宇說。
銀河通用關注人形機器人小腦部分的資料獲得,他們發現,現有的很多操作能力都是靠遙操來實現的而非通過自主學習,比如特斯拉的Optimus,他們用40個人的團隊遙控人形機器人採集了資料。過去一年,銀河通用在合成資料方面投入了不少精力,他們用10億合成資料訓練出來的抓取技能成功地在透明、金屬高反光、各種柔性、剛性的物體中泛化。
中美競爭方面,不同於語言模型上美國同行的絕對優勢,星動紀元創始人陳建宇認為,中國公司在人形機器人方面與美國的差距不會太大,因為「具身智能=機器人+AI」,美國AI強,但機器人更強調供應鏈,中國在機器人的供應鏈上更強,軟體出來後,很能就能把軟硬體結合做出來。
可靈的「首尾幀」功能也上線了,圖像模型可圖宣佈開源
7月6日,快手在WAIC 2024的論壇活動中發佈多項多模態模型的更新。視訊生成模型可靈網頁端正式上線,模型新增首尾幀控制、鏡頭控制等功能,目前單次文生視訊的時長增加至10秒。此外,快手宣佈開源圖像生成模型可圖。
可靈於今年6月6日上線,是快手自研的視訊生成大模型,也是目前國內第一個已上市的類Sora視訊生成模型。目前,使用者可以通過快手旗下的創作工具「快影」App測試。6月21日的CVPR會議期間,可靈新增了圖生視訊、視訊續寫等功能,靜態圖像可生成5秒視訊,視訊續寫可延伸至約3分鐘。
此次更新中,可靈模型上線的新功能包括首尾幀控制和鏡頭控制。首尾幀控制支援使用者上傳視訊首幀和尾幀圖片,模型即可補全視訊中間內容;可靈的鏡頭控制功能則支援任意鏡頭運動軌跡,目前產品上線了水平運鏡 、垂直運鏡等6項定製運動控制方式,每一項控制方式的參數都可調節,參數越大,運動幅度則越劇烈。快手高級副總裁蓋坤介紹,目前已有超過50萬使用者申請可靈的內測資格,視訊生成數量達700萬。
可圖是快手今年5月發佈的自研圖片大模型,參數規模為10億級,支援文生圖和圖生圖。在本次論壇中,快手宣佈可圖將正式開源。
快手AI商業產品負責人劉逍稱,相比今年1月,快手6月AIGC相關內容的月活躍客戶數增長了8倍,月GMV規模提升了64倍,平台AIGC廣告收入規模提升了12倍。蓋坤稱,今年6月,快手AIGC行銷素材單日消耗峰值突破2000萬,大模型在商業場景中表現出潛力。
商湯科技發佈「日日新5o」,對標GPT-4o
7月5日的WAIC 2024上,商湯科技宣佈「日日新5.5」體系升級,發佈對標GPT-4o的是「日日新5o」。
GPT-4o是OpenAI近年5月發佈的多模態模型,可以看使用者所看、聽使用者所聽並能與使用者即時就所看所聽內容交流。
現場演示環節,商湯工作人員和「日日新5o」打招呼,它可自動識別出工作人員佩戴的胸卡帶子上的標誌,判斷出現場就是世界人工智慧大會會場,還可以根據指令及時向在場觀眾問好。不過,與GPT-4o豐富的情緒變化、能夠隨時切換任何口吻語調相比,「日日新5o」的語氣非常平靜,沒有任何情緒流露。
功能方面,「日日新5o」能夠識別毛絨玩偶的外表和穿戴並給出解讀,也可以辨別工作人員畫的簡筆畫兔子,打開書的任意一頁,它也能識別圖文內容並做總結。不過相比之下,GPT-4o不僅能識別文字、人物,還能通過攝影機理解紙上的數學題,給出解題指導,這對模型的邏輯和推理能力要求更高。
此外,商湯科技還在WAIC期間推出了可控人物視訊生成大模型Vimi。使用者上傳不同角度的人物照片,Vimi可自動生成時長1分鐘的視訊,視訊中人物的表情、肢體動作、頭髮都可以活動起來。使用者可以用Vimi製作表情包、視訊素材、數字分身等。目前,Vimi已在商湯科技官網開放預約,未來將完全開放給C端使用者。
阿里達摩院推出AI視訊創作平台「尋光」
7月5日,阿里達摩院在WAIC 2024的論壇活動上發佈一站式視訊創作平台「尋光」。尋光是一個針對影片創作者推出的工具性平台,產品目標是創造AI時代的全新視訊工作流。尋光將AI能力加入視訊創作的全流程,從劇本創作、分鏡設計到視訊素材編輯,創作者都可在該平台完成。阿里達摩院視訊生成負責人陳威華稱,「尋光」使得視訊編輯過程像做PPT一樣簡單。尋光平台目前處內測階段。
面壁智能發佈端側AI應用開發平台Mobile CPM
借助阿里雲在WAIC 2024期間舉辦的論壇,面壁智能發佈了一個叫Mobile CPM的套件平台,開發者可以通過這一平台提供的SDK套件「一鍵開發基於端側大模型的App」,面壁智能首席科學家 劉知遠在發佈會中稱,該平台接入了「非常多端側通用模型」。
面壁智能此前已發佈多款適用於小型智能裝置的端側小模型。6月11日的蘋果開發者大會上,蘋果提出Apple Intelligence概念,將未來使用者在端側體驗到的AI解決方案劃分為端側和雲端兩層,其中雲端接入GPT等第三方模型,端側主要使用蘋果自研的小模型。
面壁智能CEO李大海對「新皮層」稱,未來端側模型是外部廠商提供還是裝置廠商自己做是個開放性問題,目前「大家還在探索」,而作出高品質的端側模型並不是簡單的事,如果裝置廠商選擇自研,意味著他們也要像國內第一梯隊的基礎大模型初創公司那樣配備「100人起,核心至少也得大幾十人」的AI團隊。
面壁智能計畫在2026年年底推出GPT-4水平的端側模型,「到那個時候我們對端側模型和雲端模型的工作劃分就不會是現在這個狀態了。到時候有很多相對難一些的事情也可以在端側做了。」李大海對「新皮層」說。 (新皮層NewNewThing)