#Lovart
Lovart + Nano Banana Pro,這才是PPT 的王炸組合!
你是不是跟我一樣,最近為了找個好用的AI PPT 工具,快把市面上的產品試了個遍?一會刷到某個智能體,一會兒又是Gamma。前陣子很多人被NotebookLM 刷屏,我也跟著去湊了熱鬧。但講真,用下來總覺得差點意思。直到這兩天我試了這個工具,我敢說:真正的AI PPT 終結者可能真的出現了!廢話少說,直接看效果。這是我用它為《小王子》做的一份分享PPT:圖:Lovart 產生的PPT說實話,第一眼看到成品時我有點被驚豔到了。這種繪本感的視覺享受,無論是給老闆匯報還是做個人分享,拿出手的一瞬間,段位就拉開了,對吧?在PPT 這個塊,我一直有個「歪理」:視覺美感往往大於內容。因為如果第一眼抓不住人,內容再好也是白搭。這就是Lovart,它最硬核的地方:它不僅請來了Nano Banana Pro 這種等級的超強外援,還反手給它疊滿了'超級武器'的Buff。01|視覺美感:拒絕“AI 抽卡”,審美直接拉滿以前用AI 做PPT 像是在“抽卡”,出的圖能不能用全看運氣。但Lovart 輸出的畫面非常專業。就算你只是給個簡單的提示詞,它給出的視覺方案也完全在審美點上。例如我試過的第一種:國家地理史詩攝影。圖:Lovart 產生的國家地理史詩攝影風PPT說實話,出來的成品真的讓人歎為觀止,感覺每一頁都是一幀高品質的電影畫面,那種大片的厚重感和細膩質感,每一張圖都能直接拿來當壁紙。如果你想走年輕活潑的路線,可以試試下面這種孟菲斯多巴胺風格。圖:孟菲斯多巴胺風格PPT撞色大膽,充滿躍動感,這種視覺衝擊力極強的風格,相信會受到很多年輕人的喜歡,拿去做創意提案瞬間就能抓住眼球。當然,還有我們最親切的中國風。圖:中國風PPT這種水墨感一出來,高級感直接拉滿。它最牛的地方在於不只是堆砌素材,連文案都會跟著風格變,裡面甚至藏著「道法自然」、「安土重遷」這種哲學意境。是真的有靈魂。當然,不只是好看,這些內容的總結、提煉也都是由它自己完成的,可以說非常強大。看到這兒你可能會說:“這不都是Nano Banana Pro 的功勞嗎?Lovart 自己到底有啥亮眼的?”說實話,剛開始我也這麼想。但深度體驗之後,我發現自己錯了。正是因為下面這幾個「殺手鐧」等級的優勢,才讓我覺得它——而不是現在大火的NotebookLM——才是真正的AI PPT 終結者。02|40頁+長篇幅:終於不用再手動「續命」了很多朋友吹爆NotebookLM,它確實很牛,但有個致命傷:生成的PPT 不能超過15 頁。這對咱們打工人來說太難受了,一個稍微大點的匯報,15 頁那夠寫?Lovart 就大方多了,生成40 頁以上都完全沒有壓力。圖:Lovart 產生的30 頁PPT例如為這本書《智人之上》產生一個30 頁的讀書分享PPT,也就幾分鐘的事兒。所以說,對於咱們這種動輒要做幾十頁深度報告的人來說,Lovart 這種「量大管飽」的屬性真的太解壓了。再也不用為了湊頁數分好幾次折騰,這種一氣呵成的感覺,才是大項目該有的效率。03|全程可編輯:它是「活」的,不是死圖!這可能是我最想給Lovart 點讚的地方。NotebookLM 另一個讓我頭大的點是:產生的PPT 是「死」的,基本上就是一張張大圖。我真的因為它產生的一份PPT 文字有瑕疵,在PS 裡面摳了4 個小時。而Lovart 的所有元素都是可編輯的。文字寫得不滿意?直接改。佈局覺得擠?拖動一下。圖:Lovart 方便的修改文字和佈局它最神奇的是這個Touch Edit 功能。例如我覺得畫面裡的這張圖不錯,但想給人物換個圍巾顏色:圖:Lovart 的Touch Edit 功能這種指那改那的編輯,非常有效率,也非常完美:圖:透過TouchEdit 修改了圍巾顏色他甚至能換單頁的風格:圖:在Lovart 中修改單頁PPT 的風格一個簡單的提示詞:改成線稿風格,一頁PPT 就完美的改好了:圖:通過Lovart 風格修改前後的對比這種“掌控感”,才是AI 工具該有的樣子。關於這些高級玩法,我之前的文章裡有詳細教學,感興趣可以翻翻。04| 到底怎麼用?在Lovart 裡做PPT 簡單到什麼程度?頭腦空空時: 告訴它一個想法,它會自己聯網搜尋,幫你把邏輯和大綱都寫好。圖:僅透過提示詞來產生一份PPT材料一大堆時: 直接扔進一堆配件(支援多個PDF檔案哦),它能瞬間消化並吐出一份精美的PPT。圖:Lovart 根據附件來產生PPT我們在提示詞裡面可以簡單到一句話,也可以具體到規定頁數、風格、每一頁的內容。比如下面這樣:請基於《人類簡史》製作15頁的'新中式'意境風格PPT。 視覺風格: 東方禪意美學。採用水墨質感、宣紙背景紋理。色彩以黛青、硃砂紅、墨黑為主。裝飾元素使用留白、印章、遠山、雲紋。標題使用書法體,正文使用宋體。 內容大綱: > 用中國哲學的視角重新解讀:P1: 封頁(水墨意境);P2: 簡史總覽;P3-P5: 認知篇(道法自然與虛構世界);P6-P8: 耕織篇(農業的羈絆);P10-P12: 大同紀元(天下 3:P4);歸宿:天人之際的思考。 要求: 文案風格帶有一點詞章氣息,優雅而深邃。出來的效果,真的會讓你覺得它是有「靈魂」的。One More Thing:拯救「丑PPT」的終極殺手鐧最後,必須分享一個大驚喜:Lovart 還能直接修改現有PPT 的風格!很多時候我們手上已經有一份內容改了80 遍的匯報稿,但排版實在太「班」了,沒法拿去見大老闆。這個時候,你只需要把這份PPT(PDF 格式)丟給Lovart,然後告訴它:“幫我把這份策劃案改成賈伯斯最愛的Apple Keynote 風格。”圖:現有的「丑」PPT瞬間!那種土裡土氣的PPT 就變身成了高級感十足的發佈會現場。圖:Lovart 一句話改之後的PPT這個功能,真的能幫大家在年底匯報裡省下大把的掉髮時間。最後的話說實話,AI 工具層出不窮,但我一直在找那種「懂人心、有審美、不給使用者添麻煩」的產品。Lovart 這種強大的Agent 邏輯+ Nano Banana Pro宇宙級的生圖能力+ 極高的編輯自由度,目前看來,確實是AI PPT 圈子裡的最佳解決方案了。眼看就到年底了,復盤會、年度計畫、總結匯報都在路上了吧?別再為調格式、找素材這種瑣事熬到凌晨了。還猶豫啥?這種「降維打擊」的神器,趁現在知道的人還不多,趕緊去試試,驚豔一下你的同事們:👉 http://lovart.ai (建議收藏備用)對了,說到AI 生圖,這兩天OpenAI 的GPT Image 1.5也已經上線到Lovart 了。 (AI範兒)
Lovart 陳冕:Sora 證明巨頭無邊界,AI 創業得提前描繪未來
“事實證明,不焦慮的人做不好AI 應用。”「明年可能是to C 應用的元年。」9 月28 日,Lovart 創始人陳冕告訴我們。第二天,「元年」 被加速-OpenAI 發布Sora app,幾天後超越ChatGPT 和Gemini,登上美區App Store 下載總榜第一。Sora app 開啟了消費性AI 超級應用的可能性。過去2 年多里,從聊天機器人到AI 搜尋、深度研究、再到智能體,數輪成長最快的AI 應用都集中在生產端。今年5 月開始內測、7 月正式開放上線的Lovart 也是一個服務設計生產場景的垂類Agent。截至目前,Lovart 獲得了約20 萬日活用戶,年化預估營收超越3,000 萬美元。但陳冕仍覺得不夠快。在Sora app 發布前,他已在思考接下來的to C 機會:模型成本不斷降低,這讓to C 更可行。 to P(生產者)產品也讓更多人能創作AI 內容了──那最終內容消費是否也會改變?只是,Sora 讓一切又加速了。我們確實要考慮如何更快go big。因為在這個時代,每個巨頭都比想像中更厲害,更沒有邊界。配合新野心,山姆·奧特曼(Sam Altman)已在瘋狂鋪設算力和能源設施。 9 月底,OpenAI 宣佈與輝達合作新資料中心,總耗電量將達10 吉瓦(GW),超過夏日高峰時的紐約市。此外還有總計17 吉瓦的其他項目正在推進。本篇訪談的第一部分發生在Sora 發布後,產品經理出身的陳冕分享了他對Sora 的體驗和觀察:我意識到這是一個社交產品,它可能比「AI 抖音」 還要大。訪談第二部分,我們複盤了4 個月來Lovart 的實踐;以及2023 年以來,陳冕摸索的AI 應用創業破局之路:AI 應用怎麼做成長?就是提前描繪未來,然後等它發生。垂直應用公司本質在做兩件事:特殊的互動,和特殊的上下文。因為頻繁換工作,陳冕過去被認為沒有耐性,而這次開始創業後,他經歷過公司瀕臨倒閉,也在最困難時拒絕過收購意圖。一些投資人和同行評價他很有韌性。現在的韌性來自信念,信念又來自認知。我不是為了創業而創業,是為了贏而創業。山還在、我們也能到達,那為什麼不能努力往那裡走呢?Sora app 發布:“每個巨頭都比想像中更厲害,更沒有邊界”“我想到了to C 是下一個機會,但沒想到就猝不及防地在這個假期突然發生了。”晚點:我們上次聊剛好是Sora app 發售前夕,現在Sora 出現,產業又有了大變化。陳冕:對,變化總會比你想像的時間早一點。幾天前,我說明年是消費性AI to C 應用的元年,這個判斷沒變;但沒想到,關鍵的timing 就猝不及防地在這個假期發生了。我之前判斷巨頭的速度不會那麼快,但顯然錯了。 OpenAI 比想像中更激進,它不只追求AGI,也追求最牛的產品。晚點:Sora app 上線後,你從凌晨3 點開始連玩了4 小時,你看到了什麼?陳冕:我真的被驚到了。這種感覺我至今只體驗過3 次,前兩次是抖音和ChatGPT,第三次就是Sora app。我意識到這是一個社交產品,它可能比「AI 抖音」 還要大。晚點:怎麼在使用中獲得這種感知的?陳冕:一開始我本來對Sora 沒有預期,因為它上線很突然。我使用的第一個感受是順滑,很快就完成了前幾部作品。例如我讓ChatGPT 寫了一個“無間道” 天台對決的腳本,然後用Sora 的cameo(出境秀)功能讓我和Sam Altman “合拍”,那是我第一次打開聲音——Sora 2 是一個音畫同出的模型——當時我就感覺,新世界的大門打開了!編者註:cameo 的玩法是,使用者在Sora 介面裡拍攝自己的臉部(類似人臉辨識步驟),念數字,產生AI 形象和音色,然後選擇授權範圍。這樣你自己或被授權的其他人就可以在生成影片時讓你「出鏡」 合拍。 Sam Altman 向所有用戶開放了cameo,所以它一度刷屏Sora。這影片有鏡頭語言,有敘事;音畫同步很好,音色很像我本人;角色一致性也很好。而這一切不需要抽卡,一次就能成功。更重要的是社交-最開始除了和Sam 合拍,我不知道幹嘛,因為其他人我都不認識;所以我就給同事分享邀請碼,拉大家一起玩;這時我驚覺,這不就是社交嗎?這是一個特別大的aha moment。邀請更多人後,我再去刷資訊流,又體驗了Sora 的另一個關鍵機制-Remix(重新創作)。 Remix 核心解決的是共創。這是我自己思考過的問題,就是怎麼更簡單地讓使用者接力共創,這是激發更多AI 內容的關鍵。 Sora 在Remix 上做了滑動互動,很順滑。我認為最優秀的互動不會超越點擊和滑動,而且它都太複雜了。整體來說,Sora 的關鍵連結都設計得很好,完成度挺高。晚點:比Sora app 早4 天,Meta 也在「Meta AI」app 上上線了AI 短視頻功能Vibes,但幾乎沒什麼聲量。陳冕:單純的AI 生成短片產品早就有了,這次的核心還是社交。 OpenAI 自己也說,如果沒有cameo,就不會有這款產品。晚點:你覺得Sora 的模型有甩開其它公司嗎? Google Veo3 先前已能實現音畫同出。陳冕:妙就妙在,它在模型能力最適合的時候,做了它最適合的產品型態。晚點:一家中等體量的AI 新創公司有可能率先做出像cameo 這樣的新互動,從而引爆市場嗎?陳冕:首先,Sora 不只是產品創新,它的模型也是SOTA(State of the Art,業界最優)水準。只有掌握頂尖模型,同時它的文化、組織還能孕育產品創新的公司才能做出Sora。第二,如果一家中型公司真做出了Sora,我覺得也能火,但接下來會面臨巨大挑戰。首先是人臉資訊的隱私、監管問題,其次是成本,Sora 已到了蘋果總榜第三,卻一分錢沒收,影片產生是很貴的。更現實的是,一旦它火了,巨人馬上就會跟進。巨頭有流量、有資金,中小公司根本扛不住。所以AI 社交這註定是巨頭戰場。晚點:你認為Sora 未來可能會是多大的產品?陳冕:它有可能是個虛擬世界的微信。未來人類的社交可能分成兩個世界—「虛假的真實」 和「真實的虛假」。那種對人更有吸引力還未可知,很可能兩個世界會同時存在,爭奪我們的時間。如果把它看作社交產品,這可能是一個數十億級用戶的機會。晚點:這會怎麼影響AI 領域大小公司的動作?陳冕:這是一場所有模型巨人都輸不起的仗。無論你認為Sora 成為超級應用程式的機率是10% 還是20%,錯過的代價都太高,而贏下的意義又太大。所以想抓住這個時代最頂尖超級應用的公司,和現在已經擁有超級應用程式的巨頭,都不會放過這個機會。晚點:社交有網路效應,有先發優勢和時間窗,你認為留給其他人的時間還有多久?陳冕:可能就3 到6 個月。晚點:Sora 對新創公司的影響是什麼?陳冕:好的一面是,Sora 會為AI to C 帶來資本湧入和注意力,所有新創公司都可以好好思考to C。但同時,我們確實要考慮如何更快go big。因為在這個時代,每個巨頭都比想像中更厲害,更沒有邊界。晚點:你把OpenAI 算作巨頭,它其實既有巨頭級的資源;又有一個新公司的銳氣和飢渴——團隊扁平,同時尚未獲得一個能帶來穩定利潤的業務。陳冕:這就是為什麼要盡快go big,資本正以史無前例的速度聚集。人類歷史上從未有OpenAI 這樣,在推出第一款主力產品後,短短幾年內就估值超過5,000 億美元的公司。一切都在被加速,市場極度樂觀,能投的都在往這個方向砸錢。晚點:這種樂觀中有什麼風險嗎?陳冕:成長速度的錯配。因為太樂觀,人們對無法被加速的事也抱持過高期待,當預期落空,就會沮喪懷疑。典型的就是建設算力和能源設施都需要時間。在基礎架構更完備前,Super App 短期的成本會很高。如果應用發展和算力建設周期有較大錯配,甚至可能帶來短暫的泡沫破裂。而且算力越緊張,資源越會往頭部集中。我們非常希望基建和能源設施能更快完善,不要被實體底層卡住。晚點:除了算力和能源基建,還看到了什麼無法被加速的事?陳冕:人心。使用者習慣的改變需要時間。再往下,真實與虛擬的邊界會越來越模糊,我們怎麼接受?能多快接受?當然新事物都是在爭議中前進的,人心不會變得那麼快,但也一直在改變。“不是服務所有人,而是服務有創作欲的人”20 萬活躍用戶、3,000 萬美元年化預估收入。晚點:5 月Lovart 剛開始內測後,你就去了舊金山。當時你提到,要在未來幾個月努力做到“幾千萬ARR”,現在實現得怎麼樣了?陳冕:Lovart 目前的年化預估收入已超過3,000 萬美元。截止9 月底,我們日活用戶到了15 萬到20 萬,在7 月beta(內測)結束前,每天是1 萬到2 萬,beta 放開後迅速到了8 萬到10 萬;Nano Banana 後,Lovart 更好用了,用戶又上了一個台階,到了約20 萬。所以我們不是先爆、再微跌,而是一步一階往上漲。這是我挺開心的一點。晚點:這些用戶是怎麼分佈的?陳冕:1/3 在美國,美國也是Lovart 目前用戶數和收入最多的市場。晚點:3000 萬美元的預測年度訂閱收入能涵蓋服務成本嗎?陳冕:不行,現在的Agent 都不行,因為API 很貴,而且我們有一定免費額度,免費到付費的轉換需要時間。但我對Agent 的長期商業模式毫不困惑,token 一定會更便宜,就和電與上網流量一樣,都是早期貴,普及後會很便宜。訂閱至少會是一個基礎的商業模式,未來也可能發展出以思考時間收費的方式。晚點:Lovart 團隊去北美後,為什麼還沒有接受全球化機構的投資?陳冕:我們未來一定會考慮全球化資金,但5 月Lovart 上線那會兒,我們剛敲定融資。當時去北美的更優先工作是搭建團隊和離全球用戶更近。晚點:直接接觸美國用戶後,看到了什麼?陳冕:在灣區,我最常被問到的問題是,我的熱情和願景是什麼?很多人會問我們,這個產品它到底是給所有人用的,還是給專業人士?現在答案更清楚了:因為我做這家公司的願景,就是希望把創作能力平權,釋放更多人的想像。 AI 時代,能做、想做設計的廣義設計師和創作者的數量正在變多。所以我們現在的定位是:“for everyone who wants to create”,不是服務所有人,而是服務所有有創作欲的人。對非專業人士,Lovart 像AI 創作工作室,能幫你把創意落地。一個典型場景是北美的一些中小商家,例如咖啡店主,他想做自己的全套視覺物料,包含logo、包裝、菜單等等,如果去找設計師來做會很貴,現在AI 可以讓它更普惠。我們也在美國接觸了許多專業設計師,他們追求自我表達,不會用AI 直接出結果,而是更多把Lovart 當作靈感助手,讓它出底稿,自己再完善。所以不論是專業設計師、半專業創作者還是一般用戶,只要有創作需求,都能用Lovart 來做設計。“AI 應用公司怎麼做成長?提前描繪未來,然後等它發生”“垂直應用公司本質在做兩件事:特殊的互動,和特殊的上下文”晚點:2023 年創業之初,你曾把AI 應用的創業機會分成5 個方向:生產端是Office 和Adobe,消費端是搜尋、社群和泛娛樂。這個判斷現在有更新嗎?陳冕:目前沒有超出這個框架。現在所有大體量的To C 和To P(生產者)產品,基本上都是Office 類別的生產工具和Adobe 類別的視覺創作工具。Coding 可以看作是新時代的Office 。程式語言是LLM(大語言模型)的原生語言。處理文字、訊息、程式碼,都是LLM 的內生能力。但所有這類應用創業都面臨一個挑戰:如何與大模型廠商拉開差異?另一類是“Adobe 系”,圍繞著多模態模型展開。它離大模型的主軸有一段距離,既能利用大模型的能力,但又能在自己的場景下做出差異化。所以最開始我們選擇從這個角度來切入。晚點:這種距離還成立嗎? OpenAI、Google 等核心模型公司都在更多投入多模態。陳冕:有距離,不是指巨人不做多模態。再往下,追求AGI 也會經過多模態和世界模型等環節。但模型巨頭的最主軸仍是語言,是構建“通用智能”,是創造一個高智商的通用人。我們作為垂類產品,則是在通用人的基礎上,創造一個設計師或創作者,它需要更多行業經驗和數據。應用公司的生存空間,正是在於你既能用好這個「通用人」 的能力,又不要去做一個通用人就能做好的事。晚點:這個思路怎麼體現在你們的產品設計上?陳冕:垂類應用公司本質是在用產品表達兩件事:一是這個行業裡的特殊工作方式,它決定了人機互動方式和產品介面;二是一個行業中要積累的經驗和數據,它決定了怎麼給context(上下文)。例如為什麼我們要做ChatCanvas 功能?就是因為在互動上,你和設計師溝通時,絕對不會只對著他的臉說話,而是必須對著一個桌面或畫布,上面擺滿圖片等素材。設計的溝通離不開視覺對齊。ChatCanvas 是Lovart 今年7 月正式上線的功能,它可以在畫布中框定區域,然後透過自然語言互動讓Agent 修改和編輯。如果你和一個人說話時只需要看他的臉,這就是Chatbot 要處理的通用場景;如果你必須對著視覺素材,那就是ChatCanvas 的場景。晚點:ChatCanvas 這種互動方式好像挺自然的。為什麼Lovart 之前沒人做出來?陳冕:因為在模型能力到之前,大多數人不會做這件事。今年有幾個密集進化:GPT-4o 更新Image-1(4o 系列的文生圖模型),在指令跟隨、一致性、文字生成能力上都大幅提升,然後是Google 的Nano Banana,包括字節的Seeddream 4.0,能力持續上台階。這些變化太快了,所以大部分人還來不及做。晚點:而你們提前預判了模型的提升,提前做了準備?陳冕:對。 AI 應用公司怎麼做成長?其實就是提前描繪未來,然後等它發生。應用公司本身不掌握模型創新,所以要預判它的演化,先設計出模型到下一階段後可能出現的互動方式,等模型ready 的那一刻,你就瘋狂show 出來。Lovart 本身就是這樣一個提前構建,原定五一上線,上線前GPT-4o 發布了Image-1,我們特別開心,等Nano Banana 出來後,就更開心了。晚點:具體來說,你們要在產品、工程上做什麼,才能接住不斷提升的模型能力?陳冕:第一個是密切跟進模型迭代。還是以ChatCanvas 為例,我們最早設計這個互動時,連GPT-Image-1 都還沒發。這時的模型理解不了複雜的多輪指令、一致性差、編輯能力較弱,很難實現「指那裡改那」 的體驗。但如果你密切追蹤模型迭代,和模型團隊交流,就會發現他們正集中攻克這些問題。有些紅極一時的做法,例如ControlNet,反而在模型提升後就不常用了。(編按:ControlNet 是一種神經網路結構,透過增加額外條件來控制擴散模型的圖像生成過程。)第二,我們有一個明確假設──模型在變強,但短期是更像人,還沒超越人。所以Lovart 的設計哲學就是「還原人與人的溝通」。我們怎麼跟真人設計師溝通,就怎麼跟Agent 溝通,以此評斷互動是否合理。我賭ASI(超級人工智慧)還沒那麼快到來。晚點:ChatCanvas 等互動創新之外,你們也在Lovart 裡更新了影片產生能力,設計群組有這個需求嗎?陳冕:做影片的人大部分都會做圖,因為影片往往是從分鏡稿開始的。所以一個做圖的公司大機率會延伸到視頻,因為你很多用戶的下游場景就是視頻。晚點:做3D 也是這個邏輯?陳冕:3D 不太一樣。短期內,我們的重點還是圖和影片。因為現在的主流裝置主要展示平面視覺內容,3D 內容的消費還沒起來,生產需求就沒那麼多。晚點:除了這些已經上線的功能,你還看到了那些未被滿足的需求?陳冕:設計師還需要更多context。例如要為《晚點》做一套品牌設計,就需要理解《晚點》的歷史、調性、觀眾、過往視覺風格和你們的喜好。我們把設計的context 抽象化成兩個類別:Reference(參考):包括私有和公有兩種。私有reference 是品牌過往的風格素材;公共reference 是流行趨勢,例如宮崎駿或多巴胺風格。Preference(偏好):來自長期合作中對顧客美感的積累,例如有人喜歡極簡,有人偏好插畫。 AI 設計師要透過多輪互動發掘並記住這些偏好。本質上,未來的AI 設計師要能持續吸收、學習這些上下文,最終給出更滿足你需求的產出。晚點:“給設計更多context”,落到產品上是什麼樣的?陳冕:我們正在做一個context 模組:透過多輪對話補齊上下文,沉澱長期的素材庫,記住使用者偏好。首先是在prompt 過程中,我們做了一個小模型,它會追問用戶,補充更多context,比如品牌歷史、過去的物料等等,我們也支援直接甩個鏈接,理解其中的多模態資訊,比如通過官網理解風格。以上過程做的多了之後,就會慢慢沉澱一個使用者自己的素材庫,在未來呼叫中,Lovart 就可以從reference 和preference 函式庫上調相關風格,和使用者確認、快速達成共識。晚點:大模型現在對美感和風格的判斷能到什麼程度?陳冕:肯定沒有人那麼好,但在很多場景已經夠用。例如它看到《晚點》的風格,不會覺得這是娛樂媒體。多模態模型的理解和辨識能力都在快速變強,這還是在「提前準備,提前描繪未來」。晚點:怎麼能做到持續提前描繪未來?或者說怎麼提高成功率?陳冕:核心就兩點,離使用者更近,離技術更近。真正的困難是取捨:你見到用戶後,一定會發現一些需求,模型還滿足不了,那這個點你做不做?要不要用傳統方式做?例如我們做全球市場時發現,現在除了英文和中文,影像模型在生成其他語種時的效果都不好。那一個很有意義的討論就是,該用那一種方式加文字?用模型直接生成文字:美學風格更一致,但現在容易翻車,可控性不好。用傳統方式,拖一個文字框加文字:好用、可控,但美學不一致,更大的風險是,如果模型很快迭代了,這些「補丁」 可能就白做了。這類問題沒有簡單答案。從使用者體驗角度,如果模型短期內解決不了一個剛需,那麼用別的方式頂上可能是對的。但如果模型馬上有大進展,又可能摧毀掉過去的努力。晚點:你自己離科技更近的方法是什麼?你創業前的工作經驗比較是在產品和商業化。陳冕:最有效的方法是技術同學讀論文,再講給我聽。我常用“人” 的比喻來理解大模型:pre-train(預訓練)像培養“合格的人”,post-train(後訓練)是給他“入行經驗”,reasoning(推理)是“思考與決策”,RL 是人在實踐中學習。所以,身為一個產品經理,我的優勢是在沒有那麼懂技術的情況下,能用產品思維快速提煉、類比,把技術能力落到產品上。晚點:5 月聊時,你曾擔心,多模態生成領域的閉源模型會甩開開源模型,這不利於應用新創公司。現在這件事持續發生,Veo3、Nano Banana、Sora 2 等陸續出現。現在怎麼看這個問題?陳冕:現在不擔心了。開源、閉源,本質影響兩件事:一是成本。開源成本更低、更可控,但即使用閉源模型,token 價格也必然越來越低;二是要不要做後訓練。閉源沒法做後訓練,但後來我們發現,即便不做後訓練,我們在上下文工程還有很多可以做的,AI 應用公司在工程側、產品側的空間已經足夠複雜了。晚點:你有在意的競爭對手嗎?陳冕:細到「創作型Agent」 這個品類,除了我們,其他還偏小。整體來說,這個領域有潛力的公司有3 個類別。一是2023 年那批做多模態生成的,如Krea、Higgsfield、Freepik 等,他們都可能往Agent 轉型,Midjourney 不一定,它更偏模型。然後是Adobe、Canva 這類垂直產業巨頭,但這類新產品一定要到一定收入量,例如年收入超過1 億美元,才對他們有意義。第三是核心模型公司,我認為它們短期內會更專注於通用Agent 和coding 等能力。我覺得現在處在一個新變化的孕育期。 To P 創業窗口期已接近關閉,你現在聽到的產品都是競爭後的結果。我更看好下一波to C(消費者)應用程式的機會。晚點:所以你們何時會做to C?陳冕:一定會做。我覺得明年會出現有趣的公司,可能是to C 元年。影像和視訊模型的成本都在不斷降低,Veo3 前段時間開始打5 折,Nano Banana 也比GPT-Image-1 便宜很多,確定性的成本下探會讓to C 更可行。然後是to P 過去的發展,讓更多人都能創作AI 內容了。那最終內容消費是否也會改變?(編按:以上訪談發生在Sora app 發布之前。Sora app 其實就是一個生成式AI 從生產端產品到消費端產品的變化。)“事實證明,不焦慮的人做不好AI 應用”“往往在你覺得短期有點高估它(技術進展)時,過兩天你又發現低估了它。”晚點:Lovart 5 月內測的目標之一,就是要做第一個上線的垂類Agent。這之後你們一直保持很快的更新節奏。這種迫切來自那裡?陳冕:一切都在加速,timing 在AI 時代更重要了。過去抓住一個成功業務形態,可以吃10 年,現在也許只能活兩年。每一波新產品和新體驗的建置窗口期都很有限,不能快速做出產品、取得用戶,這一波就錯過了。但下一波也不遠,錯過也別太急,要提前想下一波。所以一個公司現在想持續成功,就不能像行動網路一樣抓住一個PMF 後就慢下來。你想想,如果Manus 沒有在第一個產品後做出Manus,我們沒有很快做出Lovart,公司狀況會完全不同。人們的情緒也不斷在「不過如此」 和「FOMO(害怕錯過)要死」 間來回搖擺。既怕技術不發展了,又怕技術發展太快。整個情緒、業務、產品、融資和經營節奏,都面臨很大挑戰。但這也是好事,表示技術真的發展很快。往往在你覺得短期高估它時,過兩天你又發現低估了它。晚點:從2023 年創業以來,你們錯過了什麼比較重要的時間窗口嗎?陳冕:幾乎沒錯過重大的。總共是這樣幾波,一是23 年創業時,現在我也沒後悔,我們沒有一上來就做全球市場。因為當時Midjourney、Stable Diffusion、Leonardo 等文生圖應用都出來了,搶「全球版圖」 已晚,我們在中國市場跑得最快。第二波就是Agent,我們做了Lovart。第三波抓得準不準?就看我們to C 做得怎樣。晚點:沒錯過重大窗口的原因是什麼?陳冕:我很焦慮,團隊也很焦慮。但如果真想做好AI 創業,你需要和焦慮共處。核心是要搭建一個高頻迭代的組織:能不斷理解新技術;能明確快速變化中,有些事沒辦法做得很深,所以必須選擇槓桿最大的事,優先做。晚點:這可能會帶來頻繁的方向和團隊調整,還有混亂,你覺得這是個問題嗎?陳冕:確實有人抱怨今天這樣、明天那樣,但這在現在不能避免,除非技術放緩。一定有一些人比較喜歡優化確定性的事物。但現在常常是來不及優化,技術又變了,這對心態和組織是個考驗。晚點:核心團隊裡,你很焦慮,其他人呢?陳冕:沒有人是淡定的。從reasoning、強化學習到Agent 潮,再到大家發現做情境工程有很多空間,總共就半年多。你想自己慢慢搞,就很有可能跟不上。事實證明,不焦慮,做不了AI 應用。晚點:近期你最焦慮的事是什麼?陳冕:最近我們在做的context 模組,我認為方向是對的,但不是我們還不夠快?晚點:實際上context 模組什麼時候會上線?陳冕:應該是10 月底。“過去他們說我沒耐性,現在他們說我有韌性”晚點:你們公司在23 年底到24 年初曾瀕臨倒閉,最後還是撐過來了。一些投資人和同行認為你已經被驗證的特質之一是韌性。陳冕:這事兒好好玩,我沒創業時換過很多次工作,大家覺得我沒耐性。創業後,對我的評價是有韌性。我創業這次確實更有韌性了,但我不是個盲目堅持的人。過去頻繁跳槽,是因為認知不夠,那十年逐漸累積許多樣本後,現在的韌性來自信念,信念又來自認知。我有幾個大假設:AI 是不是還在快速發展? AI 是不是會取代所有虛構內容的創作?如果是,我們沒理由不繼續。晚點:最困難時,你們曾獲得收購邀約,團隊裡有人想接受,但你拒絕了。當時是怎麼想的?陳冕:先澄清一下,那不是完整的收購邀約,是有幾個收購意向,我都擋掉了。和團隊溝通前,我已經決定拒絕。回頭看,我可以有更好的溝通方式,這也是我作為CEO 的成長:如果自己相信,就要把信念堅定傳遞給團隊,我沒想過要賣。這也不是一個感性決策,而是一個理性判斷:我不是為了創業而創業,是為了贏而創業。當時我認為,山還在、我們也能到達,那為什麼不能努力往那裡走呢?晚點:你什麼時候發現創業比你最開始想像的更殘酷?陳冕:我到現在都不覺得創業很殘酷。它焦慮、痛苦,但同時又很快樂、很酷。有人說過:當你做一件你熱愛、也很痛苦卻又很爽的事,那可能就是你的「天命」。這有點像極限運動,它確實很危險。但在過程中,你不能總是想著危險,否則就真掛了,你得專註解決眼前每一件事。它也有點像魂類遊戲:小怪兩刀把你放倒,BOSS 更是一刀秒,可一旦摸到那條“正確路徑”,也能戰勝原本強大的對手。挫敗感拉滿、正回饋也拉滿。我覺得這是創業的魅力,也是我熱愛這件事的原因。晚點:你的投資人之一,明勢合夥人夏令說你是「遇強則強」 的創辦人。陳冕:是有點這樣,我們遇過3 次比較大的挑戰:第一次是找第一個產品的PMF,我覺得我先看到了PMF,後來被驗證,我很快樂。第二次是差點倒閉。我覺得這怎麼會倒閉?不會的!然後沒倒閉,更加快樂。第三次是怎麼做出Lovart——在明確知道上一代產品不是未來時,怎麼盡快做出下一代產品,怎麼用想像力描繪未來,而且我們居然第一個做到了,更加快樂。每一次都是最焦慮、最痛苦的時候;但每一次跨越,我的成就感都越來越大。當然再往下,你可能還會承受更大的痛苦。但痛苦和快樂是並生的。晚點:你害怕自己身上的什麼特質嗎?陳冕:害怕自己迭代速度不夠快。至於要不要焦慮這件事,其實需要取捨。如果科技發展放緩,我們要沉下心做精細化,穩一點;如果仍在加速,就必須擁抱新東西,用極致的焦慮逼自己保持高敏感、快吸收、快決策。晚點:你說焦慮需要“取捨”,但一般認為焦慮是一種情緒,挺難被控制。難道你有一個開關,可以去打開和關閉焦慮嗎?陳冕:我可以用一些方式遮蔽它。例如你應該接收多少外部資訊?至少在目前,我覺得還是要保持高頻訊息接觸。以及我要在冷靜下來時,去處理情緒,我覺得這個我是可以控制的。晚點:你好像在用底層的理性控制上層的感性表達?陳冕:對。有些人會覺得我超級感性,能量很高、非常嗨。但本質上我是個感性的理性者。因為AI 真的沒辦法計劃,我越來越依賴各種資訊給我的feeling,以及靈感湧現。但做決策還是理性,例如團隊上也是,迭代很快,合適的人留下,不合適的及時調整。晚點:我看到你最近的「感性」 一面,是分享了TI14 Dota 2 的比賽結局,Extreme 戰隊輸了,你說:「青春總有遺憾」。陳冕:對,他們跨越六年、輸了三次。每次都是在2 比2 時輸掉最後一局。我是Dota 老玩家,所以有些感傷。這也是一種投射,他們也是為了自己的喜歡的事在努力奮鬥,有非常多波瀾起伏,也有非常多遺憾。但是如果不去做,就沒有青春。青春就是奮鬥的過程。晚點:你現在還能感覺到青春在心中湧動嗎?陳冕:現在就是我的青春。過去在學校、各家公司的工作,都是為了現在。這是我真正第一次自由的、全情的、瘋狂的想做成一件事情。 (晚點LatePost)