中國大模型賽道上的所有選手,都期待著能押中AI時代的超級應用。
然而,至今為止,中國所有的AI助手應用加起來的DAU,也才就千萬量級。而在2022年底爆火的ChatGPT,在兩個月內就收穫了1個億的使用者量。
自ChatGPT引爆AI大模型熱潮以來,中國大模型就一直面臨著一半冰,一半火。火熱的是行業內的學術交流、討論、積極探索,冰的是,資本的謹慎、觀望和對大模型PMF的爭論。火熱的是,“百模千模”競相登場,冰的是,在嘗鮮期後,使用者似乎“留下來”繼續使用的意願不大。
對於在這條賽道上狂奔的創業者來說,這種“冰與火”的交替淬煉,讓這難忘的一年多似乎堪比上一個創業熱潮的十年。在2024智源大會現場,騰訊科技獨家對話了大模型行業的創業者、零一萬物CEO李開復博士。
從創業導師到創業者,李開復被媒體稱為“AI行業最年長的創業者”,比任何人都敢於講真話:
“大模型的評測得分,並不是每一家機構的數字都是可信的。”
“即使在大模型時代,獲客的漏斗模型依然有效。”
“一些AI工具的投流量巨大,但ROI是多少?是否適配‘持久戰’還待觀察。”
“太多使用者把AI助手當搜尋引擎用,大模型市場教育是目前最重要的事。”
這幾句話,也透露出李開復對於大模型創業“現實”的嚴肅思考:模型能力是必須苦煉的基本功,權威可靠的BenchMark才能秀真正的肌肉;向“投流”要增長的前提是產品能力和產品留存率,否則就是“白白燒錢”;中國大模型AI助手賽道遠遠沒有到達爆發時刻,使用者滲透率極低,使用者教育成本極高——即使有這樣多的AI助手產品被推出,還是有太多的使用者僅把它們當“搜尋引擎”用。這條賽道上的“創業長者”李開復,開始主動拍視訊、主動做分享,還號召友商一起合力完成市場教育。
“過去很多事情比如移動支付、短影片都是中國一下就引爆了,然後美國來學著的,怎麼這次倒過來了?我們現在最重要的事情是盡快推進市場教育,這樣才能夠讓整個大模型生態健康地往前發展。”
以下為對話內容:
騰訊科技:如何客觀評判一個大模型的強弱,大模型的能力對大模型公司的未來發展意味著什麼?
李開復:如果只是講大模型的Benchmark,我覺得並不是每一家的數字都是可信的。客觀評判有幾個辦法,首先是自己實際用,接入API,最好可以有兩三家來做對比。這個肯定是不會錯的,但是比較耗費時間。而且如果是有二三十個模型,你不可能一個一個拿來試。
我建議大家參考一個有公信力的第三方平台。比如Chatbot Arena,它是讓上千萬的使用者“盲測”,我覺得這是現在最公平的方法。除了伯克利的LMSYS Chatbot Arena,另外還有斯坦福的AlpacaEval,它是一種基於 LLM 的全自動評估基準,機器評測而非人來測。
所以我會建議大家從這兩個擂台裡面挑選性價比最適合你的幾個模型,然後自己去做測試。因為第三方平台會確保沒有讓大模型“刷題”,還有大量的真實使用者,而且是用科學的方法,他不是讓最好的模型跟最壞的去廝殺,他會像國際象棋圍棋打分一樣的,最頂級的9段打9段,8段打8段的,做出來顆粒度很細,可信度很高。
零一萬物Yi-Large千億參數模型參加了上面兩個權威評測,都取得了國際領先的成績。尤其在5月21日LMSYS公佈的評測中,Yi-Large在中國大模型中排名第一。在公司排名上,零一萬物也僅次於OpenAI、Google、Anthropic三家矽谷巨頭,是全球第一梯隊裡唯一一家中國公司。
不少國內公司說他們打敗了Google、OpenAI、Antropic的最好的模型,我其實建議在說這個話之前,把自己的模型拿到這兩個“大模型擂台”,講出這話才更有公信力。
騰訊科技:實測尤其是接入API,專業使用者或企業使用者能比較客觀感知到模型能力的強弱,但是C端使用者可能從AI個人助手等產品體驗,感知沒有那麼明顯,這時候怎麼選擇呢?
李開復:對,你講得非常對。國內眾多AI助手中,我們對某些助手的模型持認可態度,但對其使用者體驗卻不滿意;而對另一些助手,我們對其使用者體驗感到滿意,卻不認可其模型。這兩者之間自然是存在相關性的。如果模型本身質量不佳,那麼很難通過其他方式來彌補。然而,在擁有一個基本合格的模型的基礎上,通過工程手段可以顯著提升產品體驗,包括交流過程、對話方式、問題回答方式、問題格式化,以及製作美觀的圖表,使回答更加親切、可愛,從而贏得使用者的喜愛。
另外還可以用RAG來提升體驗,所謂的"RAG"(Retrieval-Augmented Generation),即利用更多的資訊庫和即時資訊來彌補模型的不足。這不僅可以補充大型模型可能缺乏的最新語料或新聞,還可以解決事實性問題,某種程度上解決大模型可能產生的幻覺問題等。
RAG技術非常實用,今年3月,零一萬物進一步推出了基於全導航圖的新型向量資料庫笛卡爾(Descartes),為RAG提供了高效極速的檢索機制,0.1秒判別使用者意圖,極速調度檢索,給予使用者高效的優質反饋。這項技術也應用到了零一萬物研發的AI“特助”萬知上,不僅知識問答場景支援即時訪問和整合網際網路資訊,為使用者提供最新的資料和見解,在AI讀文件場景上,Yi大模型本身的超長上下文窗口搭配領先的RAG方案,共同建構起了萬知“5000頁文件速讀”的超長文件閱讀能力。60萬字的英文小說《馬斯克傳》一度讓不少AI助手“當機”,萬知則能輕鬆解讀。
有些公司在RAG方面做得非常出色,當你詢問關於新聞事實性的問題時,它們的回答非常準確,但實際上並非它們的大型模型在回答。
說了這麼多,我認為每個使用者都有自己喜歡的最佳助手。因此,我們推出了"萬知"助手,並且在使用者體驗方面也做得相當不錯,但是我們會繼續努力。
騰訊科技:為什麼大模型公司面向C端都選擇推出個人助手?
李開復:別人為什麼做我不太清楚,但是我們為什麼做個人AI助手?我們其實是認為中國現在面臨的一個比較大的挑戰,就是還沒有全民使用大模型。用這樣的一個ChatBot是可以讓每個人都能容易體會到這個很好用很聰明,慢慢的市場就被教育了,有了這個基礎你就可以做生產力工具、可以做遊戲、做各種TOC、 TOB的應用。
今天我們可以看到的是,在國內全部大模型DAU加起來可能是千萬量級,非常小,比我們平時用的每個應用都小很多。這說明使用者的市場教育還遠遠沒有完成。ChatGPT moment就在前年的12月,它被推出來之後迅速席捲全球,兩個月之內達到1億使用者,這樣的現象級事件在中國還沒有發生。
中國的這些助手有幾家做的真的挺不錯的,甚至我覺得是可以對標當時的ChatGPT的。ChatGPT點燃了美國市場,市場被教育之後,創業也容易了、銷售也容易了,大公司去接受也容易了。我們現在最重要的事情是盡快推進市場教育,這樣才能夠讓整個大模型生態健康地往前發展。
我覺得這是所有友商都應該去一起推動共同的目標,這個目標如果達不到,其實TOC、TOB往前推進都會有挑戰。
騰訊科技:既然中國最好的幾個工具都可以媲美當年的ChatGPT,為什麼美國點燃了,中國沒點燃?
李開復:這個問題很值得探討。而且過去很多事情比如移動支付、短影片都是中國一下就引爆了,然後美國來學著的,怎麼這次倒過來了?我並不確定答案是什麼,但是有可能是美國ChatGPT,當年就這麼一個產品,有史以來從未有過,媒體大量報導,非常引人矚目,點燃了市場,也讓OpenAI得到了非常便宜的流量。
今天中國的情況似乎是有幾家公司都做得不錯,但是就沒有點燃這件事情,所以我覺得教育市場是現在的當務之急。
中國大模型工具做了這麼一段時間才達到千萬量級DAU,我們一定要反思這個問題,僅僅花錢去燒流量,完全沒有用。
今天中國AI助手不是因為錢燒得不夠多,而是因為留存不夠,留存為什麼會不夠?競品太多,反而大家覺得不稀奇了,這可能是一個非常重要的理由。
另外我覺得還有一個理由就是當市場教育不足的時候,一個使用者第一次接觸這樣的一個ChatBot,他可能覺得長得像搜尋引擎,我就把它當搜尋引擎用。但是 ChatBot不見得會比搜尋引擎答得更好,你如果說今天天氣怎麼樣,或者是說某個省的最小的城市是什麼,最大的城市是什麼?
搜尋引擎都是基於知識型、新聞型的常見的問題,搜尋引擎經過多年的技術發展,基本都可以完美的回答。
所以大家把一個可以幫你寫作文、可以幫你分析場景、可以幫你寫PPT的聰明小助手,你就把它當搜尋引擎用,大材小用了。
所以我們也呼籲使用者用AI小助手的時候,請把它當助手用,不要把它當一個搜尋引擎用。
騰訊科技:會不會還有一個問題是現在使用門檻還比較高,因為其實不同的Prompt指令給到小助手,其實收到的效果還是很不一樣的。
李開復:對,把它當搜尋引擎用是一個問題,還有一個問題是,你不知道怎麼問問題。比如你問一個很泛泛的問題,“幫我想寫篇主題是AI的演講”,內容肯定是寫得不好的。
你要給它很多細節,所謂的prompt engineering,這個工作也是教育市場的一部分,所以我現在也錄了很多小影片,就是希望能夠讓使用者瞭解,我用這些小助手結果不好,其實是我問題可以問得更好,教大家怎麼去問好問題。
我覺得在大模型時代,最強大的人,其實不是最能夠寫內容的人,而是最會問問題的人,最會問問題的人搭配一個最好的小助手,那就會比原來的會生成內容的人都要強大很多倍。
騰訊科技:剛才你提到既然留存還不足,如何看待現在AI應用產品已經在大範圍“投流”的現象?
李開復:這個答案其實在過去20年裡都沒有變化:當你的產品達到了產品市場契合度(Product Market Fit, PMF)並且使用者留存足夠時,就可以開始花錢購買流量。因為買來的流量能夠轉化為留存使用者,這些使用者之後可能會通過其他方式進行變現。所有的商業模式都遵循一個漏斗模型。你首先吸引大量使用者試用你的產品,然後其中一部分使用者可能會每天或每周使用一次,這些使用者中又有一部分可能會付費,付費之後,他們的生命周期總價值(Life Time Value, LTV)是多少——也就是公司從使用者所有的互動中所得到的全部經濟收益的總和。
通過這個公式,你可以計算出,比如花費10塊錢購買一個使用者,留存的機率是40%,留存後付費的機率是10%,付費的金額是100塊錢,今天花費的購買使用者的錢是否最終會回到你的口袋,因為他們中有一部分會留存,有一部分會轉換為付費使用者,並且他們付費不是一次性的,可能是長期的。
這個長期付費的金額,如果按照今天的現值來計算,會是多少。你需要比較這個金額和你投放的成本,哪個更高。
這種平衡遊戲是所有從事使用者增長和產品經理工作的人的重要技能。今天,一些智能小工具的投放量很大,但它們的打法是否有合理的ROI,是否能做到‘持久戰’還有待觀察。你投入的錢買來了一堆使用者,但這些使用者在一周或兩周內大量流失,然後你再去買一批,再次流失。
這就像你的游泳池下面有一個漏洞,不管你怎麼加水,最後都填不滿。
所以,我認為這是需要反思的。為什麼會出現這種現象?首先,使用者的認知問題,使用者認為智能小助手沒什麼了不起,好幾家都能做,不值錢也免費,這個問題大模型行業暫時不能解決,只能慢慢教育市場。
第二個問題是,大家把它當作搜尋引擎使用,一用就發現不如平時的搜尋引擎,然後就不再使用了,使用者就這樣流失了。所以這是一個核心問題,我在這裡再次強調,希望大家不要把它當作搜尋引擎使用,否則使用者流失是必然的。
再往下的問題可能是產品功能還不夠強大,融入的模型還不夠好,使用者體驗還不夠清晰,以及還沒有一個爆髮式的場景能夠點燃使用者的需求。
因此,在零一萬物,我們選擇繼續打造“模應一體”,不斷迭代頂尖模型,認真打磨產品,直到我們看到一個TC-PMF(技術成本✖️產品市場契合度),也就是說,我們投入的錢能夠帶來至少是有建設性的發展,即使不能說打平賺錢,但至少說使用者留存增加了,這就會給我們信心,讓我們覺得也許推廣的時代到了,市場教育可能會成功,應用井噴的時代可能會到來。
騰訊科技:正好還想問問您做萬知的首席體驗官這一段時間有什麼有趣的小故事可以分享嗎?
李開復:有朋友會提一些難題給我,有一位朋友他跟老婆吵架了,然後要寫道歉信,然後我就幫他去發問,把很多他們夫妻之間的問題加到了我的prompt裡面,然後寫出來一封非常感人的信。
當然他也做了一些修改,因為大模型不會講細節,它是根據過去的歷史去生產最高機率的文字,所以你如果跟老婆曾經有一個很細節的故事,它可能不知道,或者知道了,它可能也不會選擇去用。人做一些修改還是有必要的,“人機結合”這封信,老婆看到就流淚了,然後兩個人就和好了。
騰訊科技:你在體驗產品之後,如何給產品提建議呢?大模型時代的產品是不是和移動網際網路的時代的產品有很不一樣?比如改Bug這件事就有很大不同?
李開復:對,非常不同。非大模型的產品找到了一個Bug,直接改程式碼就修復了。現在你沒有辦法告訴大模型,下次不要這麼回答,這是大模型的技術特點決定的。你需要收集大量的資料,然後用這些資料去重新微調它,或者用一些類似的方法把它引導到更正確的方向。
雖然每一次大模型產品更新是不可能把每一個問題都修復,但大模型時代的產品修復率反而可以高速擴張。
比如傳統的 APP,如果有Bug,你修10次沒問題,如果是100萬個怎麼辦?修不完。但是現在大模型如果有100萬個,你可以把它輸進去,可能明天80萬個就解決了。所以大模型時代的產品是可以schedule做大量且並進的修復和迭代。
騰訊科技:最後一個問題關於您個人,媒體評價你為AI行業最年長的創業者,團隊還會不會因為你的威望和經驗,選擇服從你?如果你犯錯怎麼辦?
李開復:作為一個CEO,我認為特別重要的是要有自我意識,即知道自己的長處和需要改進的地方。當領導團隊時,如果你對某個領域特別瞭解,或者對事情的執行方式、公司的戰略、銷售、產品功能或技術有清晰的認識,你就應該告訴團隊必須按照你的想法去做。
因為在當前競爭激烈的市場中,我們沒有時間讓公司內部產生內耗,所以需要有決斷力和做出決策。但如果你真的不懂某個領域,盲目做決策,走錯路還不如不行動。因此,我非常清楚自己的強項在哪裡,我會把我的時間花在那些只有我才能解決的重大問題上,因為沒有人能替代我。
這三件事情可能已經佔據了我80%的時間,而對於其他七件不那麼關鍵的事情,我希望能夠清晰地授權給其他人,並下放權力和決策權,這非常重要。但在下放過程中,最好只下放給一個人,以避免內部混淆。公司的決策需要清晰可解釋,讓每個人都理解,公司的戰略可以調整,但不能頻繁變動,每次調整都必須清楚地解釋。
我不僅認為自己是最年長的創業者,也是經驗最豐富、見識過各種成功和失敗、總結最完整的人,對自我認識也更清晰。我採用的管理方法很有彈性,一個好的管理者或CEO不是單一的,他可能擅長放權、懂技術、懂商業或有決斷力,而且在正確的時間根據具體情況和環境來判斷使用什麼方法來領導團隊。
例如,在模型訓練的細節上,儘管我是AI領域的專家,但我絕不會干預團隊說應該使用這個演算法而不是那個演算法。我最多隻會建議他們參考某篇論文,如果不行,我會信任他們的專業判斷。
在產品方面,作為首席體驗官,我有更多的發言權,但我必須確保真正做決策的不是CEO,而是產品經理。產品經理自然會把CEO的意見看得很重,但正因為如此,CEO需要弱化自己的要求,避免過多干預。
對於公司戰略,這是我的決策領域,我會聽取大家的意見和建議,然後做出判斷。公司的重要人事任命絕對是我的決策,公司的發展方向、消費決策,比如租用或購買多少GPU,以及公司整體系統的策劃和未來的上市計畫,這些都是我需要親自負責的。因此,我需要分清楚哪些是我必須親自做而且我能做得最好的,這些領域其他人只需給我意見。其他事情可以由更專業的人來決定,我只需把戰略講清楚,然後把決策權下放到負責人身上。 (騰訊科技)