誰是AI界的余承東,敢說敢幹,貼著科技最領先的公司打仗?劉慶峰顯然算一個。
20多年前,劉慶峰和科大訊飛的對手是微軟、百度等大公司,戰場是智慧語音;現在,劉慶峰的目光跨越兩萬公里的太平洋,他只有一個態度:貼著矽谷一家名為OpenAI的公司打仗。
「GPT-5一出來,我們有可能跟它又有點差距了,但我們還在迎頭趕上,我們知道怎麼做。」今年全國兩會期間,全國人大代表、科大訊飛董事長劉慶峰接受《中國企業家》獨家專訪時說。
科大訊飛的作戰圖是這樣的:2023年5月,科大訊飛發布星火認知大模型;6月9日,突破開放式問答,多輪對話能力和數學能力再升級;8月15日,突破程式碼能力,多模態互動再升級;10月24日,通用模型對標2022年11月發布的ChatGPT(GPT3.5),中文能力實現超越ChatGPT,英文能力與ChatGPT相當;到了今年1月,星火認知大模型的數學、語言理解、語音互動能力都超過了GPT-4 Turbo,程式碼和多模態理解能力也達到了GPT-4 Turbo的九成。
「6個月內,我們可以達到現在全世界最好的GPT-4最優的水平。」劉慶峰說。
OpenAI最新推出的Sora,被稱為“世界模擬器”,被認為顛覆了現實與虛擬的界限。但不同於OpenAI在技術上的“花活”,劉慶峰是一個堅定的務實主義者。
劉慶峰認為,對於大模型的多模態能力,生成影片只是娛樂,更優先級的是進入工業場景、生活場景、家庭陪伴機器人等具身智能,「大模型的多模態理解能力比多模態生成更重要」。
1月底,科大訊飛發布業績預告,預計2023年實現歸屬於上市公司股東的淨利潤6.45億元~7.3億元,年增長15%~30%,公司在人工智能通用大模型及行業大模型方面高強度投入並取得顯著進展。2023年,科大訊飛的股價上漲了約42%,截至3月7日收盤,其股價為50.27元,總市值1,164億元。
以下為劉慶峰採訪內容實錄(有刪減):
劉慶峰:第一,透過人工智慧對現有的產業,以「人工智慧+」的行動來進行全面賦能。由於這次以大模型為代表的通用人工智慧的發展,它在文字生成、知識問答、邏輯推理、數學能力、程式碼能力、多模態能力等方面都有非常強的提升。
所以它可以改變資訊生成的方式,改變知識生成的方式,改變人機互動的方式,改變科學研究範式和程式設計這些產業的效率,會徹底顛覆現代以人力和市場為主要形式的商業模式。
人工智慧本身就會為傳統產業以及各產業在升級過程中,帶來全新的新質生產力價值環節的提升。
第二,人工智慧可以創造更多全新的產品和業態,可以帶來未來的全新的發展機會。舉個例子,當我們的(機器)翻譯技術沒有超過人工之前,翻譯機是很難普及的,可是隨著技術進步,現在伴隨出境遊客變多,我們的翻譯機銷量大增。它不僅僅是一個中英翻譯,它有80多個翻譯語種,涵蓋全世界200多個國家和地區,這些技術都帶來了全新的成長。
類似翻譯機這樣,人工智慧創造了許多全新的產品形態,例如醫療方面,有了銀髮關懷、家庭醫生追蹤、慢病管理、院後追蹤等,很多原來沒有的服務形態,現在透過人工智慧技術一把創造出來了。
劉慶峰:我覺得基本邏輯是這樣的:ChatGPT讓人看到,使用者是願意為好技術買單的。
OpenAI透過技術,一開始有用戶因為好奇心買單,但我們可以看到更多的是實用主義來買單。
2023年五、六月,ChatGPT的活躍度一度有所下滑,但到9月、10月的時候又重新上來了。最早大家是因為好奇,但實際上它有很多方面做不好的地方,例如有時一本正經地胡說八道,也有很多錯誤。
從我們既有程式碼能力來看,它可以通過谷歌二級程式設計師測試,可是用我們現在給的程式碼測試集,在真實場景下,GPT得分只有62分,GPT-4是71分,現在我們科大訊飛已經做到68、69分了,所以很多人在用的時候會一開始極度興奮,但在使用過程中也會出現一些失望。
這就跟Gartner曲線(描述技術發展週期的專業圖表)一樣,總有一個概念爆發的夢幻期,然後到泡沫破滅。但它不是真的破滅,是有很多人帶著過度樂觀、過度神化的角度看到沒有那麼好,又開始理性,理性之後再慢慢堅持下來,又會出現持續增長,進入推動社會進步的階段。
這次我們看到大模型的進程非常快。從訊飛星火也能看到,現在我們有將近3000萬用戶,他們使用最多的不是周末而是工作日,不是晚上而是白天,上午9:30、下午3:30是高峰期,因為它提升了你的工作效率,帶來了許多剛需應用的提升。
所以通用人工智慧表現出的特點是一個技術的進步,一個專門的技術應用就可以獲得VIP用戶的付費,可以形成一個產業生態。
但我覺得更大的賦能肯定還是在各產業領域的最終落地,體現在最後的具體產品、系統和服務上面,這才是更主流的。
訊飛星火在2023年5月6號推出來之後,短短半年多時間已經有40多萬個開發者團隊,而且在我們整個AI開放平台上,2023年一年新增了200多萬個開發者團隊,大家在各個領域都用它來創造新的產品。
劉慶峰:大家對Sora過度神化了。實際上,它的底層能力還是GPT-4。沒有GPT-4的語意理解能力、文本生成能力,Sora是沒辦法做出來的。
在基本能力之上,OpenAI做了語音大模型Whisper,做了視訊理解大模型GPT-4V,實際上因為有了GPT-4的底層能力和GPT-4V來幫助做標註,因為很多的視訊原來靠人去標註,一幀畫面,你要花很長時間才把所有細節都寫清楚。
舉個例子,迪士尼動畫片《白雪公主》畫了好幾年,因為你要把它一格的所有細節都描述出來,靠人難度太大。GPT-4會幫助人標註,使得資料標註這件工作能夠快速啟動,從而使得大模型可以訓練,然後用傳統的常規圖像生成方式結合Transformer的架構,就是現在我們看到的Sora。
Sora並未讓大模型應用對真實世界理解又上了個大台階,也不是對物理的認知又上了個台階,本質是GPT-4的底層能力在這個領域的一個成功實踐。
劉慶峰:訊飛星火3.5現在已經超過GPT-3.5了,我們正在對標GPT-4,半年內,我們能夠達到現在GPT-4最好的水準。
當然,GPT-5一出來,我們有可能跟它又有點差距了,但我們還在迎頭趕上,我們知道怎麼做。我們本來計畫是星火對標GPT-4Turbo,然後年內會出GPT-4V,現在Sora出來,大家有很多需求,有可能我們會把GPT-4V的進度往前提,然後再做Sora。
從本質上來說,我們和OpenAI沒有世代差距,只是我們的算力、我們的資料資源優先往哪邊放的問題。我們也有類似的計劃(推出Sora),但這個計劃要排在通用大模型後面一點。
在我看來,對千行百業的賦能,大模型多模態能力中的多模態理解能力,其實比多模態生成更重要,它會對工業場景,對生活場景,對家庭陪伴機器人,對具身智能有巨大的推動。
生成影片只是對娛樂,對媒體(賦能)。大模型的多模態辨識才是對千行百業深度賦能,這個我們排在更優先級,而且我們現在在國內更加領先了。
劉慶峰:我們跟華為透過軟硬體深度聯手,2023年10月,我們在國內推出首個萬卡規模的可以訓練萬億浮點參數的國產大模型「飛星一號」。
星火V3.5就是基於完全國產算力訓練出來的,國產算力現在跟美國最新的算力比還有一些差距,但是透過軟體和硬體的深度結合,透過網絡,多卡多機連動的優勢可以做適當彌補,從而使得在算力方面我們不至於被徹底卡住「脖子」。
在這個基礎上,我們同樣可以訓練出追趕美國最好的大模型系統。透過大模型能力快速追趕的同時,我們就可以在教育、醫療、智慧城市以及工業等許多應用領域形成優勢。(中國企業家雜誌)