Token定名“詞元”:中文在AI時代對英文的降維打擊

我之前分析過中華文明相比西方文明高了不止一個維度,這其中一個至關重要的因素就是文字,作為文明的載體,漢字作為人類現存唯一的原生文字,比經過埃及文字一再簡化得來的英文高3個維度。因此,將來基於漢字的大模型基座也要比現在的英文基座高3個維度。

有人可能會反駁說,現在同樣一段內容,用中文輸入比英文費token詞元,不是說明中文不如英文嗎?

目前來看,這是一個事實,我們要承認事實,但也要弄清楚事實表象下的具體原因。

詞元這個名字起得很形象,表達詞義的基本單元,簡稱詞元。

很多人誤以為1個漢字對應1個詞元,其實這是常見誤區。

大模型會先通過分詞器拆分文字,再將拆分後的碎片轉化為可運算的數字,這些碎片才是詞元。

根據主流大模型官方換算標準,中文場景下,不同模型的詞元與漢字換算存在差異。

阿里通義千問接近1詞元對1個漢字,騰訊混元約1詞元對應大概1.8個漢字。

OpenAI官方資料顯示,英文場景下1個詞元約等於4個英文字母或0.75個英文單詞,1000個英文單詞約對應大概1400個詞元。

同樣表達“人工智慧技術正在快速發展,深刻改變著我們的生活”,中文約30個漢字,按騰訊混元規則消耗約17個詞元,按通義千問規則消耗約30個詞元。

對應的英文“Artificial intelligence technology is developing rapidly and profoundly changing our lives”共33個字母,7個單詞,約消耗11個詞元。

中文詞元消耗確實更高,至於高多少則取決於模型的分詞最佳化程度。

為什麼中文與英文詞元消耗會有差異?

底層原因是中國人讀漢字和美國人讀英語時,大腦的運行機制存在顯著不同,這一差異也間接影響了大模型對兩種語言的處理邏輯。

結合北京師範大學認知神經科學與學習國家重點實驗室的研究,兩者的核心差異主要體現在三個方面。

一是啟動腦區不同。

中國人閱讀漢字時,主要啟動大腦左半球的額中回和枕中回,它們負責漢字的視覺識別和表意解析。

同時會啟動與空間認知相關的腦區,這是因為漢字的象形特性和偏旁結構需要空間感知能力。

而美國人閱讀英語時,主要啟動左半球的顳上回和角回,它們負責拼音解碼和詞彙關聯,側重語音加工腦區的啟動。

二是加工路徑不同。

漢字閱讀遵循視覺和表意雙重路徑,大腦先識別漢字的視覺形態,如偏旁部首,再快速關聯其語義,無需經過複雜的語音轉換。

英語閱讀則遵循從視覺到語音再到語義的單一路徑,需要先將字母組合解碼為語音,再通過語音關聯語義,多了一個語音轉換環節。

三是記憶儲存方式不同。

漢字的語義記憶與視覺形態深度繫結,大腦會將漢字的字形、字義、字音整合儲存,形成獨特的漢字語義網路。

而英語的記憶更側重語音和詞彙的關聯,語義儲存與字母組合的繫結度較低。

基於漢字的這些特點,影響中文詞元消耗的核心原因有兩個。

其一,中文是單字獨立表意,每個漢字都是一個完整的語義單元,但大模型的分詞器無法直接將單個漢字作為高效運算單元,需要將漢字組合成分詞。

比如“人工智慧”“快速發展”,再拆分為詞元,這就增加了拆分環節的冗餘。

而英文是拼音文字,單詞本身就是天然的語義單元,分詞器可直接將單詞拆分為詞元,甚至可拆分單詞前綴後綴,運算效率更高。

其二,語言學研究表明,漢語單字資訊熵顯著高於英語等拼音文字,每個漢字承載的獨立意義更多。

結合大腦對漢字的視覺直接到表意的加工特性,大模型需要用更多詞元來解析這種高密度資訊,才能精準捕捉語義。

顯然,目前漢語詞元消耗多的唯一原因就是我們用了不適配的英文大模型基座,相當於脫了褲子放屁,費了二遍事。

那麼能不能開發漢字原生大模型基座呢?

不但可以,而且效率要遠高於英文模型,原因就涉及到開頭我們提到的,漢字比英文高了3個維度。

第一個維度,漢字作為世界上獨有的既表音又表意的原生文字,從甲骨文、金文、篆字,到隸書、楷書再到現代簡體字,有著完整的演化脈絡。

比如“道”字,最初甲骨文是“一個大腦袋走在十字路口”的象形,後來引申為“規律”,再到《道德經》中的“終極宇宙模型”。

而英文中表達“規律”用“law”,表達“道路”用“road”,兩個詞毫無關聯,而漢字一個“道”字就能承載多重關聯語義,兼顧簡潔與深度。

第二個維度,漢字的偏旁部首模組化結構,以及單字高資訊密度、組合無窮的特點,都為原生基座的開發提供了天然優勢。

比如“氵”旁多與水相關,如江、河、湖、海,“木”旁多與植物相關,如松、柏、桃、李,這種內在關聯能讓模型快速捕捉語義關聯。

而英語中“river河”、“lake湖”、“sea海”沒有任何形態關聯,模型只能單獨學習。

第三個維度,漢字可以組合成新的單詞。

漢字僅需5000多個基礎字,就能描述從古典文獻到量子力學的所有內容,單字資訊密度高,兩個字就能組合成新詞彙,比如“算力”“元宇宙”“量子”。

無需像英文那樣不斷創造新單詞,比如“元宇宙”,英文需創造“metaverse”這個全新單詞,且全球使用者都要重新學習記憶。

而漢字僅用“元”表示本源,加上“宇宙”兩個基礎字組合,即便不解釋,中國人也能快速理解其“本源宇宙”的核心含義。

此外,漢語的凝練性也遠超英語,比如“不忘初心,方得始終”,僅8個字就蘊含“堅守本心才能實現目標”的哲理。

對應的英文翻譯“Never forget your original intention, and you will achieve your goal”需要16個單詞,不僅篇幅翻倍,還丟失了原文的韻律和意境,這也是漢語高資訊密度的直接體現。

基於這些特點,漢字原生大模型基座,相比現有的英文原生基座,有三個不可替代的優勢。

第一個優勢是參數效率高而算力需求低。

史丹佛大學實測資料顯示,中文整體資訊密度是英文的3.7倍,單個漢字承載的資訊量是英文字母的2倍多。

漢字常用字僅5000個,而英語常用詞有10000個,漢字的詞嵌入數量通常是英語的一半。

從目前已有的實驗模型看,最佳化後的中文詞表可使中文編碼效率提升350%,相同任務下漢字原生基座的算力需求比英文原生基座低差不多一半。

此外,中國資訊通訊研究院資料顯示,在複雜邏輯處理場景中,最佳化後的中文AI能耗比英文AI低42%。

當未來大模型的研發成本被極致攤薄後,決定詞元成本的就是能耗,而同樣內容中文模型比英文省一半的電,這優勢還不夠明顯嗎?

第二個優勢是語義理解更精準、更具可解釋性。

英文原生基座的核心邏輯是機率統計關聯,通過海量語料學習詞向量共現,無法真正理解符號背後的意義。

而漢字原生基座可依託漢字的表意特性和演化脈絡,建構義項圖網路,先理解每個漢字的義項和文化意涵,再通過偏旁部首的關聯理解詞彙,讓模型真正識字,而非單純學習詞彙共現。

這能大幅提升語義理解的精準性和模型推理的可解釋性。

第三個優勢是文化適配性強,且具備天然的創新潛力。

漢字原生基座可深度融入中國文化、哲學邏輯,避免英文原生基座在中文場景下的語義偏差和文化誤解。

比如“和而不同”,英文翻譯為“harmony without uniformity”,很難傳遞出中國傳統文化中“包容差異、共生共榮”的深層內涵。

而漢字原生模型能直接依託“和”“不同”的本義及文化積澱,精準理解其核心思想。

同時,漢字無窮組合的特性,能讓模型快速適配新場景、新詞彙,無需頻繁更新訓練語料。

比如汽車、火車、公車,中文一眼就能認出這是不同的車,而英文對應的car、train、bus,則是毫無關聯的單詞。

根據美國國家教育統計中心2023年發佈的資料,美國21%的成年人為功能性文盲,即閱讀能力不足以完成日常複雜讀寫任務,28%的成年人讀寫水平處於或低於1級,即存在嚴重讀寫困難。

我們之前一直以此嘲笑美國教育制度,其實多少有點錯怪他們。

畢竟英文單詞量從莎士比亞時期的20萬增長到如今的100萬,每年仍以數千個的速度新增。

其中35%來自社交媒體等新興場景,大量專業術語、外來詞不斷湧入,導致單詞量持續膨脹,大大增加了學習成本。

就算莎士比亞穿越到今天,一大半單詞根本不知道啥意思,也得成文盲。

但同時期中國的湯顯祖穿越過來就沒什麼影響,起碼不用從頭背單詞。

未來中文原生大模型基座,不論性能還是功耗都將遠遠優於英文模型,再加上中國的電力基礎設施,你說未來AI的語言會是那種呢?人類未來的語言又會是那種呢? (墨子連山)