#詞元
阿里、騰訊、字節,又開戰了!
筆記君說:最近,整個商業圈和AI圈,都被同一個詞徹底刷屏了。這個詞,黃仁勳在萬眾矚目的GTC大會上,全程掛在嘴邊,把它抬到了未來經濟核心支柱的高度。阿里為它成立了和淘天電商、阿里雲平級的一級事業群,由集團CEO吳泳銘親自掛帥;釘釘創始人無招,直接把做了11年的釘釘徹底打碎重寫,All in這個賽道。除了阿里,字節跳動和騰訊都已深度押注Token經濟。字節從“賣算力”轉向“賣智能”,將Token視為新一代增長引擎,邏輯是“大模型不被大規模使用就是廢紙”。騰訊3月將原MaaS平台升級為 TokenHub ,開放微信、小程序、企業微信、元寶、QQ等國民級應用生態,推出“龍蝦管家”等工具。阿里、字節、騰訊都從“模型競賽”走向 “Token效率競賽” 的新範式。甚至連國家資料局,都專門在國家級論壇上,給它敲定了官方中文名。這個詞,就是Token,官方定名:詞元。與此同時,一組震撼的資料也同步公佈:2024年初,中國日均詞元呼叫量僅為1000億;到2025年底,這個數字躍升至100兆;2026年3月,已經突破140兆,兩年時間增長超千倍。很多人可能早就聽過這個詞,覺得它只是一個AI圈的技術黑話,和自己的企業和生意沒什麼關係。但我想告訴你的是:科技大佬們下重注的詞元經濟學,從來都不只是一個技術術語,而是一套正在重構整個商業世界、甚至重塑全球競爭力的完整經濟邏輯。它不僅決定了未來十年你的企業能不能活下去,甚至藏著中國智能時代的國運級機會。今天,我們就用大白話,把黃仁勳、吳泳銘、無招都在談論的詞元經濟學,一次性講透。一、詞元到底是什麼?想要看懂詞元經濟學,首先要搞懂:詞元到底是什麼?1.詞元,是AI能讀懂的“最小識字積木”我們人類說話、寫字,最小的資訊單位是字;但AI不一樣,它沒辦法直接讀懂人類的文字,它有自己的“語言體系”,而詞元,就是AI能聽懂、能處理、能輸出的最小資訊單位。舉個最簡單的例子:1個漢字是1個字元,但1個詞元,可能是一個詞、半個詞,甚至一個標點符號。比如“吃飯”這2個漢字,在AI眼裡可能就是1個詞元;“人工智慧”4個漢字,可能會被拆成2個詞元;英文裡的“unbelievable”,會被拆成否定前綴“un”、動詞詞根“believe”、形容詞後綴“able”3個詞元。你可以把它理解成AI的“識字積木”:人類用漢字組詞造句,表達想法;AI用詞元拼接組合,理解世界、完成任務。沒有詞元,AI就是一堆不會思考的程式碼;有了詞元,AI才有了認知和執行的基礎。2.詞元,是智能時代真金白銀的“硬通貨”上面是技術層面的解釋,在黃仁勳這些商業大佬眼裡,詞元的真正身份,是智能時代的硬通貨,是和黃金、電力一樣的基礎生產資料。它同時具備三重核心屬性,每一個都在重構商業的底層邏輯:第一,它是AI世界的成本單位;黃仁勳在GTC大會上,給詞元做了一套完整的分層定價體系,從免費到超高速,一共分了五個檔次:免費層:高吞吐、低響應速度,靠廣告變現;中級層:每百萬詞元約3美元,適配基礎推理場景;高級層:每百萬詞元約6美元,適配通用高品質推理;高速層:每百萬詞元約45美元,適配低時延核心業務;超高速層:每百萬詞元150美元,適配科研、即時關鍵任務。你可能會問:都是一樣的詞元,價格怎麼差了50倍?道理很簡單,就像你寄快遞,同樣一個包裹,普通快遞3天到,同城閃送2小時到,速度和確定性不一樣,價格當然天差地別。對企業來說,核心業務的即時決策,晚一秒都可能造成巨大損失,自然願意為更快的詞元響應速度付更高的溢價。第二,它是AI世界的效率單位;黃仁勳在演講裡說了一句石破天驚的話:未來的資料中心,不再是檔案儲存倉庫,而是生產詞元的“工廠”。工業時代,衡量一個鋼鐵廠牛不牛,核心指標只有一個:年產多少噸鋼;網際網路時代,衡量一個資料中心強不強,看的是算力峰值、儲存容量;但到了智能時代,衡量一個資料中心的核心指標,只有一個:每秒能生產多少詞元。固定功率下,每瓦電力能產出多少詞元,直接決定了你的生產成本,決定了你在商業競爭裡有沒有活路。第三,它是AI世界的新生產資料,甚至是新貨幣。黃仁勳預判,未來企業招聘,薪資裡會自帶“詞元配額”,就像現在公司給你配電腦、配辦公手機一樣,詞元會成為你幹活的必備生產資料。現在的矽谷,已經有很多科技公司在這麼做了。你想一下,未來的職場,沒有詞元,你就沒法呼叫AI智能體,沒法完成方案、程式碼、資料分析,就像現在沒有電腦,你沒法辦公一樣。詞元,正在成為智能時代,每個企業、每個人都離不開的基礎生產資料,成為AI世界裡流通的“通用貨幣”。二、從爆火的“龍蝦”,看懂詞元經濟為什麼突然爆發講完了詞元是什麼,你可能還有一個問題:詞元這個概念早就有了,為什麼偏偏在現在,突然就成了全行業的風口?答案,藏在那隻紅遍全網的“龍蝦”——OpenClaw裡。這只被網友戲稱為“龍蝦”的開源AI智能體框架,在2026年初徹底破圈,GitHub上的星標數量登頂歷史榜首,全網掀起了一場“全民養蝦運動”。很多人跟風養蝦,但沒看懂它背後真正的顛覆性意義:這只龍蝦,讓無數人第一次真切感受到,AI真的能當一個7×24小時不休息的打工人,而養活這個數字員工的唯一口糧,就是詞元。先給大家看一組資料,你就知道它對詞元消耗的拉動有多恐怖:傳統對話式AI,一問一答,一次互動也就消耗幾百到幾千詞元,一個普通使用者,一個月也用不了100萬詞元;但OpenClaw不一樣,它採用“主動喚醒→檢查→推理→休眠→循環”的永動模式,7×24小時不間斷運行,重度企業級使用者,單日詞元消耗就能突破1億,甚至有人6小時就燒掉了上千塊的詞元。為什麼它能讓詞元消耗呈指數級爆發?因為它讓AI完成了一次本質躍遷:從“工具”,變成了“員工”。黃仁勳在GTC上直接宣告:SaaS時代正在終結,AaaS(Agent as a Service,代理即服務)時代已經到來。那SaaS和AaaS,到底有什麼本質區別?過去你買SaaS軟體,買的是“工具”。軟體是死的,你得自己招人,自己教員工怎麼操作,自己填資料,自己走流程,自己點滑鼠。你買的是一個“更快的馬車”,最終能不能跑到終點,還是要靠人來駕馭。但現在你買AI Agent(智能體),買的是“員工”。你不用管它怎麼操作,不用教它流程,不用盯著它打卡上班,你只需要說清楚你的目標:“幫我生成上周的銷售周報,拉取全管道資料,分析異常波動,給出最佳化方案,同步給所有區域負責人”。剩下的事,它會自己拆解任務,自己呼叫工具,自己拉取資料,自己完成報告,自己同步資訊,全程不用你碰一下滑鼠。這個數字員工,不拿工資,不摸魚,不請假,不鬧情緒,7×24小時連軸轉,它唯一要的“口糧”,就是詞元。這就是詞元經濟突然爆發的核心密碼。三、詞元經濟學的底層邏輯到底是什麼?詞元正在從四個維度,徹底重構我們熟悉的商業邏輯,甚至改寫整個經濟的增長範式。1.詞元經濟學,是一整條完整的產業鏈,重構了AI產業的商業閉環黃仁勳的“Token工廠經濟學”,從頭到尾都圍繞詞元展開,分成清晰的五層架構:最底層,是能源與算力,這是詞元生產的“原材料基地”,沒有電力和算力,詞元就是無源之水;往上,是晶片與系統,這是詞元生產的“生產線”,決定了詞元的生產效率和生產成本;再往上,是大模型,這是詞元的“精煉廠”,把基礎詞元,變成具備推理、執行能力的智能能力;再往上,是Agent開發平台,這是詞元的“流通管道”,把智能能力封裝成企業能用的數字員工;最上層,是企業應用場景,這是詞元的“消費終端”,詞元在這裡轉化成實實在在的商業價值。你看,整條產業鏈,從生產、加工、流通到消費,形成了一個完整的商業閉環。上游賺的是詞元生產的錢,中游賺的是詞元精煉的錢,下游賺的是詞元消費的錢。所有環節的價值,都可以用詞元來統一計量、統一結算。2.詞元經濟學,讓智能有了統一的度量衡商業史上,每一次通用度量衡的出現,都會帶來一次商業範式的徹底革命。工業時代,我們用“千瓦時”來度量電力,從此,所有的工業生產,都有了統一的成本和效率標尺,人類正式進入工業文明。網際網路時代,我們用“GB”來度量流量,從此,所有的數字業務,都有了統一的計量標準,人類正式進入資訊時代。到了智能時代,我們將用“詞元”來度量智能,從此,所有的AI能力,都有了統一的價值標尺,人類正式進入智能時代。這就是詞元經濟學最核心的本質:萬物皆詞元。不管是文字、圖片、視訊、音訊,還是3D內容、機器人控制指令,最終都能被轉化成詞元來處理、來定價、來交易。以前,你沒法衡量寫一份方案的智能,和做一張設計圖的智能,那個更值錢;你沒法核算AI做一次客戶溝通,和做一次資料分析,分別應該給企業帶來多少價值。但現在,詞元給了所有智能能力一個統一的標尺,你可以精準計算每一個詞元的投入,能帶來多少產出。智能第一次從一個模糊的概念,變成了可計量、可定價、可交易的標準化商品。這是整個商業世界重構的起點。3.詞元經濟的主戰場在To B端無招在悟空平台的發佈會上,說了一句話:AI時代的革命性變革是生產力,不是消費。To C的詞元消耗,大量是無效的、娛樂化的,增長是線性的;但To B的數字生產力一旦爆發,詞元的消耗就是指數級的。這句話,不僅點透了詞元經濟的核心,更點透了中國經濟未來的增長密碼。過去二十年,中國網際網路行業的增長,一直被兩大天花板死死卡住,而詞元經濟,直接把這兩塊天花板,徹底打碎了。第一塊天花板:勞動人口的限制。AI時代,憑空多出了海量的“數字勞動力”。這些數字員工,不需要戶口,不需要社保,不受人口老齡化的限制,不受人口周期的約束,你的企業需要多少,就能“招聘”多少。以前一個企業,最多管理幾萬、幾十萬名員工;現在一個企業,理論上可以管理幾百萬、幾千萬個數字員工。這是什麼概念?這相當於,中國經濟,憑空多了一個沒有上限的“勞動力增量池”,直接破解了人口老齡化、低生育率帶來的勞動力短缺難題,為經濟增長打開了全新的空間。第二塊天花板:商業成本中的勞動力成本。過去,網際網路公司賺的是什麼錢?大多是行銷的錢,廣告、電商佣金、遊戲充值,這些錢,加起來只佔中國GDP的1%-2%。盤子就這麼大,大家捲來捲去,都是存量博弈,你多賺一塊錢,別人就少賺一塊錢。但詞元經濟時代,AI公司能賺的,是人力資源的錢。根據國家統計局的資料,中國GDP裡,勞動者報酬的佔比,常年保持在40%以上,這是一個幾十兆級的增量藍海。未來企業的人力成本,很大一部分,會從給員工發的工資,變成詞元的採購成本。這是整個商業成本結構的重構,也是經濟增長的全新引擎。為什麼阿里要成立ATH事業群,由吳泳銘親自掛帥?為什麼無招要把做了11年的釘釘徹底打碎,重寫底層程式碼,做全面的CLI化改造,推出悟空平台?因為他們看懂了,釘釘過去的核心,是“人與人的連接”,是基於軟體功能的協同;而未來的核心,是“人與數字員工的協同”,是基於詞元消耗的生產力釋放。詞元經濟學的價值,不在於用機器取代人,在於把這部分龐大的人力資源成本,轉化為可放大10倍、100倍的數字生產力。4.詞元經濟,中國有那些優勢?用輝達的H100 GPU(圖形處理器)做推理,1度電理論上可以產出大約923萬個詞元,扣除資料中心的散熱、傳輸損耗,實際商用場景下,1度電也能產出約550萬個詞元。而這恰恰是中國在智能時代,最大的國運級優勢。中國西部的綠電(筆記俠註:風能、太陽能、水能、地熱能等可再生能源轉化而來的電力),成本大約只有0.2-0.3元一度;而美國的工業電價是1.1到1.2元一度,他們的詞元生產成本,天生就是中國的5-6倍。以前,我們的電力要出口,只能靠物理電網,線損高、壁壘多,還要看別的國家的臉色,很難把能源優勢,轉化成全球競爭力。但現在,我們的電力,通過算力轉化成詞元,通過一根網線,就能瞬時交付給全球的使用者,真正實現“電力不出境,價值通全球”。0.2元一度的綠電,轉化成詞元之後,能賣到11元左右,價值翻了幾十倍,增值幅度遠超傳統的製造業出口。這意味著,我們的能源優勢,通過詞元經濟,可以直接轉化成全球AI服務的成本優勢、競爭優勢。中國有全球最完善的算力基礎設施,有全球成本最低的綠電資源,有全球最大的企業服務市場,有全球最多的市場主體。這些優勢,通過詞元經濟,會被無限放大,變成我們在智能時代,參與全球競爭的核心底牌。四、詞元經濟來了,企業和個人的生存法則與核心機會講完底層邏輯,我們回到最現實的問題:詞元經濟來了,我們到底該怎麼辦?怎麼才能抓住這次時代的紅利?對企業來說,就是抓住3件事。1.徹底轉變認知:從“買軟體”,到“買數字生產力”很多企業老闆,現在對AI的認知,還停留在“買個AI工具,給員工用,提高工作效率”。這就像汽車剛發明的時候,你把它當成“更快的馬車”,你永遠沒法參與汽車帶來的交通革命。你必須徹底轉變認知:AI不是給員工提效的工具,而是你的企業全新的生產力主體。未來,你的企業,不再是“一群人+一堆工具”,而是“一個管理者+一群數字員工”。未來衡量一個企業的內部實力,是它能調動多大的數字生產力,能管理多少個能持續創造價值的數字員工。因此,你的組織架構、管理模式、成本核算體系,都要圍繞“數字生產力”,都要徹底重構。2.建立“有效詞元消耗”的評估與最佳化體系不是所有的詞元消耗,都有價值。員工用AI摸魚聊天、刷段子,消耗的詞元,就是無效的;用AI做方案、跑資料、談客戶,帶來了實實在在的業績增長,這才是有效的詞元消耗。未來,企業的核心管理能力,就是詞元效率管理。同樣消耗1000萬詞元,有的企業用它賺了10萬,有的企業只打了水漂,這背後的差距,就是企業未來的生死差距。你要盡快建立一套完整的體系,去評估每一次詞元消耗的投入產出比,去最佳化你的提示詞,最佳化你的Agent(智能體)執行流程,砍掉無效的詞元消耗,讓花出去的每一個詞元,都能給你帶來實實在在的商業價值。就像無招的“悟空”平台,把“有效詞元消耗”當成核心考核指標,本質上,就是把詞元當成了企業生產力的核心度量衡,從根源上倒逼企業提升詞元效率。3.沉澱過程資料,打造企業專屬的“數字小腦”AI Agent(智能體)消耗詞元的每一個過程,都會產生資料。這些資料,就是你打造專屬“數字小腦”的核心原材料。你用得越多,資料沉澱得越多,你的數字小腦就越懂你的業務,你的詞元效率就越高,你的數字生產力就越強。未來,企業之間的競爭,本質上就是“數字小腦”的競爭。你沉澱的專屬業務資料,就是你最深的護城河,是別人花再多錢,也買不走的核心競爭力。結語未來十年,我們會像今天談論水電氣一樣,自然地談論“詞元”。我們每個人,都正在親歷這場商業史、經濟史上,前所未有的變革。農業時代,土地是生產資料;工業時代,機器和能源是生產資料;網際網路時代,資料是生產資料。AI時代,詞元就是新的生產資料。我們要麼生產詞元,要麼消費詞元,沒有任何中間態。 (筆記俠)
“詞元”爆發,中國如何搶下智能時代“定價權”?
2026年3月23日,中國發展高層論壇年會上,中國國家資料局終於給Token定了中文名:詞元。別看只是個英譯中的事兒,這背後是一場關於智能經濟話語權的爭奪戰,而中國國產算力產業鏈終於等到了上牌桌的機會。詞元到底是什麼?簡單說就是AI的“口糧”,是大模型處理資訊的最小單元。使用者的一句提問、AI生成的一段程式碼、圖片的底層編碼,最終都要拆解為詞元完成運算。但現在它不只是技術術語,正在變成人工智慧時代“硬通貨”、新基建的核心度量衡。從“免費搭車”到“自費加油”:詞元何以成為新基建的核心度量衡2024年初中國日均詞元消耗才1000億,到2025年6月底突破30兆,一年半暴漲300倍;到2026年3月更是沖上140兆。摩根大通預測,2025—2030年中國推理詞元消耗年複合增長率將達330%。這一數字背後,是AI應用範式的根本性遷移:普通使用者的輕量對話正在被智能體重度任務所取代,“免費紅利期”讓位於“按需計費”的商業化常態。中文語境下,單字通常對應1至2個詞元,每一次人機互動都是詞元的雙向流動——提問消耗,回答亦消耗。這種“雙向計費”機制,使得詞元天然具備價值錨點的屬性:它既是技術工作的內部形態,也是商業結算的外部標尺。國家超算網際網路推出“養龍蝦”智能體SClaw,以單人最高3000萬詞元免費額度降低體驗門檻,同時將續用價格壓至0.1元/百萬詞元——這一定價策略頗具深意。表面是行銷活動,實則是以價格槓桿撬動生態建構:當使用者習慣以詞元為單位評估智能服務成本,當開發者以詞元消耗量核算營運成本,一種全新的商業語法便悄然確立。詞元由此成為連接技術供給與商業需求的“通用貨幣”,其意義堪比移動網際網路時代的流量計費、雲端運算時代的資源按時長計費。更值得玩味的是,詞元的跨境流動性。舊金山、柏林、新加坡的開發者呼叫中國大模型,請求經光纖傳至境內資料中心,GPU叢集運轉,電網供電,推理結果回傳——風電、太陽能、水電以詞元的形式完成價值交付,物理電力從未出境,經濟價值卻已全球化。這種“電力留存、價值輸出”的模式,顛覆了傳統能源貿易的邏輯:無需高壓電網的巨額基建投入,規避地緣政治下的線路博弈,詞元通過通訊網路實現瞬時跨境,將中國綠電的比較優勢轉化為AI服務的定價權。輝達創始人黃仁勳將資料中心重新定義為“Token工廠”,這一表述精準捕捉了產業變局的本質。輸入資料與電力,輸出詞元——這一生產流程的簡化背後,是全球科技巨頭對詞元生產主導權的激烈爭奪。輝達新一代平台Vera Rubin瞄準90%成本降幅,Google重啟核電站為AI基建供電,無不昭示:詞元的生產效率與供給成本,已成為國力競爭的聚焦點。綠電紅利與演算法突圍:中國路徑的獨特性與未竟之局中國在全球詞元競賽中佔據獨特生態位,其核心支撐在於“算電協同”戰略的深度佈局。“十四五”期間,可再生能源裝機佔比從40%提升至60%,風電、太陽能裝機量全球第一;“東數西算”工程將算力需求與西部綠電富集區精準匹配,形成“高儲備、低消耗”的結構性優勢。當歐美為AI電力供給焦慮不已,中國已將“用不完的電”轉化為“用得起的詞元”——成本差異直接對應為AI服務的價格競爭力,中國大模型由此成為開發者的呼叫首選。這一路徑的精明之處在於“把蛋糕做大”而非“堆參數爭第一”。美國巨頭沉迷於千億、兆參數競賽,中國廠商則在演算法架構創新與成本最佳化上另闢蹊徑。參數規模不再是唯一指標,“夠用且便宜”成為新的競爭法則。這種策略選擇,既是對晶片製程短板的務實回應,也是對商業化落地規律的深刻洞察——智能體的普及依賴成本可控,詞元的爆發呼喚普惠供給。然而,有利位置不等於勝勢。詞元生產的底層瓶頸依然嚴峻:先進EDA工具匱乏、高端晶片製造工藝不足,使得中國國產算力晶片在設計與生產環節仍受制於人;更隱蔽的風險在於算力結構錯配——不少地方資料中心配置的晶片仍以CPU為主,適配傳統IT與雲服務場景,卻難以滿足AI大模型訓練與推理的平行計算需求。這種“有算力、無智能算力”的困境,可能使綠電紅利空轉,詞元產能受制於結構性短板。更深層的挑戰在於標準與規則的缺失。詞元作為“智能時代的最小公約數”,其計量標準、交易規則、跨境結算機制尚處蠻荒。輝達以平台定義生產流程,Google以能源佈局鎖定供給安全,均在爭奪詞元生態的話語權。中國雖有呼叫量優勢與成本優勢,但若不能在詞元標準制定、智能算力介面規範、跨境服務協議等層面形成制度性輸出,恐將陷入“量大價低”的路徑依賴,難以躋身規則制定者行列。而破局之道,在於三重協同的深化。01 算電協同的精細化營運將綠電優勢從“成本減免”升級為“品質溢價”,探索綠電直供資料中心的溯源認證機制,使“中國詞元”成為低碳智能服務的品牌標識,在ESG敏感度日益提升的全球市場中佔據道德高地。近日,中國電信便宣佈“以Token服務為經營主線”重塑企業業務,這一佈局便是打造“中國詞元”、重塑國內數字服務產業競爭格局的真實寫照。02 軟硬協同的系統性突破演算法最佳化需與晶片架構創新同步,Chiplet等先進封裝技術、開源指令集生態建構、AI編譯器的自主可控,均是繞開製程封鎖、提升詞元生產效率的關鍵支點。03 內外協同的規則塑造以“一帶一路”數字絲綢之路為載體,推動詞元計量標準、智能算力服務協議的國際化,將國內大市場的呼叫規模優勢轉化為標準制定的話語權重,讓世界用上中國標準、接受中國方案。● 結 語詞元爆發的狂潮中,140兆次日均呼叫量既是成績單,也是發令槍。當智能體時代全面開啟,詞元的生產、流通、定價將重構全球科技產業的權力版圖。中國能否將綠電稟賦、市場規模、工程能力整合為智能時代的“定價權”,取決於今日在核心技術、產業協同、規則塑造上的投入強度與戰略定力。詞元雖小,卻承載著大國算力突圍的宏大命題——這場競賽,才剛剛開始。 (信創專研社)
token為何叫“詞元”?專家這樣說
近日,全國科學技術名詞審定委員會發佈《關於發佈試用人工智慧領域名詞token中文名“詞元”的公告》,決定在綜合考量社會各界意見建議的基礎上,優先推薦“詞元”作為人工智慧領域名詞token的中文名,並面向全社會發佈試用。“詞元”這一定名符合單義性、科學性、簡明性、協調性等科技名詞審定原則。該定名經全國電腦科學技術名詞審定委員會審定後,由全國科學技術名詞審定委員會批准向全社會發佈試用。清華大學電腦系副教授東昱曉認為,“詞元”的定名捕捉了其在人工智慧語言模型中作為“基本離散符號單元”的本質,又可以通過類比自然延伸至多模態領域。在“詞元”這一定名中,“詞”點明其在語言場景下的根源,體現出token與表達對象語義的密切關聯;“元”傳達出“基本單元”之意,與“元素”等術語中的“元”保持一致的語義脈絡。“token”一詞源於古英語tācen,意為“符號”或“標記”。在語言模型中,token是文字經過切分或字節級編碼後得到的最小離散單元。它既可能是人類語言意義上的詞串、單個詞,也可能是詞根、詞綴、子詞或單個字元。語言模型通過對token序列建模,展現出一定的智能水平。全國電腦科學技術名詞審定委員會副主任委員兼人工智慧分委員會主任委員、中國科學院計算技術研究所研究員陳熙霖表示,“詞元”一詞可以將“作為語言基本語義單元”這一最初本質清晰表達出來,更貼合其在人工智慧中的初始角色。隨著大模型從純文字走向多模態,“token”所指已經擴展。圖像被切分為“圖像塊”並對應為嵌入序列,語音片段可以被量化編碼為離散單元,這些單元在多模態模型中同樣被稱為token,主要建模手段仍為序列模型。此時,“詞元”中的“詞”超越了人類語言意義上的“詞”,卻能暗合術語命名中普遍存在的類比思維——將非文字模態的離散基本單元也視作“廣義的詞”。這種用法與“詞雲”(word cloud)、“詞袋”(bag of word)類似,雖由文字衍生,但已成為人工智慧領域中表達更寬泛語義的通用術語。“詞元”在跨模態場景中承載了“離散基本單元”的語義,這種語義普遍存在於所有模態之中。在中文文獻、技術文件及學術交流中,“詞元”作為描述大模型中token的譯名,逐漸被學術界很多學者認同。token是模型將資料對應為離散符號序列的基本單位,本身並不攜帶智能,只是承載資訊的載體;與“嵌入”“注意力”“隱狀態”等術語並列時,保持了風格一致性;符合中文“二字詞”偏好,表述簡潔,易於傳播。國家資料局資料顯示,2024年初,中國日均詞元(token)呼叫量為1000億;至2025年底,躍升至100兆;今年3月,已突破140兆,兩年增長超千倍。 (中國科學報)
Token定名“詞元”:中文在AI時代對英文的降維打擊
我之前分析過中華文明相比西方文明高了不止一個維度,這其中一個至關重要的因素就是文字,作為文明的載體,漢字作為人類現存唯一的原生文字,比經過埃及文字一再簡化得來的英文高3個維度。因此,將來基於漢字的大模型基座也要比現在的英文基座高3個維度。有人可能會反駁說,現在同樣一段內容,用中文輸入比英文費token詞元,不是說明中文不如英文嗎?目前來看,這是一個事實,我們要承認事實,但也要弄清楚事實表象下的具體原因。詞元這個名字起得很形象,表達詞義的基本單元,簡稱詞元。很多人誤以為1個漢字對應1個詞元,其實這是常見誤區。大模型會先通過分詞器拆分文字,再將拆分後的碎片轉化為可運算的數字,這些碎片才是詞元。根據主流大模型官方換算標準,中文場景下,不同模型的詞元與漢字換算存在差異。阿里通義千問接近1詞元對1個漢字,騰訊混元約1詞元對應大概1.8個漢字。OpenAI官方資料顯示,英文場景下1個詞元約等於4個英文字母或0.75個英文單詞,1000個英文單詞約對應大概1400個詞元。同樣表達“人工智慧技術正在快速發展,深刻改變著我們的生活”,中文約30個漢字,按騰訊混元規則消耗約17個詞元,按通義千問規則消耗約30個詞元。對應的英文“Artificial intelligence technology is developing rapidly and profoundly changing our lives”共33個字母,7個單詞,約消耗11個詞元。中文詞元消耗確實更高,至於高多少則取決於模型的分詞最佳化程度。為什麼中文與英文詞元消耗會有差異?底層原因是中國人讀漢字和美國人讀英語時,大腦的運行機制存在顯著不同,這一差異也間接影響了大模型對兩種語言的處理邏輯。結合北京師範大學認知神經科學與學習國家重點實驗室的研究,兩者的核心差異主要體現在三個方面。一是啟動腦區不同。中國人閱讀漢字時,主要啟動大腦左半球的額中回和枕中回,它們負責漢字的視覺識別和表意解析。同時會啟動與空間認知相關的腦區,這是因為漢字的象形特性和偏旁結構需要空間感知能力。而美國人閱讀英語時,主要啟動左半球的顳上回和角回,它們負責拼音解碼和詞彙關聯,側重語音加工腦區的啟動。二是加工路徑不同。漢字閱讀遵循視覺和表意雙重路徑,大腦先識別漢字的視覺形態,如偏旁部首,再快速關聯其語義,無需經過複雜的語音轉換。英語閱讀則遵循從視覺到語音再到語義的單一路徑,需要先將字母組合解碼為語音,再通過語音關聯語義,多了一個語音轉換環節。三是記憶儲存方式不同。漢字的語義記憶與視覺形態深度繫結,大腦會將漢字的字形、字義、字音整合儲存,形成獨特的漢字語義網路。而英語的記憶更側重語音和詞彙的關聯,語義儲存與字母組合的繫結度較低。基於漢字的這些特點,影響中文詞元消耗的核心原因有兩個。其一,中文是單字獨立表意,每個漢字都是一個完整的語義單元,但大模型的分詞器無法直接將單個漢字作為高效運算單元,需要將漢字組合成分詞。比如“人工智慧”“快速發展”,再拆分為詞元,這就增加了拆分環節的冗餘。而英文是拼音文字,單詞本身就是天然的語義單元,分詞器可直接將單詞拆分為詞元,甚至可拆分單詞前綴後綴,運算效率更高。其二,語言學研究表明,漢語單字資訊熵顯著高於英語等拼音文字,每個漢字承載的獨立意義更多。結合大腦對漢字的視覺直接到表意的加工特性,大模型需要用更多詞元來解析這種高密度資訊,才能精準捕捉語義。顯然,目前漢語詞元消耗多的唯一原因就是我們用了不適配的英文大模型基座,相當於脫了褲子放屁,費了二遍事。那麼能不能開發漢字原生大模型基座呢?不但可以,而且效率要遠高於英文模型,原因就涉及到開頭我們提到的,漢字比英文高了3個維度。第一個維度,漢字作為世界上獨有的既表音又表意的原生文字,從甲骨文、金文、篆字,到隸書、楷書再到現代簡體字,有著完整的演化脈絡。比如“道”字,最初甲骨文是“一個大腦袋走在十字路口”的象形,後來引申為“規律”,再到《道德經》中的“終極宇宙模型”。而英文中表達“規律”用“law”,表達“道路”用“road”,兩個詞毫無關聯,而漢字一個“道”字就能承載多重關聯語義,兼顧簡潔與深度。第二個維度,漢字的偏旁部首模組化結構,以及單字高資訊密度、組合無窮的特點,都為原生基座的開發提供了天然優勢。比如“氵”旁多與水相關,如江、河、湖、海,“木”旁多與植物相關,如松、柏、桃、李,這種內在關聯能讓模型快速捕捉語義關聯。而英語中“river河”、“lake湖”、“sea海”沒有任何形態關聯,模型只能單獨學習。第三個維度,漢字可以組合成新的單詞。漢字僅需5000多個基礎字,就能描述從古典文獻到量子力學的所有內容,單字資訊密度高,兩個字就能組合成新詞彙,比如“算力”“元宇宙”“量子”。無需像英文那樣不斷創造新單詞,比如“元宇宙”,英文需創造“metaverse”這個全新單詞,且全球使用者都要重新學習記憶。而漢字僅用“元”表示本源,加上“宇宙”兩個基礎字組合,即便不解釋,中國人也能快速理解其“本源宇宙”的核心含義。此外,漢語的凝練性也遠超英語,比如“不忘初心,方得始終”,僅8個字就蘊含“堅守本心才能實現目標”的哲理。對應的英文翻譯“Never forget your original intention, and you will achieve your goal”需要16個單詞,不僅篇幅翻倍,還丟失了原文的韻律和意境,這也是漢語高資訊密度的直接體現。基於這些特點,漢字原生大模型基座,相比現有的英文原生基座,有三個不可替代的優勢。第一個優勢是參數效率高而算力需求低。史丹佛大學實測資料顯示,中文整體資訊密度是英文的3.7倍,單個漢字承載的資訊量是英文字母的2倍多。漢字常用字僅5000個,而英語常用詞有10000個,漢字的詞嵌入數量通常是英語的一半。從目前已有的實驗模型看,最佳化後的中文詞表可使中文編碼效率提升350%,相同任務下漢字原生基座的算力需求比英文原生基座低差不多一半。此外,中國資訊通訊研究院資料顯示,在複雜邏輯處理場景中,最佳化後的中文AI能耗比英文AI低42%。當未來大模型的研發成本被極致攤薄後,決定詞元成本的就是能耗,而同樣內容中文模型比英文省一半的電,這優勢還不夠明顯嗎?第二個優勢是語義理解更精準、更具可解釋性。英文原生基座的核心邏輯是機率統計關聯,通過海量語料學習詞向量共現,無法真正理解符號背後的意義。而漢字原生基座可依託漢字的表意特性和演化脈絡,建構義項圖網路,先理解每個漢字的義項和文化意涵,再通過偏旁部首的關聯理解詞彙,讓模型真正識字,而非單純學習詞彙共現。這能大幅提升語義理解的精準性和模型推理的可解釋性。第三個優勢是文化適配性強,且具備天然的創新潛力。漢字原生基座可深度融入中國文化、哲學邏輯,避免英文原生基座在中文場景下的語義偏差和文化誤解。比如“和而不同”,英文翻譯為“harmony without uniformity”,很難傳遞出中國傳統文化中“包容差異、共生共榮”的深層內涵。而漢字原生模型能直接依託“和”“不同”的本義及文化積澱,精準理解其核心思想。同時,漢字無窮組合的特性,能讓模型快速適配新場景、新詞彙,無需頻繁更新訓練語料。比如汽車、火車、公車,中文一眼就能認出這是不同的車,而英文對應的car、train、bus,則是毫無關聯的單詞。根據美國國家教育統計中心2023年發佈的資料,美國21%的成年人為功能性文盲,即閱讀能力不足以完成日常複雜讀寫任務,28%的成年人讀寫水平處於或低於1級,即存在嚴重讀寫困難。我們之前一直以此嘲笑美國教育制度,其實多少有點錯怪他們。畢竟英文單詞量從莎士比亞時期的20萬增長到如今的100萬,每年仍以數千個的速度新增。其中35%來自社交媒體等新興場景,大量專業術語、外來詞不斷湧入,導致單詞量持續膨脹,大大增加了學習成本。就算莎士比亞穿越到今天,一大半單詞根本不知道啥意思,也得成文盲。但同時期中國的湯顯祖穿越過來就沒什麼影響,起碼不用從頭背單詞。未來中文原生大模型基座,不論性能還是功耗都將遠遠優於英文模型,再加上中國的電力基礎設施,你說未來AI的語言會是那種呢?人類未來的語言又會是那種呢? (墨子連山)