token為何叫“詞元”?專家這樣說
近日,全國科學技術名詞審定委員會發佈《關於發佈試用人工智慧領域名詞token中文名“詞元”的公告》,決定在綜合考量社會各界意見建議的基礎上,優先推薦“詞元”作為人工智慧領域名詞token的中文名,並面向全社會發佈試用。
“詞元”這一定名符合單義性、科學性、簡明性、協調性等科技名詞審定原則。該定名經全國電腦科學技術名詞審定委員會審定後,由全國科學技術名詞審定委員會批准向全社會發佈試用。
清華大學電腦系副教授東昱曉認為,“詞元”的定名捕捉了其在人工智慧語言模型中作為“基本離散符號單元”的本質,又可以通過類比自然延伸至多模態領域。在“詞元”這一定名中,“詞”點明其在語言場景下的根源,體現出token與表達對象語義的密切關聯;“元”傳達出“基本單元”之意,與“元素”等術語中的“元”保持一致的語義脈絡。
“token”一詞源於古英語tācen,意為“符號”或“標記”。在語言模型中,token是文字經過切分或字節級編碼後得到的最小離散單元。它既可能是人類語言意義上的詞串、單個詞,也可能是詞根、詞綴、子詞或單個字元。語言模型通過對token序列建模,展現出一定的智能水平。
全國電腦科學技術名詞審定委員會副主任委員兼人工智慧分委員會主任委員、中國科學院計算技術研究所研究員陳熙霖表示,“詞元”一詞可以將“作為語言基本語義單元”這一最初本質清晰表達出來,更貼合其在人工智慧中的初始角色。
隨著大模型從純文字走向多模態,“token”所指已經擴展。圖像被切分為“圖像塊”並對應為嵌入序列,語音片段可以被量化編碼為離散單元,這些單元在多模態模型中同樣被稱為token,主要建模手段仍為序列模型。
此時,“詞元”中的“詞”超越了人類語言意義上的“詞”,卻能暗合術語命名中普遍存在的類比思維——將非文字模態的離散基本單元也視作“廣義的詞”。這種用法與“詞雲”(word cloud)、“詞袋”(bag of word)類似,雖由文字衍生,但已成為人工智慧領域中表達更寬泛語義的通用術語。“詞元”在跨模態場景中承載了“離散基本單元”的語義,這種語義普遍存在於所有模態之中。
在中文文獻、技術文件及學術交流中,“詞元”作為描述大模型中token的譯名,逐漸被學術界很多學者認同。token是模型將資料對應為離散符號序列的基本單位,本身並不攜帶智能,只是承載資訊的載體;與“嵌入”“注意力”“隱狀態”等術語並列時,保持了風格一致性;符合中文“二字詞”偏好,表述簡潔,易於傳播。
國家資料局資料顯示,2024年初,中國日均詞元(token)呼叫量為1000億;至2025年底,躍升至100兆;今年3月,已突破140兆,兩年增長超千倍。 (中國科學報)