人工智慧的基礎語言將是中文

這幾年我花了很大的精力去研究人工智慧的資訊處理。當然我研究的不是做一個具體的模型,而是研究人腦的資訊處理機制。

我越來越相信,中華文明是更為高級的文明,而未來人工智慧要進行資訊處理,也應該以中文為基礎。

人類之所以有智慧,一件非常重要的事情是有了語言和文字,這樣可以對世界的萬物進行資訊編碼,通過這些編碼進行資訊傳遞。我們身體對外界刺激有了反應,通過神經系統傳到我們大腦的生物電是有不同的頻率,也有不同的強度。對於這些生物電產生的資訊,別的生物是不可能知道的,因為他沒有接受這樣的生物電。

我們人類有了語言和文字,對於這樣的生物電就進行了定義,某個頻率和強屋的生物電我們定義為痛,某個強物的生物電我們定義為癢,某個強度的生物電我們定義為麻。這就是對資訊進行了編碼,資訊編碼的高級與否,決定了資訊傳輸的精準性和效率。

然而我們還要用簡單的編碼,進行更為高效的資訊傳輸,否則這個編碼和解碼系統就是一個龐大的系統,複雜到硬體無法承受。在人工智慧這個領域所謂就是算力。對於人而言這就需要更多的腦細胞。

高效的編碼機制決定了人類文明的高低。

目前人類的世界,最高效的資訊編碼機制,一定是中文。和英文相比,它更高級,這表現在資訊的精準性,編碼的高效率和資訊的擴展性。

英語基礎的文字是字母,26個字母是比較好學,也利於記憶。然而是26個字母本身沒有意義。意義是用詞和句子組成的。字母只是組詞的工具。所以英文有大量的詞彙,而且還在不斷的製造出新詞,過去的詞不做解釋就忘記了。語言的延展性非常差,語音傳承的效率極低。

中文是以字為基礎,事實上每一個字都是有含義,約3000個左右的常用字構成了資訊的一個基本體系,在這3000左右的常用字上又進行資訊的延展,這就有了詞。詞彙之外中文還有特殊的成語,成語包括了更深刻的意義,卻只用4個字來進行資訊編碼。比如說刻舟求劍、鄭人買履、精衛填海。在這之上才組成了句子 。

資訊編碼更為高級的階段,就是資訊的相對模糊,形成的資訊延展性。用中文很簡單的幾個資訊:枯藤、老樹、昏鴉、小橋、流水、人家,古道西風瘦馬,夕陽西下。就可以建構出遠遠超出這些文字之外的意境,這是把資訊編碼的延展能力達到了至高無上的境界。

通過多層次的資訊系統的疊加,形成了更為複雜的資訊體系,中國的普通老百姓對於很多價值觀和文化思想的理解,並不次於社會很好教育的人,所謂肉食者鄙。一個重要的原因就是中國語言和文字的資訊系統編碼和延展效率非常高,最普通的中國人也可以接受深刻的道理。這件事情在西方是做不到的,社會下層的精神境界一般都很低,因為缺少教育,如果沒有系統的教育,不可能通過一般的閱讀獲得深刻的道理。

普通的中國人可以通過人生的經歷,一般性的閱讀打通自己和歷史的通道,達到很高的精神境界。所以在中國沒有貴族,因為在精神上普通人和貴族是平等的,獲取資訊的差距不是很大。

人工智慧一定需要簡潔高效的資訊編碼方式,實現是人類和機器的互動,機器本身的資訊處理也需要高效和有延展性。今天來看全世界沒有一種語言可以超越中文。所以中國人做出來的大語言模型,效率會更高,對於算力的依賴更低,這和用中文進行思維的思維方式是分不開的。

中華文明是人類世界更高級的文明,這件事情必須要明白,理解到這一點,你才能夠理解人類發展的大方向,才能看到技術的大趨勢。

(立剛科技觀察)