幾周前,在參加全球數字權利會議「RightsCon」期間,我親身感受到國際民間團體正在經歷的結構性震盪。
RightsCon 是由非營利組織Access Now 發起的全球性的數字權利會議,旨在促進人權、隱私保護和自由表達,以及技術創新等核心議題,該會議每年在全球不同城市舉辦。
在今年的會議上,來自世界各地(包括美國)的民間社會組織,討論瞭如何應對全球數字權利工作最大資助方之一“美國政府”撤資後帶來的困境。
值得關注的是,當前美國政治生態正在發生範式轉移。正如先前在報導中所指出,川普政府對美國聯邦機構職能的大幅削弱令人震驚,並推動美國政治體制向一些政治學家口中的「競爭性威權主義」演變。
這種轉變不僅重塑了華盛頓的權力圖譜,也對矽谷科技巨頭的全球戰略產生深遠影響,波及大量美國科技公司的營運與政策。要知道,這些美國科技公司的使用者遍佈全球,遠超越美國本土市場。
RightsCon 會上有許多與會者向我透露:他們已經察覺到這些科技公司在參與和支援使用者基礎較小的社區(尤其是非英語使用者群體)方面的意願和投資正在減少。
正因如此,不少政策制定者和商業領袖(特別是在歐洲)已經開始重新審視對美國科技的依賴,並思考是否能夠快速開發出更好、本土化的替代方案。在人工智慧領域,這一趨勢尤為明顯。
就拿社群媒體來說,這種現象表現得最為突出。研究巴西國內科技政策的法學教授Yasmin Curzi 告訴我:“自川普再次上任以來,我們已經無法再指望美國的社交媒體平台去做那怕最基本的事情了。”
如今,社群媒體的內容審查已經大量採用自動化技術,並嘗試利用先進的人工智慧模型來識別有問題的貼文。
然而,在印度、南非、巴西等地,這些系統根本無法辨識那些暴力內容。顯然,人工智慧在適應不同文化和語言環境等方面還有很長的路要走。
歐洲非營利法律中心專門研究人工智慧治理的人權律師Marlena Wisniak 指出,當前社交平台若過度依賴大語言模式進行內容審計,可能引發更嚴重的系統性風險,情況將變得更糟。
她向我透露:“大語言模型本身的審計就漏洞百出,而這些審計不佳的大語言模型又被用來審計其他內容,這簡直就是一個惡性循環,錯誤不斷重複、不斷放大。”
造成這種情況的部分原因在於主流人工智慧係統的“語言偏食症”:它們主要是依靠英語國家的資料進行訓練的,而且大多還是美式英語,所以一旦碰上當地語言和語境,比如印度的方言俚語,就會顯得“水土不服”,表現欠佳。
就算是那些標榜能同時處理多種語言的多語言模型,在應對非西方語言時同樣也會力不從心。
例如,有人對ChatGPT 在醫療保健相關問題上的回復做了評估,發現由於中文和印地語在北美數據集中佔比不高,它在這兩種語言上的回復質量遠不如英語和西班牙語。
對於許多RightsCon 的與會者來說,這恰恰證明了他們一直呼籲的觀點:不管是在社群媒體領域,還是在更廣泛的其他領域,都需要更多以社區為導向的人工智慧開發模式。
換句話說,想要打破這種技術霸權,必須推動人工智慧研發模式的“本土化轉型”,其中可能包括小語言模型、聊天機器人,以及針對特定用途、特定語言和文化背景設計的數據集。
例如,能辨識俚語和詆毀性詞彙,理解混合多種語言甚至字母書寫的詞句,還能辨別「重新賦予意義的詞彙」(也就是曾經的詆毀性詞彙,但如今被目標群體接納並賦予新意義)。
這些人工智慧經過訓練後,可能會出現一些細分的創新形態,例如具備文化感知能力的人工智慧助手,或是輕量化的區域語言模型。
畢竟,這些往往是科技巨頭所忽視的「語言邊緣地帶」:基於英語訓練的語言模型和自動化系統所忽略或誤分類的內容。
對此,新創公司Shhor AI 的創始人在RightsCon 會議上主持了一場小組討論,介紹了公司新推出的、專注於印度本土方言的內容審計應用程序編程介面(API)。
實際上,許多類似的解決方案已經發展了好多年,我們也報導過不少相關項目。例如,Mozilla 曾發起一個志願者項目,專門收集非英語語言的訓練資料;還有一家名為Lelapa AI 的初創公司,專注於為非洲語言開發人工智慧技術。
甚至今年早些時候,我們還把「小語言模型」列入 2025 年「十大突破性技術」榜單。
儘管如此,現在的情況和以往有些不同。川普政府對美國科技公司的政策和行為產生了不小的影響,這顯然是一個重要原因,但背後還有其他因素在起作用。
一方面,近期關於語言模型的研究和開發已經達到了一個臨界點,以往數據集的規模被認為是決定模型性能的關鍵,但現在這一點已經不再那麼重要了,這種變化意味著更多人有機會參與到語言模型的開發中。
「毫不誇張地說,在一些資源較少的語言環境下,小語言模型完全有可能成為多語言模型的有力競爭者。」民主與技術中心訪問學者、專注於自動化內容審計的研究員Aliya Bhatia 指出。
另一方面,全球局勢也在悄悄發生變化。就在RightsCon 會議召開的前一周,巴黎剛剛舉辦了一場人工智慧峰會,會上人工智慧領域的國際競爭成為焦點議題。
從那以後,「主權人工智慧」的概念開始受到廣泛關注,其核心是讓某個國家或組織能夠全面掌控人工智慧開發的各個環節。
實際上,人工智慧主權只是更廣泛「技術主權」的一部分,現如今,大家對「技術主權」的關注度越來越高,主要原因是人們對資料傳到美國後可能面臨的隱私和安全問題越來越擔憂。
去年11 月,歐盟任命了首位負責技術主權、安全和民主事務的專員,並推進一項名為「歐洲堆疊(Euro Stack)」的計劃,簡單來說,這個項目的目標是打造一套屬於歐洲自己的數字公共基礎設施。
雖然這個概念的定義還不太明確,但它可能涵蓋能源、水資源、雲端服務、晶片、軟件、資料和人工智慧等多個領域,這些技術和資源對於現代社會的發展以及未來的創新都至關重要,然而目前,它們大多由美國的科技公司掌控。
歐洲的這個計畫在某種程度上藉鑑了印度的經驗,印度早在幾年前就推出了「印度堆疊(India Stack)」計畫,建立了一套頗為完善的數位公共基礎設施,其中還包括一個名為「Aadhaar」的生物辨識資訊管理系統。
除此之外,就在不久前,荷蘭的議員們通過了幾項新議案,旨在降低該國對美國科技公司的依賴。
這讓我想起了在RightsCon 會議上與瑞士數字隱私公司Proton 執行長Andy Yen 的對話。他提到,川普上任後的一系列舉動實際上「推動了歐洲採取行動,並讓歐洲意識到必須重新掌握技術自主權」。
「一方面,這是因為總統能夠影響科技公司的高層;另一方面,科技是關乎任何一個國家未來經濟成長的關鍵因素。」他解釋。
不過,僅靠政府的介入並不代表語言模型中的包容性問題就能迎刃而解。
「我認為需要明確政府在這個過程中的角色和界限。如果政府開始指定那些語言應該得到優先發展,或者試圖控制數據集中呈現的觀點,那可能會引發一系列問題。畢竟,用於訓練模型的資料,在很大程度上塑造了模型的認知和理解方式,並決定它的'世界觀'。」Aliya Bhatia 指出。
目前,誰也說不準這一系列變化最終會走向何方,又有多少隻是一時的炒作。但無論如何,這都是我們將持續關注的領域。 (麻省理工科技評論APP)