AI巨頭們突然在印度掐起來了。
為了爭奪三哥的歡心,OpenAI、Google、Perplexity紛紛大出血,先後在印度推出前所未有的免費訂閱計畫。
效果看得見。
根據市場情報公司Sensor Tower統計的數據,截至上周,ChatGPT在印度的日活躍用戶年增607%,達到7,300萬,是美國用戶數的兩倍多;Gemini在印度的日活躍用戶達到1,700萬,而美國的用戶數為300萬。
顯然,"Free"的魔力比"AGI"大一萬倍,貪小便宜是所有人的共通點。
但究竟是誰佔誰便宜,真不好說。
17世紀,英、荷、法多國船隊,為了香料、茶葉和棉花,先後進入印度的港口、成立東印度公司,從當地攫取了大量財富。
數百年後,OpenAI、Google和Perplexity的數位船隊,再一次駛入了這片次大陸。
這一次,他們要的是Token。
為什麼又來印度?
首先,是人口紅利。
根據Epoch AI的研究,高品質的英語文字資料可能在2026年枯竭,到2028年,網路上所有高品質的文字資料都將被使用完畢。
同時,英文數據佔比超65%,但涵蓋70%人口的非英語數據缺口達83%…
此時此刻,擁有超過14億人口、22種官方語言、以及成千上萬種方言的印度,就成了AI時代最大的資源寶庫。
印度用戶獨特的Hinglish(印地語與英語的混合體)以及複雜的語碼轉換現象,為大模型提供了絕佳的訓練材料。
其次,利用龐大的印地語系,為大模型最佳化參數。
大模型不讀字,讀的是Token。
在早期的GPT模型中,英文的Tokenization效率極高,一個字通常就是一個Token。
但對於其他語言,例如印地語、馬拉地語或泰盧固語,一個詞可能被拆成5-6個Token。
如此就造成了兩個後果。
第一,推理成本太高。
同樣的語義,印地語消耗的算力是英語的3倍。
第二,上下文視窗縮水。
同樣的內存,能記住的印度語對話長度只有英語的1/3。
例如,印度人是這樣說的:Arre bhai, model training ki efficiency literally exponential honi chahiye!
這種一句話裡,至少無縫切換了三種語言,直擊大語言模型的軟肋。
按照傳統的自然語言處理方法接收這種數據,會直接崩潰的數據。
但透過海量的印度用戶互動數據,大模型正在學習一種超語言的表徵能力,以更好地理解多模態數據。
簡單來說,印度市場就是一個龐大的天然實驗室,透過在印度大規模收集原生數據,巨頭們可以重新訓練Tokenizer,優化詞表。
這直接關係到模型運作的經濟性。
誰先讓印地語的Token壓縮率接近英語,誰就能在印度的B端API市場上擁有定價權。
屆時,連印度這個語言最複雜、體積最龐大的市場都跑通了,世界其他地區還算問題嗎?
隨著海量印度數據的注入,大模型將變得不再那麼「英語中心主義」。
這不僅是政治正確,更是商業必須。
為了搶奪印度的免費“礦工”,各家的大方向都是免費。
但在具體策略上,有很大不同。
OpenAI實施精準誘捕,把使用者綁在生活場景裡。
最經典的場景:在接取UPI付款後,用戶只需輸入「給媽媽轉500盧比」就能直接交易,每一次支付行為都會產生「對話-決策-交易」的完整數據鏈。
同時,用「母語對話」痛點吸引用戶:針對印地語語意準確率僅82.3%的短板,推出7種語言的廣告片,直接拉動46%的月活用戶每天打開APP。
這導緻美國本土用戶和印度用戶出現巨大倒掛。
美國用戶是用來變現的(Plus訂閱),而印度用戶是用來進化的。
這種「雙軌制」策略,讓OpenAI能夠一邊在華爾街講收入故事,一邊在實驗室講數據故事。
印度用戶每用一次GPT,就相當於為OpenAI貢獻了3條高品質語料。
Google則選擇找地頭蛇合作。
Gemini在印度的日活一度低迷,但在與Reliance Jio共同推出「18個月免費Gemini Pro」後,DAU很快就飆升到15%,達到1700萬。
Reliance Jio是何方神聖?
它是印度信實工業旗下的電信營運商,是數位基礎設施壟斷者,擁有數億廉價4G/5G用戶。
雙方聯手,新啟用的Jio手機會預設安裝Gemini外掛,你連拒絕的選項都沒有。
這些外掛會悄悄收集「被動數據」:天氣查詢累積季風氣候數據,地圖導航記錄交通流規律,甚至相簿備份都會被用來訓練影像辨識模型。
更關鍵的是,Google的優勢在於Android生態,而印度又是Android的絕對主場。
Android系統的日誌權限讓Google取得使用者的APP使用習慣,透過行為資料給使用者打上200多個標籤,再反哺模型優化推薦。
這不僅是為了雲端訓練,更是為了邊緣運算的資料回流。
它不指望印度用戶會問Gemini什麼高端問題,而是你想用本地語言搜尋那家咖哩店,或者如何用孟加拉語寫一封求職信。
這就夠了!
Perplexity又不一樣。
既沒有OpenAI的品牌光環,也沒有Google的頻道霸權,所以它的邏輯是:先在印度存夠數據,再把礦賣給巨頭。
印度可謂是全世界最卷的國家。
由於教育資源的不平衡,大量印度學生和職場新人將AI視為「超級導師」。
Perplexity聯合Airtel,花大價錢給3.6億用戶免費用200美元的Pro版,並默認開啟“全量數據同步”,用戶的每一次搜尋、提問、甚至修改回答的痕跡都會被記錄。
這項操作直接讓下載量暴漲800%,每天新增300萬條多語言語料,比去年漲了4倍多。
至今收集的數據若賣給微軟,估值可達10億美元。
除了以上這些,還有其它「小手段」。
例如三家都在玩的「遊戲化激勵」。
ChatGPT的「回答按讚」給積分,Gemini的「每日簽到」送儲存空間,Perplexity的「邀請好友」解鎖高級功能。
這些設計都不算新穎,但確實能讓使用者停留更長的時間:使用長度每增加1小時,產生的語料量就會增加3倍。
更狡猾的是「錯誤誘導」。
企業方面會故意在回答裡留小漏洞,引發用戶主動糾錯。
這些糾錯資料能直接用於模型迭代,比人工標註的效率高出5倍。
印度用戶以為在幫AI進步,其實是當免費的資料質檢員。
而在美國,這類質檢員的時薪是25美元…
在財務報表上,為大量印度免費用戶提供算力支援,很明顯是一筆巨額虧損。
但在AI研發部門的報表上,這又是極低成本的資產購入。
傳統邏輯是:用戶付費>營運成本=利潤。
但AI訓練的邏輯是:營運成本(算力)=資料採整合本。
以OpenAI為例,如果直接去買7,300萬人的多輪對話數據,費用至少是幾十億美元。
但現在,只需要支付推理時的電費。
這是一場以算力換智力的宏大套利。
對企業而言,這毫無疑問是划算的。
例如比哈爾邦用戶常用的“拉賈斯坦邦”,全球能流利使用的僅500萬人,但透過ChatGPT的對話收集,OpenAI已累積10萬條該語言的語料,讓模型識別準確率從65%提升到91%。
更珍貴的是文化脈絡。
宗教節日的祝福語、種姓制度的特殊稱謂、地區性的俚語黑話等等,這些知識圖譜的補全,是無法透過抓取通用網頁資料集實現的,必須依靠人類「口耳相傳」給AI。
根據GoogleAI實驗室的報告:在連接印度方言數據後,Gemini的跨文化對話錯誤率下降了43%。
那這些成果最大的功臣,印度用戶又扮演了什麼角色呢?
佃農,妥妥的數據佃農!
雖然享受了免費的各種高科技服務,但他們實際上是在沒有股權、沒有工資的情況下,為AI公司建立護城河。
農民查“農藥配比”,貢獻農業數據;小商販算稅率,補充金融科技語料;甚至家庭主婦問“剩菜改造食譜”,都在豐富生活服務數據庫……這些場景化數據的市場規模已超過180億美元。
最直覺的就是ShareChat的。
其用戶上傳的影片資料被用來訓練AI品質評估模型,透過近萬個影片的主觀評分,讓無參考品質評估的誤差縮小到0.2分以內。
這些「標註數據」直接幫助ShareChat提升了5%的用戶時長,估值衝到28.8億美元,但參與評分的用戶連優惠券都沒有。
……
以Counterpoint的測算,印度AI用戶平均每天產生4.2條有效語料,每條語料的標註成本約0.2美元,一年就是306美元。
扣除免費套餐的營運成本(每人每年76美元),每個「數據礦工」每年能為AI公司創造230美元的淨價值。
以ChatGPT 7,300萬日活為例,一年就能貢獻167.9億美元的財富。
這比印度2024年全年的AI產業總產值還要高。
更關鍵的是什麼呢?
礦工永遠變不成「礦場主人」。
現在印度用戶用的是免費AI,未來當巨頭關閉免費通道,就得繳訂閱費。
相當於礦工挖了一輩子礦,最後還要買自己挖的礦石。
目前的現況是:先發者拿走了數據,煉成了模型,然後把API賣回給印度的新創公司。
這已經是個完美的商業閉環,也是一個完美的剝削鏈條。
與19世紀印度給英國出口棉花,最後還要買英國布料的命運如出一轍。
就目前而言,印度市場的潛力,很可能是Google重歸龍頭地位的機會。
首先,Google有YouTube的影片資料、Maps的地理資料、Android的行為資料…維度比更傾向於單純文字的OpenAI要豐富得多。
更關鍵的是語音互動數據。
眾所周知,印度有大量文盲,最新的人數約2.8億。
這些人群在網路上的溝通方式,首選只能是語音。
Google透過在語音辨識和語音合成上的積累,結合本地運營向的支援和Gemini的多模態能力,可能在印度農村市場實現對OpenAI的「農村包圍城市」。
但說到這裡,大家可能都有一種奇怪的感覺。
OpenAI和Google的戰爭,戰場居然在印度。
這跟日俄戰爭的戰場在中國東北,有啥不同?
這已經涉及到數據主權問題。
印度政府已經意識到這一點。
印度電子與資訊科技部最近也顯示觀點:不甘心只做數據的產地,想做AI的加工廠。
一旦莫迪政府決定收緊資料出境政策(類似GDPR的印度版DPDP法案),矽谷科技巨頭的免費午餐可能會立刻結束。
這或許是未來最大的風險點之一。(格隆)