今天刷到個瓜,某大廠為了完善自己的訓練資料,註冊了上萬個帳號,狂轟濫炸提問幾千萬次,結果吃到了國際官司,被一路告上了國際仲裁庭。
所謂的“違規獲取演算法”,不過是大家心照不宣的“桌底交易”。洋人那邊也沒閒著,反向扒我們中國模型參數的事兒也不新鮮。但這回因為量級實在太誇張,終究是把遮羞布扯下來,徹底搬上檯面了。
這讓我想起之前寫的關於AI底層邏輯關於GEO,我想說幾句難聽的大實話:別看現在各家打得熱鬧,我判斷,最終笑到最後的,很可能是騰訊。
為什麼?
AI三大要素:資料、算力、演算法。
算力靠堆晶片,只要錢到位,不是問題;演算法靠迭代,大家都是Transformer架構,捲到後面,邊際效應遞減,差異不會太大。
唯獨訓練AI的資料,才是各家真正的命根子,最深的護城河。
看看現在的格局:
豆包靠的是全網+字節係數據;
千問靠的是全網+阿里係數據;
DeepSeek雖然純粹,但也主要是全網公開資料。
這時候你再看騰訊的混元。
它擁有“全網+騰訊系”的全量資料。這意味什麼?
中國兩大社交基石——微信和QQ,那是十幾億人的即時動態;前兩天微信內測版右滑呼叫AI,這訊號還不夠明顯嗎?無數小程序已經授權微信AI呼叫,再加上微信公眾號二十年來沉澱的獨家深度內容……
這些資料,是封閉的、私域的、高品質的。你讓競品去爬一個試試?
之前馬化騰說騰訊在AI上慢了,投了DeepSeek 100億佔股約3%而且錢是進梁文鋒管的有限合夥、只分錢不指路、5年鎖定期等條件,很多人以為這是示弱,我倒覺得這是“煙幕彈”。
當所有的線索串聯起來,當AI領域的法律法規像今天這起國際訴訟一樣逐漸完善,當“野路子”被堵死,“正規軍”的時代就來了。
等到萬事俱備,手握社交帝國全景資料的騰訊,一旦全力啟動混元,那將會是一場怎樣的降維打擊?
順便提一下:小紅書的反扒機制也很嚴,所以很多模型沒有小紅書的資料,小紅書一直是重內容的平台,所以未來會不會有機會依靠高品質內容訓練出來的模型實現超車呢? (老林TOB獲客經驗)
