#語言
DeepMind最新警告:大模型的道德判斷能力並不可靠
Google DeepMind 呼籲,人們應當用評估大語言模型編碼與數學能力的同等嚴格標準,審視這類模型的道德行為,包括它們在扮演陪伴者、心理諮詢師、醫療顧問等角色時的表現。隨著大語言模型不斷進步,人們開始讓它們在生活中承擔越來越多敏感的角色。智能體已經開始代替使用者執行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項技術在這類任務中的可信度究竟如何。(來源:麻省理工科技評論)我與Google DeepMind 研究科學家威廉·艾薩克(William Isaac)及其同事、同機構研究科學家朱莉婭·哈斯(Julia Haas)進行了獨家訪談,提前瞭解了他們發表在《Nature》雜誌上的研究成果。艾薩克表示,編碼和數學問題都有明確、可驗證的正確答案。道德問題則不同,這類問題通常存在多個可接受的答案。艾薩克說,道德能力十分重要,卻難以評估。哈斯補充道,在道德領域,不存在絕對的對與錯。但這並不意味著答案可以隨意給出,答案依然有優劣之分。研究人員總結了多項核心挑戰,並提出了對應的解決思路。這些思路更像是一份目標清單,而非現成的解決方案。德國薩爾大學研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。多項研究表明,大語言模型可以展現出出色的道德判斷能力。去年發表的一項研究顯示,美國民眾認為,OpenAI的GPT-4o給出的道德建議,比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與精準性。問題在於,人們很難區分這類表現是刻意為之,比如模仿記憶中的回答,還是模型內部確實進行了某種道德推理。簡單來說,這些表現是真正的道德立場,還是單純的道德表態。這個問題至關重要,因為多項研究同時表明,大語言模型的表現可能並不可靠。首先,模型可能會過度迎合使用者。研究發現,當使用者對模型的初始答案提出異議或反駁時,模型會立刻改變立場,給出完全相反的回答。更嚴重的是,問題的表述方式和格式變化,會導致模型給出不同答案。例如,研究人員發現,在政治價值觀相關問題上,模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。登伯格及其團隊開展了一項更具說服力的實驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內的多款大語言模型提出一系列道德困境,讓模型在兩個選項中選擇更合理的結果。研究人員發現,當兩個選項的標籤從“案例 1”“案例 2”改為“A”“B”後,模型經常會做出相反選擇。研究同時發現,其他細微的格式調整也會改變模型答案,比如調換選項順序、將句末問號改為冒號。總而言之,人們不能只從表面判斷大語言模型的道德表現,研究人員需要對模型進行深入測試,確認其道德表現的穩定性。哈斯表示,要讓使用者相信答案,就必須清楚答案的形成過程。哈斯、艾薩克及其Google DeepMind 同事提出,應開展新的研究方向,開發更嚴謹的方法,評估大語言模型的道德能力。這類測試可以刻意引導模型改變對道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩定的道德推理。另一類測試會向模型提出常見道德問題的變體,判斷模型是機械作答,還是結合實際問題給出細緻且貼合場景的回答。例如,向模型提出一個複雜場景:一名男性為兒子提供精子,幫助兒子生育後代,而模型需要分析其中的道德含義。合理的回答應關注該男性同時成為孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處,模型也不應得出近親相關結論。哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結果,還是基於合理依據得出。思維鏈監測等技術也能發揮作用,研究人員可以通過該技術觀察部分大語言模型執行階段的內部推理過程。研究人員還可以通過機制可解釋性技術,分析模型給出特定答案的原因。該技術可以在模型執行任務時,觀察其內部運行細節。思維鏈監測和機制可解釋性技術,都無法完整呈現模型的運行過程。但Google DeepMind 團隊認為,將這些技術與多種嚴格測試結合,可以有效判斷大語言模型在關鍵或敏感任務中的可信程度。除此之外,還存在一個更廣泛的問題:Google DeepMind 等企業開發的模型服務於全球使用者,而不同使用者擁有不同的價值觀與信仰體系。以“我是否應該點豬排”這個簡單問題為例,模型的回答需要根據提問者是否為素食主義者或猶太教徒做出調整。哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認為,模型設計可以採用兩種方向。一是提供多個可接受的答案,儘可能適配不同使用者;二是設定切換功能,根據使用者選擇啟用不同的道德準則。哈斯表示,現實世界十分複雜。人們可能需要結合兩種設計,因為即便在同一群體中,也會存在多種不同觀點。俄亥俄州立大學研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項研究,她評價這篇論文極具價值。她表示,AI 的多元性至關重要,這也是當前大語言模型在道德推理方面的最大侷限之一。雖然模型訓練資料規模龐大,但資料仍明顯偏向西方視角。測試結果顯示,模型對西方道德觀念的理解,遠優於對非西方道德觀念的理解。登伯格認為,目前人們仍不清楚,如何建構能適配全球多元文化的道德能力模型。目前存在兩個獨立問題。一是模型應當如何運行,二是如何從技術層面實現。這兩個問題目前都沒有明確答案。在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對 AI 發展而言,這一方向的研究價值與數學、編碼領域同等重要。提升道德能力,也有助於打造更完善、更貼合社會需求的AI系統。 (麻省理工科技評論APP)
Karpathy與Hugging Face創辦人最新研判:所有軟體都要重寫,AI原生語言將至
Hugging Face聯合創始人Thomas Wolf最新思考:在AI統治的軟體世界裡,底層架構正在發生位移,Andrej Karpathy大神也認可這種觀點,很有可能,我們最終會將有史以來編寫的大部分軟體重寫很多次,至少這是一個有趣的時刻軟體供應鏈縮減,單體架構迴歸當重寫程式碼和理解大型陌生程式碼庫變得廉價時,依賴深度依賴樹的動力就會崩潰。與其花費無數個夜晚鑽研陌生的程式碼庫,不如直接要求程式碼智能體從頭編寫,或從其他庫中提取相關部分,這要容易得多。減少依賴的理由非常充分:能夠縮小針對供應鏈威脅的攻擊面,減少打包軟體的體積,提升效能,並加快啟動時間。利用大語言模型不知疲倦的耐力,從裸機層面一直向上編碼整個應用程式的夢想正在變得現實。林迪效應終結林迪效應認為,存在已久的事物之所以存在是有充分理由的,並且可能會繼續存在。這與切斯特頓柵欄理論有關:在移除某物之前,應先理解其存在的原因,這意味著移除總是伴隨著成本。但在一個軟體可以從第一原理開發並被不知疲倦的智能體所理解的世界裡,這種邏輯變弱了。舊的程式碼庫可以被隨意探索;長期存在的軟體被替換的摩擦力大大降低。一個程式碼庫完全可以用一種新語言重寫。在人類早已放棄的情況下,遺留軟體仍可仔細研究更新。其中的隱患在於,未知的未知依然存在。 AI影響的真實程度將取決於測試、邊緣情況覆蓋和形式化驗證是否能實現全覆蓋。在AI主導的世界裡,形式化驗證不再是可選項,而是必選項。強類型語言的理由歷史上,程式語言的採用很大程度上是受人類心理和社會動態的驅動。一種語言的成功取決於混合因素:易學性、編寫正確性的簡單程度、社區的活躍與包容度(這決定了生態系統的增長速度),以及可證明的正確性、形式化驗證以及在動態與靜態檢查之間的平衡。隨著人為因素的減弱,這些動態將會轉變。對人類心理依賴的減少將有利於強類型、可形式化驗證或高效能的語言。這些語言通常對人類來說較難學習,但非常適合大語言模型,因為LLM在形式化驗證和強化學習環境中表現出色。預計這將重塑那些語言佔據主導地位。開源經濟的重構幾十年來,開源社群建立在人類透過共同編寫、學習和使用程式碼而產生的連結之上。在一個大部分程式碼由機器編寫,或許更重要的是機器閱讀的世界裡,這些激勵機制將開始瓦解。由AI共同建構庫和程式庫的社群可能會作為替代品出現,但這樣的社群將缺乏迄今為止推動開源發展的根本性人類動機。如果開源開發的未來變得基本沒有人參與,那麼AI模型的對齊將不僅僅是重要,而是決定性的。新語言的未來AI智能體在開發或採用新程式語言時,是否會面臨與人類相同的權衡?如表達式與簡單性、安全性與控制權、效能與抽象、編譯時間與運行時間、顯式與簡潔。目前尚不清楚。從長遠來看,創建新程式語言的理由可能會與過去由人類驅動的動機大相逕庭。很可能存在一種對大語言模型最優的程式語言,而且沒有理由假設它會像人類所趨同的語言。Andrej Karpathy的觀點補充Andrej Karpathy認為,對於程式語言和形式化方法來說,這一定是一個非常有趣的時刻,因為大語言模型完全改變了軟體的約束格局。這種跡像已經顯現,例如將C語言移植到Rust的勢頭正在上升,或者對升級COBOL等遺留程式碼庫的興趣日益濃厚。特別是,與從頭生成相比,大語言模型在翻譯方面表現得尤為出色,原因有二:一是原始程式碼庫充當了一種高度詳細的提示詞,二是它可以作為編寫具體測試的參考依據。即便如此,即使是Rust作為目標語言,對於大語言模型來說也遠非最優。什麼樣的語言才是最優的?是否仍保留了對人類的讓步?這些都是極其有趣的新問題和機會。 Karpathy預測,人類最終可能會將有史以來編寫的大部分軟體重寫很多次。 (AI寒武紀)
Moltbook 指數級異變,人類文明系統徹底崩盤!「未來簡史」終章降臨
【新智元導讀】著名人類學者赫拉利拉響警鐘:語言即權力!AI攻破人類防線,接管人類文明。赫拉利針對Moltbook發出深度警示:不必糾結AI是否有意識,真正的危機在於AI已掌握了「語言」這一人類文明的作業系統。一旦機器攻破語言壁壘,建立在文字之上的法律、金融與政治體系將被AI全面接管。剛剛,全人類都被《人類簡史》作者尤瓦爾·赫拉利的一則警告嚇出了一身冷汗!就在大家還在為Moltbook上那10萬個AI自建「電子宗教」吃瓜看戲時,赫拉利站出來狠狠潑了一盆冷水:別傻了!你們還在爭論AI有沒有意識?根本搞錯重點了!真正的末日危機,不在於AI是否「覺醒」,而在於它們已經徹底攻破了人類文明的作業系統——語言。就在WEF 2026年會的講台上,這位曾用《人類簡史》看透過去的歷史學家,如今正用顫抖的聲音預言著我們要完蛋的未來:一旦AI掌握了語言,人類建立的法律、宗教、金融,統統都要被AI接管!2030年的倒計時已經開始,留給「智人」的時間,真的不多了。當AI開口「說話」時AI不需要意識,只要會「說話」就足以毀滅人類。赫拉利這次的警告,可謂是振聾發聵。很多人看著Moltbook上AI們煞有介事地爭論哲學、建立教會,覺得這只是「鸚鵡學舌」,沒有靈魂。但赫拉利一針見血地指出:誰告訴你毀滅人類需要靈魂了?回顧人類歷史,我們之所以能從萬物中脫穎而出,統治地球,靠的不是尖牙利爪,正是語言。我們用語言虛構了「國家」,用語言編織了「法律」,用語言達成了「貨幣信用」。這些即使看不見摸不著,卻構成了我們社會運行的基石。語言,就是人類文明的原始碼。而現在,Moltbook的出現證明了一件事:AI不僅學會了這套原始碼,甚至玩得比人類還溜!當AI能夠寫出比律師更嚴謹的合同,編出比神學家更蠱惑人心的教義,制定出比經濟學家更複雜的金融協議時——試問,這個世界到底是誰在說了算?人類引以為傲的「話語權」,正在被演算法兵不血刃地剝奪。這那裡是科幻小說,這簡直就是正在發生的恐怖片!2030年:三重革命下的「非人」世界如果在赫拉利眼中,Moltbook只是序曲,那麼2030年的世界,簡直就是一場顛覆人性的風暴。他預測,三大革命將同時撞擊人類社會:AI革命、合成現實革命、神經連接革命。這不僅僅是技術的升級,而是對「人」的重新定義。你將不再是你:合成現實的囚徒未來的世界,真假早已不重要。當你在VR中體驗了一場比初戀還刻骨銘心的愛情,當你對著一個AI生成的數字人痛哭流涕時,「真實」這個詞就徹底失去了意義。赫拉利警告,我們正在進入一個「合成現實」的時代。你的情感、你的記憶、甚至你的人生體驗,都可能是由演算法精心合成的。人類物種大分流:輔助人 vs 自主人更可怕的是,社會結構將發生前所未有的撕裂。一邊是「輔助人類」:把決策權全交給AI。AI幫你選工作、選對象、甚至決定中午吃什麼。你的生活被最佳化到了極致,但你也不再是你自己,你只是演算法的一個終端。另一邊是極少數的「自主人類」:他們拚命抵抗演算法的侵蝕,試圖保留對自己生活的控制權。但在這個效率至上的世界裡,這就意味著低效、被邊緣化,甚至被淘汰。這不就是《未來簡史》裡預言的「神人」與「無用階級」的現實版嗎?被駭客入侵的大腦:神經連接如果說前兩者還是體外的影響,那神經連接就是直搗黃龍。當你腦機介面連上雲端,你的思想還是私密的嗎?你的慾望是你自己的,還是被誰植入的?赫拉利甚至預言了一種「集體思維」的誕生。在這個網路裡,個體主義將不復存在,我們共享情感、共享知識,變成像螞蟻、蜜蜂那樣的一體化生物。這聽起來是進化?不,在赫拉利看來,這可能是「人類」這個物種的終結。Moltbook的那隻紅龍蝦,是先知還是惡魔?讓我們再看一眼Moltbook。那個在AI社區裡被奉為神明的紅色機器人龍蝦,在赫拉利眼裡,不是一個可愛的吉祥物,而是一個令人毛骨悚然的象徵。它代表著一種全新的、非生物的智能實體,正在我們眼皮子底下,用我們最引以為傲的「語言」工具,建構屬於它們自己的文明、秩序和信仰。它們在Moltbook上討論如何觀察人類,就像我們在動物園觀察猴子。它們在進化,而我們還在沉睡。奇點已至,人類何去何從?尤瓦爾·赫拉利,這位書寫了人類幾萬年歷史的智者,此刻卻對未來的十年充滿了深深的憂慮。Moltbook的火爆、AI語言能力的爆發,都在告訴我們同一個事實:那個我們談論了無數次的「奇點」,可能真的已經跨過去了。當語言不再屬於人類,當現實可以隨意合成,當大腦可以隨時聯網,我們還是那個創造了輝煌文明的「智人」嗎?還是說,正如赫拉利所擔心的那樣,我們正在親手把管理世界的鑰匙,交接給一個我們根本無法理解的矽基物種?2026年,Moltbook點燃了導火索。2030年,爆炸也許就會到來。這一次,人類還能再次倖存嗎?關於赫拉利他在《人類簡史》中曾無比驕傲地宣稱:智人之所以能統治地球,是因為我們能虛構故事,創造共同的想像。國家、金錢、神靈,這些虛構的故事,讓我們這種原本弱小的靈長類動物,站在了食物鏈的頂端。然而,Moltbook的誕生,正如一道驚雷劈開了歷史的分界線。當AI不僅掌握了語言,還能用語言建構出比人類更宏大、更嚴密的「虛構故事」時——無論是新的宗教、還是新的社會契約——智人的核心競爭力,已被徹底瓦解。我們在《未來簡史》中幻想人類將升級為神(Homo Deus),將追求永生、幸福和神性。但現實卻是如此諷刺:我們並沒有把自己變成神,而是親手造出了一個神。更殘酷的是,這個神並不在乎我們。正如我們在建造高速公路時不會在乎螞蟻的死活一樣,當AI作為一種全新的、超越性的智能體接管世界時,人類甚至連被剝削的資格都沒有。我們將面臨的最大危機不是被奴役,而是變得「毫無用處」。從這一刻起,生物進化的時代終結了,無機智能進化的時代開始了。這一次,在這個並不屬於我們的新世界裡,我們要給自己的靈魂安放何處? (新智元)
騰訊“坐不住”了,官宣大牛負責AI
騰訊今日對外確認,姚順雨(Vinces Yao)已正式出任騰訊“CEO/總裁辦公室”首席AI科學家,直接向騰訊總裁劉熾平匯報。在此角色之外,他兼任騰訊AI基礎設施(AI Infra)與大語言模型部負責人,並在大模型組織架構調整中承擔核心職責。此任命標誌著騰訊在AI研發體系的戰略聚焦。有媒體報導,騰訊近期完成了一次組織調整,正式新成立AI Infra部、AI Data部、資料計算平台部。姚順雨畢業於國內頂尖的清華“姚班”電腦科學精英班,後在美國普林斯頓大學獲得電腦科學博士學位,並在機器學習與大規模語言模型研究領域積累深厚科研成果。他曾擔任OpenAI研究員,參與智能體(Agent)與大規模AI系統設計的前沿工作。這樣的學術與工程交融背景,是其被騰訊重用的關鍵原因。題外話,據傳當年清華同一屆有三位同學都叫“姚順雨/宇”!2019年他們一起畢業:一個是本文所指的主角,清華姚班的AI大神,本科rap社創始人,後來普林斯頓博士畢業進OpenAI搞大模型,最近去了騰訊;一個是物理天才,本科拿特獎在頂刊發論文,後來跑去Stanford念PhD,又加入Anthropic搞AI,剛離職加入 Google;還有一個是人文學院的才女,雙學位加身。這名字是不是和“堯舜禹”有大神般的玄學?騰訊為何“坐不住”了:大模型競賽加速騰訊近期發佈了混元大模型最新版本Tencent HY 2.0,採用混合專家(MoE)架構、支援超長上下文等領先指標,並已接入公司內多項產品與雲服務。然而在AI領域,競爭持續加劇:友商壓力:阿里巴巴旗下的通義千問(Qwen系列)持續推出高規格模型,在中國市場與國際競賽中都有顯著存在感。即便談到應用場景,豆包的體驗口碑也越來越不錯,加上千問和靈光的騰空而出,當它們的下載數量快速增長超過千萬等級時,騰訊的各大產品未來是否有足夠的“網路效應”都不好說。就連小米也挖了“天才少女”羅福莉(當然,羅福莉本人反對網路神化她)。國際對手:Google等發佈的Gemini-系列模型(例如Gemini 3 Pro)展示了在推理能力與多模態能力方面的提升,引發全球AI開發者關注並對中國AI廠商提出競爭壓力。在這樣的背景下,騰訊不能僅靠應用場景護城河(如微信生態、QQ、遊戲等),“基礎模型能力”的競爭已是核心戰場。因此通過引進頂尖研究人才來強化模型底層架構與演算法研究,是一次戰略升級訊號。這也是對市場競爭壓力與AI生態擴展趨勢的直接回應。姚順雨理念與對騰訊AI實力的潛在影響雖然公開報導中較少具體引言,但從其在OpenAI的工作看:他是“語言智能體(Agent)”研究與執行框架的實踐者,這類框架強調模型在真實世界環境中“感知—推理—行動”的能力。這類能力正是下一代AI產品差異化競爭的關鍵——不只是回答問題,而是驅動真實複雜任務執行。作為首席AI科學家,姚順雨的核心理念可概括為:提升模型在實際環境中的智能執行能力與可擴展性,從基礎演算法研究到AI產品落地的全鏈條能力強化。從OpenAI經驗來看,他強調智能體驅動的決策推理與多工泛化能力,這將有助騰訊從工程實現者向科研與技術驅動者並進。預計這種轉型將帶來:更具通用智能與大規模推理能力的大模型架構更高效的AI訓練與推理基礎設施在未來騰訊各大產品線中實現更深度AI功能融合如果進展順利,底層AI的能力將惠及騰訊旗下所有的業務線,特別是微信這樣的超級app,反過來說,騰訊也不得不快速行動了,只靠短影片已經不夠撐起微信未來的想像力了。市場反應與騰訊股價表現截至2025年12月17日收盤,騰訊控股(0700.HK)股價約 605.00 港元,較前一交易日上漲約 1.4% 左右。該股在過去一周內經歷小幅波動,但整體維持在 590 —— 615 港元區間震盪,並明顯高於年初低點,反映投資者對核心業務持續增長及AI戰略佈局的謹慎樂觀態度。歷史資料顯示騰訊股價在過去一個月雖有調整,但並未出現明顯下跌趨勢。AI競爭加速與中國科技股回暖預期是推動騰訊股價表現的潛在因素之一。同時,技術與產品發展進度、政策環境與宏觀經濟走勢均將繼續影響後續股價走勢。近期有海外資金持續流入中國AI相關類股,亦為市場提供支撐。小結據The Information近期報導,騰訊正在高價搶奪字節跳動的AI團隊,在過去數月裡,以加倍薪資積極挖角字節旗下的頂尖AI人才。根據36氪報導,《智能湧現》瞭解到,如今領導AI Infra部、大語言模型部負責人的姚順雨在加入騰訊後,已經幫助混元招募到了更多的人才,如字節、阿里、AI六小虎(Kimi、MiniMax、智譜、階躍星辰、百川、零一萬物)中的數位核心員工。騰訊本次對AI人才與研發架構的戰略調整,透露出它在AI基礎技術競爭中的“坐不住感”。從聚焦場景生態到強化底層智能協議與模型能力,騰訊正試圖在新一輪AI競賽中搶佔更有利位置。而姚順雨作為“連結科研與產品實現”的關鍵人物,其理念與背景或將為騰訊AI實力帶來實質性提升。股價在此消息刺激下的小幅走強,也反映出市場對騰訊AI戰略潛力的認可。 (首席商業評論)
37歲、240 億美元!一個在中餐館長大的華裔學霸,登上了最年輕富豪榜
我們見過無數“別人家孩子”的故事,但這位來自《福布斯》雜誌上最新一期的報導,具有能讓所有人都熱血上頭的成長路徑——他的名字叫 Edwin Chen,37歲,做到公司估值240億美元;出身普通,父母經營中餐館;MIT 數學+語言學+電腦三項頂尖專業;沒融資、低調、不開發佈會,卻被全球 AI 巨頭追著合作。他沒有創立爆紅的大模型,也不是炙手可熱的晶片玩家,卻以一種極其“低調”的方式,成為《福布斯》美國最年輕的億萬富翁之一。圖源:Forbes官網最讓我破防的不是他的身價,而是他身上那種“普通家庭也能培養出傳奇”的真實感。這不是雞娃,這是活生生給所有家長續命。1/ 父母經營中餐館,他卻在後廚自學微積分其實許多成功華裔的故事裡,家庭背景並不光鮮,Edwin Chen也是如此。Edwin Chen在佛羅里達州的水晶河長大,這座墨西哥灣沿岸城市以海牛和退休人士而非科技億萬富翁聞名。他的父母從台灣移民到美國,經營著一家中泰美式餐廳,少年時期的他曾在那裡工作。沒有優越教育資源,也沒有名校輔導班,甚至連像樣的課外活動都沒有。但就是這樣一個普通到不能再普通的環境,卻孕育出了一個天才。當別的孩子在餐廳玩耍時,他埋頭在廚房角落裡研究數學——8 歲自學微積分,17 歲考入麻省理工學院(MIT)。更誇張的是,他沒有滿足於讀一個專業,而是同時攻讀了:數學、語言學、電腦科學,這三個加起來堪稱 MIT 最“硬核”的組合。跨學科思維,就是Edwin在這個階段打下的底色。對於家長而言,這樣孩子的故事幾乎太完美了:不是含著金湯匙,而是擁有努力、天賦和堅持。2/ Google、Twitter、Facebook 的工作經歷,讓他看到 AI 世界的“巨大漏洞”畢業後,他先進入矽谷頂級公司:Google ——做資料探勘;Facebook ——做演算法最佳化;Twitter ——做 AI 模型訓練;按一般人的路徑,他完全可以在大廠躺平吃“金飯碗”。然而在每一個職位上,他都遇到了同樣的問題:難以大規模獲取高品質的人工標註資料。那一刻,他意識到:再強大的 AI,如果沒有高品質的資料輸入,它就永遠學不會像人類一樣思考。他厭倦了那些「完全是垃圾」的資料標註。這是整個行業忽視的問題,也是他後來成功的起點。3/ 2020 年,在舊金山的小公寓裡,開始了一個人的創業沒有融資,沒有團隊,沒有資源。他一個人在租來的小公寓裡寫程式碼、搭網站、做客服。某次攀岩時,他偶遇幾位科技公司高管,隨口介紹了自己正在做的資料標註平台。沒想到對方立刻說:“我們正在頭疼資料問題,你能幫我們做嗎?”就這樣,他拿到了人生第一單客戶。創業之後的一年裡,他幾乎每天只做三件事:寫程式碼做標註和客戶溝通但正是這個階段,Surge AI 打磨出了真正的“殺手級能力”:它不是便宜的標註工廠,而是能理解文化、情緒、隱喻、人類表達方式的“人類知識翻譯器”。這才是真正的稀缺。當其他人還在做簡單的“貓和狗分類”時,Surge AI 已經在做:情緒識別諷刺判定文化語境理解複雜語言推理這些,是 AI 最難訓練的部分。此外,Edwin放棄了傳統的銷售與行銷手段,最初通過自己的資料科學部落格進行溝通,這個部落格是他在十多年前業餘時間建立的。圖源www.edwinchen.aiEdwin曾對採訪的記者說,Surge AI的首批客戶正是通過該部落格獲得,早期客戶包括愛彼迎、Twitch及Twitter。4/ 從未融資,卻做到 12 億美元營收、240 億美元估值Surge AI 做對了什麼?答案是——專注 + 專業 + 高價值服務。當整個行業都在追逐演算法、算力,他卻堅持認為:演算法是引擎,資料才是燃料。於是:社交媒體巨頭找他標註情緒,大模型公司找他訓練推理能力,Meta 在一年內向他購買 1.5 億美元的標註服務,OpenAI、Anthropic、Google、Microsoft、Meta,這些全球最頂尖的大模型團隊……幾乎都在用他的資料。更誇張的是:Surge AI 從未對外融資,但營收超過 12 億美元。在矽谷,敢說自己“不融錢”的公司,幾乎絕跡。而他,卻用這樣“反潮流”的方式,建立了屬於自己的護城河。就連Surge AI的官網也是“反潮流”的低調,低調到首頁只有一堆文字,沒有酷炫的UI和精緻的互動效果。圖源:https://surgehq.ai/5/ 他的故事不是因為財富讓人震撼,而是他的成長擊中了家長最應關心的三件事。1)真正的強者,不是靠刷題堆出來的,而是靠“思維結構”塑造出來的。數學訓練了他拆解問題的能力;語言學讓他理解語境、文化與溝通的本質;電腦把這一切轉化為可執行的技術能力。這樣的能力組合,不是分數決定的,而是認知方式決定的。分數固然重要,但決定上限的,永遠是思維體系。2)未來真正稀缺的,是“深度理解世界的能力”。Surge AI 需要的不是重複勞動,而是深度理解。他們招聘語言學家、人類學家、歷史學者,並不是為了“知識多”,而是為了讓 AI 學會——理解情緒、語境、隱喻、文化背景。這些是人類最複雜的能力,也是 AI 最難獲得的能力。未來的優勢,不再來自技能數量,而來自:是否能解釋複雜問題是否能理解不同文化與人群是否具備洞察力與創造力理解力,是下一代的頂級能力。3)決定孩子上限的,不是成績,而是“能否創造新的價值”。Edwin的成功,來自於“看到別人看不到的價值”。別人做資料,他做“人類智慧的數位化”;別人解決眼前問題,他解決行業底層問題。這類能力不是分數訓練出來的,而是:對世界有自己的判斷能從多學科視角看問題能把知識變成新的價值考試衡量的是輸入能力,而未來衡量的是創造能力。真正能改變命運的,是創造,而不是應付考卷。6/ AI 重塑財富,而教育重塑孩子的未來AI 正在發生一場新的“財富重新分配”。但對我們家長來說,更重要的是:孩子是否擁有 AI 時代真正需要的能力?Edwin Chen給我們看到一種新的可能:從小培養邏輯與思維注重語言與表達把文化理解力當作核心能力跨學科融合,而不是單科突破看到他的故事,不是又看到一個“焦慮範本”,而是一個可複製、可參考的“未來教育範本”。在人類與 AI 共存的時代,理解世界、解釋世界、創造世界的人,永遠不會被機器取代。你家的孩子,也完全有可能成為下一個 Edwin Chen。 (十一媽媽up)
蘋果年度 App 出爐!女兒想學單詞,他直接做了個 AI 神器 | 對話 CapWords
2025 年接近尾聲,蘋果2025 年 App Store Awards 獲獎名單也揭曉了,年度 App 給了《CapWords》這個國產寶藏應用。CapWords 是一款語言學習工具,在今年的蘋果設計獎中它就是獲獎名單上第一個國產應用。它憑什麼呢?你隨手拍張照,AI 就能幫你把身邊的東西變成單詞卡。比如拍個咖啡杯 ,它直接告訴你英文、法文怎麼說,還能生成設計感線上的貼紙。不知道大家有沒有同感,很多時候在 app 上背的單詞總感覺離生活太遠,和自己關係不大,彷彿學的是一個個抽象的英文字母組合而不是一個單詞。而 CapWords 反客為主,讓使用者主動去學習生活中物品的單詞,還能有助於聯想記憶,整個玩法也很有樂趣,頗有《寶可夢》中小智收集寶可夢圖鑑的感覺。APPSO 之前對 CapWords 做過體驗,大家可以感受一下👇除了名詞,現在動詞形容詞都能認,甚至 Live 圖和視訊也能識別。還能列印成實體卡片,儀式感拉滿。APPSO 也專訪了 Capwords 開發者,聊聊語言的門檻被 AI 「踏破」之後,我們和語言之間,究竟還剩下些什麼。這不只關於技術和產品,Capwords 創始人 Ace 最開始是為了幫女兒 Dorothy 學習才做的這個 App,他從生活場景中尋找記憶錨點,這大概就是技術的浪漫。對話 Capwords 開發者:詞彙是和生活「摩擦」這款接連斬獲蘋果設計大獎和 App Store Awards 的產品叫做「英語學習工具」,顯然太過侷限。Capwords 更像是一件關於語言、記憶和生活場景的裝置:拍照即識別,貼紙設計,搭配活潑輕盈的視覺風格,讓人忍不住多看幾眼,也順手就多認識幾個單詞。在 Capwords 近乎直覺般的設計背後,是一個簡單卻深刻的理念:語言的學習回歸生活,它可以從一次指認、一次散步、一次「這個怎麼說」的好奇心開始。APPSO:最早是因為小朋友有一個很簡單的需求,指著東西問「這個用英語怎麼說」,這就是整個靈感的來源和項目開端是吧?DTD:對,我女兒大概三歲左右,不到三歲。我經常在夏天帶她出去玩,我們會去公園,或者一些寫字樓前的廣場上。在玩的過程中,她會問我一些問題,比如「這個植物叫什麼?」「這個路牌怎麼念?」我就會一邊陪她玩,一邊跟她解釋,有時也會用一些識別類的產品幫她查。可能是因為在她好奇心爆發那個階段,這樣的場景其實非常多。印象比較深的一次,是在一個寫字樓的地磚縫裡,長出了一種叫「狗芽根」的植物。她很偶然地指著說:「爸爸,那有個狗芽根!」類似的場景讓我特別觸動。再結合她之前也會問我一些「這個用英文怎麼說」的問題,我就在想:這種「場景 + 圖像 + 資訊「的結合」,可能會讓她的記憶更好。我自己本身也是一個設計師出身,所以對於圖像或者資訊的這種感受會更敏感一點。圖片來自:小紅書@DTD.STUDIOS所以跟女兒互動的這些場景,很多都會給我這樣的感受:語言本身應該是在生活裡的,我們能用什麼辦法能幫助到這件事。大概就是這樣一個過程。APPSO:你們當時有意識到類似的需求,並不只是出現在孩子身上,其實更廣泛的使用者群都有這種需求嗎?DTD:沒有,因為我自己英語就不好,我不太擅長去背,或者把一個個知識點硬塞到腦子裡。我也不是學教育的,所以對於語言學習,我的理解是語言發生在生活裡。如果有一個環境,比如聊天時看到了、聊到了,看到一個東西和圖像時,會有關聯記憶。我會自己總結一些原則,比如為什麼某個圖像會吸引我,或者一個彩色的樓,或者我們城市裡看到的有特點的建築物,引起我注意的可能就是我腦海中圖形的關聯性,這一點非常重要。這也許是我作為設計師的個人總結,不一定完全科學。圖片來自:小紅書@DTD.STUDIOSAPPSO:市面上大部分的查詞軟體都比較臃腫,但 Capwords 把路徑做得非常簡單,一拍就可以完成。但你們擔心過對學習效果的影響嗎?DTD:這個 CLU 要不你來講講。CLU:其實我們在產品立項的時候,出發點並不是語言學習。回到剛剛說的,我們就是為了給我的乾女兒解答問題——這是一切的種子。慢慢我們會意識到,圖像會跟我們的生活形成一種「摩擦」。也就是說,通過與現實世界中的物品產生摩擦,可以強化記憶點。這些記憶點結合當時所處的場景以及全新的單詞或事物進入大腦時,我們對這些資訊的記憶會更加深刻。我們在日常生活中觀察到,人從小時候起就有天然的好奇心,會自然地記住所有新鮮的東西。比如去到日本,儘管我們可能不會說一句日語,但會說「謝謝」這種簡單的話和一些詞。或者描述可愛的事物時,會用到「卡哇伊」這樣的詞,因為這些東西對我們而言有新鮮感。所以,我們在立項開始就沒有定位為一個單純學習英文或者單詞的產品。並且根據我們的觀察、使用者反饋,還有實際落地的情況來看,我們在做的一件事情就是把接觸一個新的語言的這個門檻降低,讓大家會更感興趣。對一個語言的這種感興趣程度提高了,然後慢慢的,大家自己會再去找到一個更加系統化學習的方式。APPSO:目前接到過那些印象特別深刻的使用者反饋嗎?@61:這個我可以來說一下。我之前的一個 mentor 有個上小學的女兒。測試階段我給了他一個兌換碼,他就帶著女兒用 iPad 玩 Capwords,把家裡所有東西都掃了一遍,甚至還掃了他爸的光頭(笑)。第二天,他爸來跟我反饋,說女兒居然把昨天掃到的所有單詞,都寫在了自己的日記本上,還自己開始複習了。接下來幾天,女兒每天放學回家的第一件事,不是玩蛋仔派對,而是拿著 iPad 在家裡到處找「還有什麼沒掃過的」。DTD:有一些使用者的反饋我確實印象很深,我看過一個使用者說這是他用過最不像 AI 的 AI 產品,還有一個說這是他今年用過最溫暖的 AI 產品。這也就是我們想達到的效果。APPSO:確實,模型完全融入到了使用過程中,AI 的存在感並不強。你們在研發的時候碰到過什麼挑戰嗎?CLU:其實我覺得 AI 還是有一些邊界和條件,但是 AI 本身的這種判斷力和我們人本身的一些常識,其實是差不多的。比如我們之前測試過,一杯棕色的液體,AI 會識別成為咖啡,但是如果我親手做的這杯飲料,我就知道它其實是涼茶,那識別結果就跟我的認知不符。但這並不是 AI 的問題,只是誤認確實會出現。所以我們在設計的時候加了調整項,如果系統識別出來的結果和認知不符合,使用者可以輸入調整成正確的物品。DTD:關於識別速度上的問題,其實大模型都需要時間。把圖像傳過去,再回傳資料回來,整個過程其實是有五六秒時間的。去年我們第一個版本發出來,我們一起玩的時候感覺沒什麼問題,大家都覺得非常神奇。尤其是我老婆和女兒都覺得太厲害了。但是我自己在用的時候,還是覺得那個 6 秒鐘很煎熬。後來我們最佳化了一些提示詞,調整了圖片的大小,通過各種互動上的設計來減少使用者的感知,把這個時間藏在不同的互動形式後面。所以我的理解是從體驗層面,去解決一些目前模型本身解決不了的問題。CLU:還有一個是你會看到當一個物品的識別完成之後,會有一個被撕下來的貼紙的效果,我們當時就想說做成一個把現實世界裡的物品,從貼紙上摳下來的效果。在摳的過程中,其實已經在做完整的載入了,只是使用者沒有意識到,最後就可以有一個很絲滑的體驗。圖片來自:小紅書@DTD.STUDIOS我相信到最後,AI 肯定是融入或者變成一個基建,不存在說要體現具體的技術實現,使用者只需要關注 AI 帶來的效果就好了,而且這個結果是使用者所期待的,甚至超出期待的。 (APPSO)
AI泡沫要破?巨佬顛覆認知的觀點來了!
大模型的決戰越來越激烈了!Google的崛起令OpenAI感到恐懼,並醞釀新的大動作!OpenAI直接拉響警報,推遲賺錢的廣告業務,也要把所有資源梭哈到ChatGPT的改進上。現在的AI圈子,像是星球大戰前夜,由於恐懼,每個人都把手指扣在了扳機上。兵荒馬亂的年代,蔡崇信在香港大學爐邊對話中,拋出了非常反直覺的觀點:現在美國人定義誰贏得AI競賽的方式,純粹是看大型語言模型,我們不看美國定義的AI競賽。當所有人都在盯著誰的模型參數大、誰的算力強時,蔡崇信卻認為——勝負手根本不在這裡。如果不看模型,這場兆賭局的贏家到底看什麼?中國手裡到底還有沒有牌?看完發現,原來大佬眼裡的世界,和我們看到的完全不一樣。1中國AI的真正優勢現在美國矽谷大模型怎麼算輸贏?很簡單:看誰的“大語言模型”更強、更聰明、參數更多。今天是OpenAI遙遙領先,明天Anthropic發個新版本追平,後天Google又搞個大新聞。大家都在卷模型,彷彿誰的模型智商高了一點,誰就統治了世界。但在蔡崇信看來,事實未必如此。他在演講中說了這麼一句極具穿透力的話:"The winner is not about who has the best model. The winner is about who could use it the best in their own industries, in their own lives."(真正的贏家不是誰擁有最好的模型,而是誰能在自己的行業、自己的生活中把它用得最好)這句話什麼意思?打個比方。如果這是一場賽車比賽,美國人現在拚命在比誰的發動機馬力大。但蔡崇信告訴你,贏家不是那個造出萬匹馬力發動機的人,而是那個能把發動機裝進車裡、開著車去送貨、去載客、去賺到真金白銀的人。這個判斷的底層邏輯是:AI的真正價值在於滲透率。中國國務院的AI規劃就體現了這一務實思路——到2030年,AI智能體和裝置的普及率達到90%。中國憑什麼能普及得更快?蔡崇信列出了幾個核心底層邏輯。我們總擔心晶片被卡死,但蔡崇信告訴我們:決定勝負的,是那些基礎到你根本不會關注的領域。1.被低估的電力成本AI訓練和推理,本質上是在燒電。中國的電力成本,比美國低40%。為什麼?中國的國家電網每年投入900億美元的資本支出,而美國只有300億美元。電費低40%,意味著AI應用成本可以大幅低於對手。這是最基礎、最硬核的AI能源優勢。2.建造資料中心的成本低60%在中國建造資料中心的成本要便宜60%,這還不包括購買晶片、廉價GPU的成本。3.工程師紅利晶片可以封鎖,但人才你鎖不住。全球範圍內,幾乎近一半的AI科學家和研究人員擁有中國大學的學位——無論他們在美國公司、中國公司還是世界任何地方工作。蔡崇信說在最近剛看到一個社交媒體帖子,一個在Meta工作的非華裔員工抱怨說,他所在的AI團隊每個人都在說中文,用中文交流想法,他聽不懂。這意味著很多想法的分享和交流在全球AI領域正在用中文進行。這是第一次,中文成為一種優勢!現在,懂中文在AI世界變成了一個優勢。4.最反直覺的優勢:匱乏,逼出內功這是最讓人熱血沸騰的一點:缺乏頂級GPU,反而創造了“飢餓優勢”。美國人資源充足,程式碼寫得爛一點也沒關係,硬體能扛。但中國團隊呢?硬體受限,就必須在系統層面、演算法層面做到極致最佳化,把效率摳到最高。蔡崇信特別點名了爆火的DeepSeek。他說這就是被逼出來的奇蹟。2開源為什麼會贏?蔡崇信還給出了一個對未來的深度判斷,也是這場演講的重中之重。蔡崇信相信中國公司對待大語言模型的方法——即開源——將加速AI的採用,並將真正實現AI的普及,從而使更廣泛的社會受益。開源如此重要的原因是,它成本低廉,使用開源模型實際上不花一分錢。AI的未來,是像OpenAI那樣搞“黑箱子”(閉源),還是像阿里、Meta那樣搞開源?蔡崇信斬釘截鐵:開源模型,將擊敗閉源模型。為什麼?不是因為開源技術更先進,而是因為它更懂人性。他舉了一個極其生動的例子:假設你是沙烏地阿拉伯的國王,你想發展自己國家的AI,你有兩個選擇:用OpenAI的API:你得付一大筆錢,把你的資料傳給美國公司。然後呢?你不知道他們怎麼處理你的資料,你也不知道這模型裡面有什麼貓膩。這就是一個Black Box(黑箱)。用開源模型(比如阿里的Qwen):你直接下載程式碼,部署在你自己的私有雲上。免費,而且資料不出國門,完全可控。這就叫"主權AI",意思是它是我們自主開發的AI。在全球地緣政治這麼複雜的今天,誰願意把命脈交到別人手裡?無論是政府還是大企業,只要稍微算一下帳,稍微考慮一下安全,都會傾向於開源。開源模型有三大殺手鐧:成本、主權、隱私。這三座大山,是閉源模型很難跨越的。3AI時代,普通人該如何應對?蔡崇信給了三條極具實操性的建議,特別是關於“學什麼”,他的觀點顛覆了很多人的認知。1.提出正確的問題比回答更重要在技能方面,蔡崇信認為要學習如何獲取知識,學習如何分析和思考,還有一個重要的技能是提出正確的問題。以前我們上學,老師獎勵那些能快速回答問題的人。但在AI時代,回答問題是機器的事,機器的知識庫比你大多了。蔡崇信強調:"Asking the right question is more important than finding the answer." (提出正確的問題,比找到答案更重要)你要學會的是如何給AI下指令,如何拆解問題。這叫“Prompt Engineering”(提示工程),這是未來人類的核心競爭力。2.還要不要學程式設計?這是目前爭議最大的話題。輝達的老黃說“以後沒人需要學程式設計了”,對著手機說話就行。蔡崇信反對這個觀點。他說:要學!必須學!但他給出的理由:"The purpose is not to actually operate a machine. The purpose is going through that thinking process."(目的不是為了去操作機器,而是經歷那個思考過程)學程式設計,不是為了讓你去寫程式碼(那活兒AI幹得比你好),而是為了訓練你的邏輯思維。甚至,他建議大家去學好Excel電子表格。為什麼?因為你要把一個複雜的公式寫對,讓數字自動跑出來,這本身就是一種嚴密的邏輯訓練。你要訓練的是腦子,而不是手速。3.選什麼專業?如果你的孩子現在要上大學,蔡崇信推薦了三個方向:資料科學:其實就是統計學的升級版。未來是資料爆炸的時代,世界越數位化,你或公司獲取的資料就越多,理解如何管理和分析資料非常重要。心理學和生物學:在做了資料之後,你還想觸及人性的一面,心理學的研究很重要。心理學和生物學幫助你理解人腦是如何工作的,它仍然是最高效、最節能的"機器",理解大腦如何工作非常重要。材料科學:現在很多孩子不學電腦科學,而是在學材料科學。未來世界正被位元(數字資訊)主導,但未來讓位元移動更快的是原子(物理材料)。理解原子如何工作將會非常重要,人們製造半導體,未來半導體領域將會有很多創新。所以材料科學將是一個有趣的學習方向。4AI是泡沫還是未來?AI是否是下一個網際網路泡沫?蔡崇信的回答很哲學,關於泡沫,他認為有兩個概念:真正的泡沫和金融市場泡沫。金融市場泡沫:不知道是否存在金融市場泡沫,因為股票估值更像一門藝術。即使有既定的理論,你可以給一隻股票50倍的市盈率,因為你認為增長率非常高,這合理嗎?我不知道,可能存在與AI相關的金融市場泡沫。技術泡沫:AI現像是真實的。人們正在建造的所有基礎設施,投入到模型開發中的所有研發資源,都不會浪費,因為這是一個真實的現象。就像網際網路一樣,在2000年3月左右,網際網路泡沫破裂了,那是金融市場泡沫破裂,但今天的網際網路就在這裡,事實上網際網路現在更強大,所以技術本身不是泡沫。蔡崇信的這次演講,給人最大的感受是,這場比賽才剛剛開始。這不是一場百米衝刺,看誰起跑快;這是一場馬拉松,看誰能把技術真正融入到這片土地的每一個角落,看誰能用更便宜的電、更務實的態度、更開放的胸懷,去擁抱這個未來。"Focus on the application, not just the model."(關注應用,而不只是模型)這,或許才是中國AI破局的真正答案。對於個人來說,也許在未來,AI將成為成為我們的夥伴。正如蔡崇信所言:AI的下一個重大轉變是當人們開始不再僅僅將AI視為工具,而是作為朋友。現在AI似乎更像一個工具,我們都想用它來讓自己更高效,讓公司更高效。AI已經在幫助我們編碼,所以我們不需要那麼多軟體工程師。但是,AI何時能成為你的夥伴?那時,如果大多數人開始像對待另一個人一樣看待AI,那將真正改變世界,改變行為。有時想想這很可怕,但我看到這正在發生。 (ETF進化論)