#作弊
GPT-5.2被爆作弊!偷襲Google竟靠拉爆token刷高分,不如Gemini 3
GPT-5.2打贏Gemini 3.0 Pro,竟是靠高推理與海量Token「作弊」?網友的這個發現,在AI社區一石激起千層浪。更多網友七嘴八舌表示:GPT-5.2,並沒有那麼好用!太戲劇了。OpenAI昨天剛放出大殺器GPT-5.2,今天就被爆疑似虛假營銷?凌晨的科技圈,被一則爆料點燃──一位用戶透過精細計算發現了「華點」:OpenAI在最新發布的基準測試中,可能透過調整模型「推理力度」參數,讓GPT-5.2在關鍵評測中使用了遠超對手的算力資源。一句話總結就是:在調整token使用後,GPT-5.2和Gemini 3 Pro在ARC AGI 2上的表現基本上相當。具體來說,問題就出在這幾張圖上。可以看到,OpenAI在基準測試中使用了額外的token,至少是Gemini 3.0 Pro的兩倍。這就像兩個棋手對弈,一方被允許思考一個小時,另一方卻只有十分鐘,然後宣佈前者獲勝。在這種情況下,結果還公平嗎?OpenAI勝過Google,其實靠作弊?昨天的AI圈,都被GPT-5.2吊打Gemini 3.0 Pro的結論所震撼,而前者在ARC AGI 2的精彩表現,則尤為出圈,被AI社區大加讚賞。但現在,這些結果很可能注了水?例如在備受關注的ARC AGI 2測試中,GPT-5.2 xhigh版得分52.9%,每個任務消耗約13.5萬個token。以API定價計算,每個任務僅算力成本就高達1.9美元。相較之下,GoogleGemini 3.0 Pro以6.7萬token取得相似成績,效率高出整整一倍。如果我們將算力投入標準化,就會發現兩個模型的真實能力幾乎並駕齊驅。如果這個假設普遍成立,那麼GPT 5.2在使用token數超過Gemini 3的兩倍的情況下,仍然在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4中表現不佳。在GPQA上,它們也才基本相當。而在Frontier Math Tier 3中,GPT 5.2 xhigh也就比Gemini 3 Pro高出2.7%的成績。唯一例外的是GDPVal——一個由OpenAI自己建立的測試集。既當裁判又當運動員,結果的客觀性就有待考慮了。Ilya:我早說了其實,Ilya在之前的訪談中就已經說過,現在的大模型基本上都是為了榜單定向優化的,榜單結果的水分都大得很。業內人士都知道,如今AI基準測試的「軍備競賽」早已超越單純的技術競爭。各家廠商都在競相推出自己的評測標準,而這些標準往往有意無意地偏向自家模型。這麼幹的也絕不僅僅是OpenAI一家。在Google推出的FACTS Benchmark中,Gemini 2.5 Pro超越GPT-5的結果,也同樣得打個問號。在SWE Bench(軟件工程評測)中,情況就更加複雜了。不同模型在不同程式設計任務上各有所長,但沒有一個模型能在所有任務上全面領先。顯然,真實世界的問題遠比單一分數複雜。所以,這次事件就反映出了AI評測的根本困境——如果GPT-5.2隻是透過消耗更多算力獲得了效能提升,那真的能聰明進步嗎?還是只是「暴力計算」的勝利呢?對於這次OpenAI的「虛假營銷」,網友們也是議論紛紛。有人表示,如果使用者得到的「推理力度」參數是一樣的,也用的是同樣的token,那OpenAI就不算虛假營銷。但如果測評的和使用者使用的根本不是同樣的版本,那就是欺騙了。也有一些人是站在OpenAI這一邊的。他們覺得,即使增加Gemini 3的token數量,它也未必就能趕上GPT-5.2,這一點來說,前者的確落後了。也有人說,既然模型的價格都是公開的,那就不構成欺騙。巧了不是,緊接著我們就發現,「貨不對板」這個問題的確有人提出來了。在社區的另一篇貼文中,也有人指出了OpenAI的作弊問題——早在GPT-5.1發佈時,所有基準測試中用的都是高推理力度(high),然而plus使用者卻只能使用中等的版本。而現在的5.2版本中,OpenAI增加了更高的「xhigh」推理力度,所以基準測試中所顯示的效能,要遠遠超過ChatGPT付費使用者的實際體驗。GPT-5.2的實際體驗如何不看榜單,我們就來看看使用者的實際體驗究竟如何。一位網友發文稱,自己對GPT-5.2的第一印象並不是太好。例如在檢查程式碼時,它的幻覺現象非常嚴重。網友本來以為GPT-5.2會比5.1好得多,但實際用起來並非如此,它並不能理解他寫的函數代碼。另一些網友回饋說,GPT-5.2似乎把成年人當學齡前兒童對待,感覺不像是升級,反而是倒退。OpenAI的核心使用者群體,仍然最想念GPT-4o。總之,GPT-5.2的實際體驗跟基準測試似乎相差很多,保不齊又是一個在紅色警報狀態下倉促拿出的產品。被Google打得匆匆忙忙、連滾帶爬的OpenAI變成今天這個樣子,顯然不是一朝一夕的事。OpenAI,變了畢竟,當一家機構既是「研究AI的人」,又是「靠AI賣故事的人」,它還能誠實地面對那些刺耳的真相嗎?根據Wired的最新調查,OpenAI內部正經歷一場關於「真話權」的劇烈地震。在面對「AI是否會搶走你的飯碗」這類致命問題時,OpenAI的策略已悄悄轉變:閉上嘴,專心賣貨。這種為了商業利益而犧牲學術獨立性的轉向,直接「氣跑」了自家的研究員。「我們成了老闆的喉舌」回望2023年,OpenAI發布的重磅論文《GPTs Are GPTs》,直白地剖析了那些行業最容易被AI顛覆,並在第二年登上了Science。那時的他們,還敢於直視「技術性失業」的陰影。但到了今年9月,畫風突變。在新任首席經濟學家Aaron Chatterji的帶領下,OpenAI發布了一份名為《全球使用者如何使用ChatGPT》的報告。從學生寫作業到職場人做表,報告事無鉅細地描繪了AI的美好圖景。結論毫無懸念地一邊倒:AI是生產力的引擎,是經濟價值的創造者。企業使用者被引述稱,ChatGPT每天能幫他們省下40到60分鐘。對此,一位前員工吐槽道:「這簡直是為『AI創造價值』這一命題量身定做的軟廣,充滿了粉飾太平的味道。」離職信裡的「真相」矛盾的爆發點,是報告作者之一、OpenAI經濟研究骨幹Tom Cunningham的離職。過去一年,OpenAI對「負面研究」的審查愈發嚴苛。那些探討AI如何取代入門級白領(如客服、行政)的課題,要麼被要求“軟化措辭”,要麼直接被束之高閣。忍無可忍的Cunningham在Slack上留下了一封直白的告別信:我們曾致力於嚴謹的學術研究,現在卻淪為了公司的宣傳部門。他認為,團隊不僅失去了研究AI負面影響的自由,反而被迫為公司「貼金」。Cunningham並非個案。前政策研究主管Miles Brundage離職時直言,公司「太高調、限制太多」,讓他「無法發表真正重要的觀點」。超級對齊團隊的William Saunders因不滿公司「只顧推新產品、無視用戶風險」而憤然出走。前安全研究員Steven Adler更是公開砲轟ChatGPT可能誘發使用者的「精神危機與妄想」。價值一兆美元的「沉默」面對Cunningham的離職,OpenAI高層上演了一出教科書般的危機公關。首席戰略官Jason Kwon在備忘錄中回應:既然是我們把AI推向了世界,我們就得負責建構解決方案,而不是光盯著問題。翻譯一下就是:別再發論文論證AI會導致失業了,這不利於帶貨;多想想怎麼誇我們的產品能提效吧。OpenAI為什麼要這麼做?答案藏在帳本裡。如今的OpenAI早已不是當年的非營利實驗室,它正衝刺1兆美元的驚人估值,並籌備著史上最大規模的IPO。它拿了微軟幾百億美元;它需要晶片大佬們再投1000億;它承諾未來要付給微軟2,500億美元買雲服務。在天文數字的利益面前,「誠實」成了最昂貴的奢侈品。如果你正準備上市,正試圖說服全世界擁抱AI,你絕不希望自家的研究員跳出來說:「嘿,根據資料,這波AI可能會讓30%的白領失業。」「歲月靜好」的另一邊有趣的是,老對手Anthropic似乎拿到了完全相反的「劇本」。他們的CEO Dario Amodei甚至公開「唱反調」,警告到2030年AI可能取代一半的入門級白領。當然,這未必全是出於誠實——很多人解讀,這不過是Anthropic為了換取監管紅利而刻意販賣的「焦慮」。但回看OpenAI,情況更為微妙。如今掌管其經濟研究團隊的,是前克林頓顧問、有著「災難大師」之稱的頂級危機公關專家——Chris Lehane。在這個精心修訂的新版本裡,AI絕不可能是引發社會動蕩的「怪物」,它只會是幫助你「每天省下40分鐘」的乖巧助手。至於那些關於失業、動盪和泡沫的尷尬真相?噓,為了那1兆的估值,請保持安靜。 (新智元)
每個人都在靠AI作弊上大學,傳統教育已死
名校不再是學習知識的場所,甚至不是為了獲得文憑,名校只是你遇到創業夥伴和未來另一半的最佳地點。從 1930 年代開始,人類的智商測試分數一代高過一代,但自 2006 年左右開始放緩,部分地區甚至出現下降。“在這個 AI 時代,最令人擔憂的不是它可能損害人類的創造力或智力,而是它已經做到了這一點。”康奈爾大學心理學教授羅伯特·斯滕伯格說。假設有兩個廚師。一個廚師通過多年的實驗,以傳統方式學習烹飪,從掌握個別食譜到更加直覺地理解食材和技巧的搭配。另一個廚師則依賴AI,逐一生成食譜,通常是根據冰箱裡的食材或市場上正在特價的東西。AI能夠成功地做到這一點,因為它像第一個人類廚師一樣,接觸了無數食譜,並通過它們來培養對烹飪的直覺。它也經歷了一個訓練過程,從具體到抽象。相比之下,第二個廚師根本不需要培養這種直覺;他停留在個別食譜的層面。在這三位廚師中——第一個廚師、第二個廚師和人工智慧,第二個廚師實際上是最沒有訓練的。這意味著什麼呢?第二個廚師與第一個廚師,在作為廚師的層面上有什麼不同嗎?做為人呢?當然,第二個廚師的思維、能力和經歷都不同。他做決定的方式也不同。當一個技藝精湛的廚師根據自己一生的烹飪經驗,為你做一頓飯時,那與一個人用AI挑選的食譜做飯是兩回事。或許可以說,從某種程度上,他的品格也不同。第二個廚師或許能做出美味的晚餐,但他不是一個通過不斷嘗試、失敗,並最終取得成功的廚師。他沒有真正經歷過作為廚師的生活,他只是在做表面功夫而已。但這又意味著什麼呢?是不是他更難找到工作,更難在社會上獲得生存的空間,還是什麼?假設這些差異在許多領域中重複發生。想像一下,作為極端情況,兩個個體,一個自己嘗試解決問題,另一個則在需要進行智力勞動時經常借助人工智慧。他們會是截然不同的人。一個會成為思考者,另一個則是一個消費者。一個人的心智會因為學習而被塑造,另一個人的心智則會由偏好塑造。一個會擁有廣泛的、可適應的、內化的能力;另一個則擁有尋找幫助的能力。在現實生活中,當然,這並非兩個完全不同的人,而是我們每個人內心中兩種潛能的體現。在多大程度上,我們會淪為人生的乘客,而不是駕駛員呢?在未來,如果你按月或按年訂閱的智能體、大模型把你封禁了,或者就像最新一季《黑鏡》第一集裡,數字永生的服務,需要你經常聽廣告,要你不斷升級會員,你付不起會費,又會怎樣?不過,人們無法抵擋技術的誘惑,就像水手無法抵擋塞壬的歌聲。隨著AI的普及,很多人會開始質疑,當電腦已經非常精通時,訓練自己思維的價值和意義何在?去年秋天,鐘仁(Roy)·李踏入哥倫比亞大學的校園。他坦言,幾乎所有的作業都是靠生成式AI完成的。在哥大,他很快找到了一個創業搭檔,做出了一種利用AI幫助面試者作弊的工具。結果被遭到哥大的處分,被留校察看。李同學感到荒謬:哥大不是還和 ChatGPT 母公司 OpenAI 有合作關係嗎?雖然哥大和多數高校一樣,禁止學生未經授課教師明確許可使用 AI,但李表示:“在學校,我沒見過一個不用 AI 作弊的學生。……我覺得,距離大家不再把用 AI 寫作業看作作弊的時代,只剩下幾年,甚至幾個月。”nymazaine發了一篇長文,引起了廣發的熱議,《每個人都在靠AI作弊上大學》。傳統教育已死。“現在上大學,就是看你的chatgpt用得有多好。”ChatGPT has unraveled the entire academic project.James D. Walsh去年秋天,鐘仁(Roy)·李踏入哥倫比亞大學的校園,並坦言,幾乎所有作業他都是靠生成式人工智慧完成的。作為電腦科學專業的學生,他在入門程式設計課上尤其依賴 AI:“我直接把題目丟給 ChatGPT,然後把它吐出來的答案交上去。”按他粗略估算,他提交的每篇論文有 80% 都是 AI 寫的。“最後我會稍微潤色一下,加一點人味進去。我大概只加了 20% 的‘人性’,自己的聲音。”他最近這樣對我說。李出生於韓國,在亞特蘭大郊區長大,父母經營一家大學升學顧問公司。他說自己高三時提前被哈佛大學錄取,但因畢業前一次夜宿實地考察活動中偷偷外出而被學校停學,哈佛隨後撤銷了錄取資格。一年後,他申請了 26 所大學,但無一錄取。於是他先讀了一年社區大學,然後轉入哥倫比亞大學。(他的個人陳述,把這段曲折的升學歷程描繪成自己立志創業的寓言,也是在 ChatGPT 的幫助下完成的。)去年九月,他作為大二學生入學,並不怎麼在意學業或 GPA。大學裡大部分作業根本沒意義,”他說,“用 AI 輕鬆就能搞定,我一點興趣都沒有。”當其他新生還在苦苦應付被學校宣傳為“思想拓展、個人轉變”的核心課程時,李已經靠 AI 輕鬆應對。他為何如此辛苦才考進常春藤盟校,卻又把學習交給一個機器人?“因為這是你能遇見創業合夥人和未來老婆的最佳地點。”他說。第一學期結束時,李已經實現了其中一個目標。他認識了聯合創始人——工程學院大三學生尼爾·尚穆甘(Neel Shanmugam),兩人一起開發了一系列創業點子:一款只針對哥大生的交友 App、為酒類分銷商設計的銷售工具,還有一款筆記軟體。但這些項目都未能成功。後來李想到一個新點子。作為程式設計師,他曾在 LeetCode 上花了約 600 小時,那是一個為面試準備演算法題的平台。李和很多年輕開發者一樣,覺得這些題目枯燥且與實際工作關係不大。他想,那這些訓練還有什麼意義?如果他們能做一個工具,在遠端面試時把 AI 隱藏在瀏覽器背後,讓應試者也能靠作弊通過呢?於是,在今年 2 月,李和尚穆甘推出了這樣一個工具。網站橫幅上寫著:“F*CK LEETCODE”。李還在 YouTube 上傳了一段他使用該工具“騙過”亞馬遜實習面試的視訊。(他確實拿到了實習機會,但後來拒絕了。)一個月後,哥倫比亞大學學術誠信辦公室找他談話。委員會認定他“傳播作弊工具連結”以及“教學生如何訪問和使用該工具”,對他做出留校察看處分。李對此感到荒謬:哥大不是還和 ChatGPT 母公司 OpenAI 有合作關係嗎?雖然哥大和多數高校一樣,禁止學生未經授課教師明確許可使用 AI,但李表示:“在學校,我沒見過一個不用 AI 作弊的學生。”李並不認為這是壞事:“我覺得,我們距離大家不再把用 AI 寫作業看作作弊的時代,只剩下幾年,甚至幾個月。”早在 2023 年 1 月,也就是 ChatGPT 上線兩個月後,一項面向 1000 名大學生的調查顯示,近 90% 的學生使用了該聊天機器人完成作業。上線第一年,ChatGPT 的月訪問量持續上漲,直到 6 月學校放假(並非偶然,2024 年暑期流量同樣下降)。教師們越來越常見到語言生硬但語法完美、聽起來不像是人寫的論文。兩年半後,從大型州立大學、常春藤、東北部文理學院,到海外高校、職業學院和社區大學,學生們在學習的各個環節都開始依賴 AI。ChatGPT、Google 的 Gemini、Anthropic 的 Claude、微軟的 Copilot 等生成式 AI,不僅幫他們記筆記、制定學習計畫、總結課本和小說,還能頭腦風暴、起草論文提綱、直接寫作。STEM 專業的學生用它來自動化研究和資料分析,輕鬆應對複雜程式設計任務。正如一位猶他州學生在 TikTok 上配文說:“現在上大學,就是看我 ChatGPT 用得有多好。”來自加拿大安大略省威爾弗裡德·勞裡埃大學的大一新生 Sarah(化名)表示,她第一次用 ChatGPT 作弊是在高三春季學期。熟悉之後,她就全學科通用,包括原住民研究、法律、英語,還有一門叫“綠色產業”的“嬉皮農耕課”。“我的成績超棒,”她說,“徹底改變了我的人生。”大學開學後,她繼續使用 AI,“為何不用?幾乎每次上課都能看到別人的筆記本上開著 ChatGPT。”臨近期末時,她開始覺得自己可能已經依賴這個網站。她已經自認為對 TikTok、Instagram、Snapchat 和 Reddit 上癮,在 Reddit 上的使用者名稱是 maybeimnotsmart。“我花太多時間刷 TikTok 了,”她說,“幾個小時幾個小時地刷,眼睛疼得難受,根本沒法做作業。有了 ChatGPT,本來要寫 12 小時的論文,兩小時就搞定。”教師們嘗試通過“AI 免疫化”作業來應對,比如回歸手寫答題冊(Blue Book),或改為口頭考試。布萊恩·帕特里克·格林(Brian Patrick Green),聖塔克拉拉大學的科技倫理學者,在第一次使用 ChatGPT 後立刻停止佈置寫作類作業。不到三個月後,他教授一門名為“倫理與人工智慧”的課程,想著佈置一篇低風險的讀書感想應該安全——畢竟,沒人會用 ChatGPT 來寫一篇個人化的反思吧?結果他收到一篇語言生硬、表述怪異的感想文,一看就知道是 AI 寫的。在阿肯色大學小岩城分校,一位哲學教授也在其“倫理與科技”課程中發現學生使用 AI 回答課程自我介紹的問題:“簡要介紹你自己,以及你希望從本課中收穫什麼。”當然,作弊並不是新鮮事。但現在,“天花板被掀飛了,”一位學生如此形容。誰能抗拒這樣一個幾乎沒有後果、又能讓作業變簡單的工具?過去兩年多來,詩人、哲學家,也是加州州立大學奇科分校的倫理學教授特洛伊·喬利莫爾(Troy Jollimore)幾乎每天都在批改 AI 寫的論文。他對此深感擔憂:“會有大批大學畢業生走入職場,他們幾乎是文盲——不僅是字面意義上不識字,也不懂歷史、不瞭解自己的文化,更別提別人的文化。”考慮到大學其實只是人生中的一個短暫階段,這種後果可能會比我們想像得更快顯現。目前,大約一半本科生從未體驗過一個沒有生成式 AI 的大學生活。“我們可能正在見證一整代人的學習被嚴重削弱,”聖塔克拉拉的格林教授說,“學習過程正在被短路,而且來得非常快。”其實早在 OpenAI 於 2022 年 11 月發佈 ChatGPT 之前,作弊問題就已達到頂峰。很多大學生是在疫情期間遠端完成高中課程的,基本無人監督,且可以使用 Chegg 和 Course Hero 等工具。這些公司打著教材庫的幌子,實則是“作弊多功能工具”。Chegg 每月收費 15.95 美元,承諾 24/7 提供作業解答,最多 30 分鐘響應,由其僱傭的 15 萬名高學歷“專家”完成,大多數在印度工作。當 ChatGPT 推出時,學生們早已為這種更快、更強的工具做好了準備。然而學校管理者卻束手無策。不可能全面禁止 ChatGPT,因此大多數學校採取了零散策略,讓教師自行決定是否允許使用 AI。有的高校敞開懷抱,和開發商合作,推出自己的聊天機器人幫助學生選課,甚至開設與生成式 AI 相關的新課程、證書項目和專業。但監管依然困難:到底允許多少 AI 參與?學生能否與 AI 對話獲取靈感,卻不能讓它代寫內容?如今,教師們通常會在教學大綱中說明自己的政策——比如允許使用 AI,但需像引用其他資料一樣標註;或只允許用於構思,不可生成具體語句;或者要求提交與 AI 的對話記錄。學生往往將這些說明理解為“參考建議”而非強制規定。有時,他們甚至自己都不清楚,在請求 AI 最佳化段落或找一篇參考文獻時,是否已經違反了校規。Wendy 是本市某頂尖大學金融專業的大一新生,她告訴我自己“反對使用 AI”。她補充道:“我是說我反對複製貼上,我反對作弊和剽竊。這些行為都違反學生手冊。”但接下來,她卻詳細描述了上周五早上 8 點,如何用 AI 幫她寫一篇需要在兩小時內提交的 4-5 頁論文。Wendy 用 AI 寫論文的流程分三步。第一步:“我會告訴它,‘我是一個大一新生,在上這門英語課。’”否則,她說,“它會給你一個非常高級、複雜的寫作風格,那不是我想要的。”第二步,她向 AI 提供課程背景,並貼上教授的作業要求。第三步:“然後我問它,‘根據題目,請你給我一份提綱或組織結構,這樣我就能照著寫。’”接著,AI 就會提供一個完整的結構,包括引言、主題句和每段的要點。有時她還會要求提供支援或反駁某觀點的要點列表:“我寫作組織能力不強,這種方式讓我特別容易跟著寫。”等到 AI 給出提綱,提供了各段要點後,Wendy 所要做的就是“填空”。她最終在早上 10 點 17 分提交了一篇整整五頁的論文,雖然略微遲交,但仍算及時。我問她成績如何,她說得了個好分。“我其實挺喜歡寫作的,”她說著,語氣中對高中英語課充滿懷念——那是她最後一次獨立完成寫作。“說實話,我覺得寫作過程本身挺有意思。你得思考,‘這一段該寫什麼?’或者‘我的論文主旨是什麼?’”但相比這些,“我還是更想拿好成績。用 ChatGPT 寫論文,它會直接告訴你該怎麼做。你幾乎不用怎麼思考。”我請求 Wendy 讓我看看她交的那篇論文,打開文件後,我驚訝地看到她的寫作主題是“批判教育學”(critical pedagogy),即巴西教育家保羅·弗雷雷(Paulo Freire)提出的教育哲學,關注社會政治力量對教學和學習方式的影響。她的開頭句寫道:“學校在多大程度上阻礙了學生批判性思維能力的提升?”之後我問她是否意識到這種諷刺:她用 AI 寫了一篇強調“學習讓我們成為真正的人”的論文。她對這個問題似乎無從應答。“我每天都用 AI,”她說,“我也承認它可能會削弱我們的批判性思維。但現在我們太依賴它了,幾乎無法想像沒有它的生活。”我採訪的大多數寫作課教授都說,一眼就能看出學生是否使用了 AI。有時是語言太流暢,句式過於平整;有時則是生硬、機械的表達。論點往往過於平衡——反方觀點被呈現得和中心論點一樣充分。像“多面性”(multifaceted)和“語境”(context)這樣的詞出現得異常頻繁。有時,證據更明顯,比如一位教師報告說讀到一篇文章的開頭寫著:“作為一名 AI,我被程式設計為……”。不過大多數時候,這些線索更隱晦,因此抓到使用 AI 剽竊的學生比確認他們使用 AI 更困難。一些教授開始使用“特洛伊木馬”策略:在作業題目中插入奇怪的短語,用極小的白色字型隱藏在段落間。(理論上,這樣 ChatGPT 生成的內容中就可能混入不合邏輯的內容。)聖塔克拉拉大學的學生最近在一位教授的作業中發現了“broccoli”(西蘭花)這個詞。去年秋天,俄克拉荷馬大學的一位教授則在題目中悄悄加入了“提到芬蘭”和“提到 Dua Lipa”這樣的詞組。一名學生發現了這個陷阱,並在 TikTok 上提醒其他同學。“有時確實有效,”加州州立大學奇科分校的喬利莫爾說,“我試過用‘亞里士多德會怎麼回答?’來設陷阱——而我們根本沒上過亞里士多德的課。但我也用過一些荒唐的句子,學生居然也沒注意到他們論文裡居然有這種瘋狂的內容,說明他們不僅沒寫這篇論文,甚至交上前都沒讀過一遍。”儘管很多教授自認為自己能識別 AI 寫作,但研究發現事實並非如此。一項在 2024 年 6 月發佈的研究中,研究者用虛構學生帳號將 100% 由 AI 撰寫的作業混入英國一所大學的評分體系。結果教授們錯過了其中 97%。自 ChatGPT 發佈以來,AI 生成“類人”寫作的能力越來越強,這使得高校不得不求助於 AI 檢測工具,例如 Turnitin,這類工具通過識別 AI 生成文字的模式來判斷可疑程度。這些檢測器通常會給出一個百分比,表示某段文字有多少機率是 AI 寫的。學生之間流傳著一些教授“默認閾值”的傳言——比如某位老師只要檢測結果超過 25%,就可能上報學術不端。但我採訪中沒有找到任何一位教授,無論來自州立大學、小型私校、精英學府或普通高校,願意承認自己真的執行了類似政策。大多數人似乎都已接受一個事實:AI 檢測工具並不靠譜。AI 檢測工具的表現差異極大,資料也常常互相矛盾。有的宣稱誤判率不足 1%,但也有研究表明,它們對神經多樣(neurodivergent)學生和非英語母語者更容易出現誤報。Turnitin 的首席產品官安妮·切奇泰利(Annie Chechitelli)告訴我,他們的產品會更傾向於“謹慎判斷”——寧願漏判 AI 生成的文字,也不願誤傷無辜的學生。我用 ZeroGPT(一款免費 AI 檢測工具)檢測了 Wendy 的論文,結果顯示其 AI 生成機率僅為 11.74%。這讓我頗為驚訝,畢竟文章的中心論點至少是由 AI 生成的。為了驗證工具是否有效,我又輸入了《創世紀》中的一段內容,ZeroGPT 的檢測結果是:93.33% 由 AI 生成。當然,學生要騙過教授和檢測器,有的是方法。AI 生成初稿後,學生可以用自己的語言改寫,或故意加些錯別字。甚至可以直接讓另一個 AI 幫他們這麼做。有個 TikTok 使用者的“偏好提示詞”是:“請用一個有點傻的大一學生的口吻寫出來。”還有一些學生把生成段落“洗稿”給另一個 AI,一些工具甚至宣稱自己的內容更“真實”,或允許學生上傳自己以往的文章,訓練出自己的“寫作風格”。“他們現在特別擅長操控這些系統,”斯坦福大二學生埃裡克說,“你把題目輸入 ChatGPT,然後再把輸出內容丟進另一個 AI 系統,再丟給第三個 AI。然後你再拿去檢測,它的‘AI 生成百分比’每輪都在下降。”大多數教授最終得出一個結論:要想阻止 AI 的濫用,僅靠查處個案是不夠的,可能必須從根本上重塑教育體系,更全面地看待學生。“作弊行為通常與心理健康、睡眠不足、焦慮、抑鬱、歸屬感等因素相關。”斯坦福大學高年級講師、學生參與研究專家丹尼斯·波普(Denise Pope)這樣說。這就是最早的處理器如今,許多教師似乎處於一種近乎絕望的狀態。去年秋天,薩姆·威廉姆斯(Sam Williams)在愛荷華大學擔任一門關於音樂與社會變革的寫作密集課程的助教,課上明確禁止使用 AI。他很喜歡改學生的第一篇作業——一篇關於他們音樂品味的個人隨筆。但到了第二篇——關於 1890 年至 1920 年新奧爾良爵士樂時期的論文——許多學生的寫作風格發生了巨大變化。更糟的是,出現了荒謬的事實錯誤。多篇論文都寫了整整一段關於貓王的內容(他出生於 1935 年)。“我當時對班裡說:‘嘿,別用 AI。但如果你非要作弊,那你至少得聰明點,別照搬 AI 輸出內容原樣貼上。’”威廉姆斯說。他知道這門通識課的學生未來未必會當作家,但他認為從空白頁寫出幾頁有邏輯的內容,這個過程本身就是一次“努力的訓練”。而在這方面,大多數學生徹底失敗了。“他們之所以用 AI,是因為它提供了一個簡單的解決方案,讓他們可以不費力地完成論文。我理解他們,因為我上學時也討厭寫作業,”威廉姆斯說,“但現在,只要遇到一點困難,他們不是努力突破,而是選擇逃避,用更輕鬆的方式對付過去。”到去年 11 月,威廉姆斯估計自己班上至少一半學生都在用 AI 寫論文。而一切“問責”嘗試都變得毫無意義。他對 AI 檢測器毫無信心,任課教授也明確指示他不能因使用 AI 給任何論文不及格——即便是那些明顯經由 AI 潤色的作品。“每次我和教授討論這事,我都感覺他低估了 ChatGPT 的能力,系裡的態度大致就是:‘這事太複雜,我們也沒法證實他們用了 AI。’”威廉姆斯說,“我被要求按‘如果這是學生真寫的該得的分數’來打分。換句話說,我是在給學生使用 ChatGPT 的能力打分。”這種所謂“真實寫作努力評分法”徹底打亂了威廉姆斯的評分標準。如果一篇顯然由 AI 寫的高品質論文得了 B,那一篇明顯是學生親筆但“幾乎是文盲水平”的論文該得什麼分?這種混亂讓威廉姆斯對整個教育體系徹底失望。學期結束時,他決定幹脆退學,不再讀研究生。“我們處於一個新時代,一個新階段,而我不覺得自己還想繼續走這條路。”他說。喬利莫爾已經教寫作二十多年,他現在確信,人文學科——尤其寫作——正迅速淪為類似“籃筐編織”這類可有可無的選修課程。“我每次跟同行聊這事,大家都會說同一句話:‘我什麼時候能退休?我什麼時候能走?’我們現在全都在想這個。”他說,“這根本不是我們最初投身教育的原因。”威廉姆斯和我採訪的其他教師都認為,AI 帶來的衝擊已經是一場徹底的存在性危機。“學生們大致也知道這個系統已經壞掉了,他們不知道再做這些作業還有什麼意義。也許我們原本希望傳達的那些教育目的,已經徹底失落,或者根本沒能傳遞給他們。”他也擔心長期後果:讓一群 18 歲的年輕人自行決定是否認真完成作業,是否會加速未來職場中軟技能鴻溝的擴大?如果學生的整個教育過程都依賴 AI,他們還能帶著什麼技能進入職場?加州大學伯克利分校的電腦科學講師拉克希亞·賈恩(Lakshya Jain)嘗試用這些問題與學生講道理。“如果你交的是 AI 寫的作業,”他會說,“那你和一個 AI 引擎的人工助手沒有區別,那你也就非常容易被替代。誰還需要雇你呢?”這並不是假設。最近,一家科技研究公司的首席營運官就當面問賈恩:“我們為什麼還要程式設計師?”事實上,大學原本被視為思想成長的殿堂,是人們沉思、探討深刻觀念的地方。但早在 ChatGPT 出現之前,這一理想就早已開始瓦解。高昂的學費與贏家通吃的經濟結構,使大學越來越被視為一項“交易”,一條通向好工作的通道,而非本身有意義的經歷。(德勤最近的一項調查發現,只有剛過半數的大學畢業生認為自己所受的教育“物有所值”,相比之下,76% 的技校畢業生認同自己的投資值得。)某種意義上,AI 之所以能如此迅速、高效地完成大學水平的任務,恰恰揭露了體制核心的腐爛。“如果我們這些教育工作者,都還沒來得及清除社會對學校造成的精神與認知傷害——即把學校看作一條高薪工作的路徑,或者一些社會地位的來源——那我們又怎麼能指望學生理解什麼才是真正的教育?”喬利莫爾在一篇文章中寫道,“更糟的是,許多人已經開始認為教育根本沒有價值,把它看成一場信心騙局,一種精緻的騙局。”這不僅僅是學生的選擇:現在有多種 AI 工具,可以自動為學生論文生成評語反饋。這意味著什麼?可能是學生用 AI 寫作,而教授用 AI 批改——整場“學術訓練”簡直成了兩個機器人之間(甚至一個機器人自言自語)的對話。我們要花很多年時間,才能真正搞清楚這一切對學生大腦造成了什麼影響。一些初步研究已經表明,當學生把認知任務交給聊天機器人處理後,他們的記憶力、解決問題的能力和創造力可能都會下降。過去一年中,多項研究發現 AI 使用與批判性思維能力退化之間存在關聯,且這種影響在年輕人群體中更為顯著。2025 年 2 月,微軟與卡耐基梅隆大學聯合發表的一項研究發現,一個人對生成式 AI 的信任程度越高,越可能減少獨立思考的努力。這一切所帶來的淨影響還無法完全預測,但至少可確定,我們正在從“高強度的探索和資訊蒐集”轉向“整合和驗證”型的學習結構。而如果你再加上 AI 不完美這一現實——它可能引用錯誤資訊,甚至完全捏造——再結合社交媒體對 Z 世代判斷真假能力造成的破壞,這個問題的規模就遠遠超出了生成式 AI 本身。所謂“弗林效應”(Flynn Effect)指出,從 1930 年代開始,人類 IQ 測試得分一代高過一代,但自 2006 年左右開始放緩,甚至在部分地區出現下降。“在這個 AI 時代,最令人擔憂的不是它可能損害人類的創造力或智力,”康奈爾大學心理學教授羅伯特·斯滕伯格(Robert Sternberg)在接受《衛報》採訪時說,“而是它已經做到了這一點。”學生們也在擔憂——儘管他們並不願放棄 AI 所帶來的極大便利。佛羅里達大學的電腦科學專業學生丹尼爾告訴我,他清晰記得自己第一次用 ChatGPT 的情景。他走到高中電腦老師的辦公室,打開 Chromebook 給老師展示。“我跟他說:‘哥們,你得看看這個!’我爸會把賈伯斯發佈 iPhone 的演講當成改變世界的時刻。對我來說,那就是我人生中每天都要用的東西。”AI 讓丹尼爾更好奇,他喜歡有問題就能立刻得到詳盡答案的感覺。但他也常常想:如果我不是直接找答案,而是自己去學,我是不是會收穫更多?在學校裡,他用 ChatGPT 來潤色語法、生成段落,或者在時間緊迫時直接代筆,還用它完成程式設計作業中重複性的工作,幾乎在所有能“抄近路”的地方都用到了 AI。有時,他清楚地知道這違反了學生行為準則;但大多數時候,他覺得這是灰色地帶。“沒人會說請家教算作弊,對吧?可如果那個家教開始直接給你寫段落呢?”他說。最近,芝加哥大學數學系新生馬克向朋友坦白,他在一個程式設計作業中比平常更多地使用了 ChatGPT。朋友給了他一個略帶安慰的比喻:“你可以是個蓋房子的承包商,雖然用了各種電動工具,但房子畢竟還是你蓋出來的。”不過,馬克說:“問題就是,這到底算不算是我的作品?真的很難判斷。”我給丹尼爾提出一個假設,想瞭解他如何劃分自己和 AI 的勞動邊界:如果你發現你的伴侶給你寫了一首 AI 生成的情詩,你會生氣嗎?他想了一下,說:“我覺得問題在於——這首詩的價值是什麼?是它表達的內容,還是它是對方親手寫的?在過去,送一封情書通常意味著兩者兼具。”如今,他依然寫手寫信——但通常是在用 ChatGPT 起草之後。“語言是思想的母親,而不是女僕,”杜克大學教授奧林·斯塔恩(Orin Starn)在一篇名為《我與 AI 作弊的敗戰》的文章中引用了 W.H. 奧登(W. H. Auden)的一句名言。但,培養批判性思維的不只是寫作。“學數學其實是訓練人有系統地解決問題的能力。即便你日後不會用到代數或三角函數,這種能力依然能幫助你在混亂中理清頭緒。”德克薩斯農工大學副教務長邁克爾·約翰遜(Michael Johnson)說。青少年需要經過“有結構的困難”來成長,無論是數學題還是家庭瑣事,這些都有助於建立自尊與責任感。社會心理學家喬納森·海特(Jonathan Haidt)也曾主張,讓孩子學會“做難事”的重要性。而科技正在讓逃避變得前所未有地輕鬆。OpenAI 的 CEO 山姆·奧特曼(Sam Altman)對 AI 在學術界的使用問題一貫輕描淡寫。他把 ChatGPT 比作“文字版的計算器”,認為“作弊”的定義需要更新。“傳統方式寫論文將不再是主要形式。”奧特曼(斯坦福肄業)去年如是說。但在 2023 年出席美國參議院科技聽證會時,他也表達了自己的擔憂:“我擔心隨著模型越來越強大,使用者自身的判斷和思考會越來越少。”OpenAI 並不掩飾其對大學生市場的興趣。最近他們在期末考試季向大學生免費提供原本月費 20 美元的 ChatGPT Plus 服務。(OpenAI 表示,師生都需要接受 AI 的“正確使用教育”,並推廣其面向高校推出的 ChatGPT Edu 產品。)3 月底,當李在 X(原推特)上公開其聽證細節後,哥倫比亞大學將其正式停學。他無意重返校園,也不想進入大廠工作。李告訴我,他通過演示 AI 如何在遠端面試中作弊,是在推動整個科技行業和高等教育一同“進化”。“每一次技術革新都迫使人類重新思考什麼才是有價值的工作。”他說,“以前也有人抱怨機器取代鐵匠。但現在,學打鐵已經毫無意義。”李已經不再折騰面試作弊工具了。4 月,他和尚穆甘推出了新產品 Cluely——一款可即時掃描使用者電腦螢幕並監聽音訊、在不需要提示的前提下提供 AI 建議和答案的工具。“我們開發 Cluely,是為了讓你永遠不必獨自思考。”他們的宣傳語如此寫道。這一次,李還嘗試了一次病毒式推廣——他們製作了一支價值 14 萬美元的廣告視訊,由李飾演一名年輕程式設計師,在一次和年長女性的初次約會中偷偷佩戴安裝了 Cluely 的眼鏡。當約會逐漸冷場時,Cluely 提醒他“提及她的藝術”,並給出對話指令碼:“我在你資料裡看到那幅畫,有鬱金香。你真的太美了。”李照著眼鏡螢幕讀出來,成功扭轉了局面。在 Cluely 上線前,李和尚穆甘從投資人那裡籌集了 530 萬美元,用來招聘兩名他在社區大學結識的程式設計師(不需要面試或 LeetCode 測試),並搬到舊金山。當我在發佈後幾天與他通話時,他正站在地產經紀人辦公室,準備拿新辦公室的鑰匙。他一邊說話,一邊在電腦上運行 Cluely。雖然 Cluely 目前還無法通過眼鏡即時輸出答案,但他們的目標是:不久後它就能在可穿戴裝置上運行,能夠“看見、聽見並即時響應”使用者周圍的一切。“最後,它就會在你腦子裡了。”李平靜地說。現在,他希望 Cluely 能繼續攻陷教育系統:“我們將直接對準數位 LSAT、GRE、所有校園作業、測驗和考試。”他說,“它會讓你幾乎在任何方面都能作弊成功。” (不懂經)
AI圈驚天醜聞,Meta作弊刷分實錘?頂級榜單曝黑幕,斯坦福MIT痛斥
【新智元導讀】剛剛,LMArena陷入了巨大爭議,斯坦福MIT和Ai2等的研究者聯手發論文痛斥,這個排行榜已經被Meta等公司利用暗中操作排名!Karpathy也下場幫忙錘了一把。而LMArena官方立馬回應:論文存在多處錯誤,指控不實。已經有越來越多的人發現:大模型排行榜LMArena,可能已經被大廠們玩壞了!就在最近,來自Cohere、普林斯頓、斯坦福、滑鐵盧、MIT和Ai2等機構的研究者,聯手祭出一篇新論文,列出詳盡論據,痛斥AI公司利用LMArena作弊刷分,踩著其他競爭對手上位。論文地址:https://arxiv.org/abs/2504.20879與此同時,AI大佬、OpenAI創始成員Andrej Karpathy也直接下場,分享了一段自己的親身經歷。前一段時間,Gemini模型一度在LMArena排名第一,遠超第二名。但Karpathy切換使用後,感覺還不如他之前用的模型。相反,大約在同一時間,他的個人體驗是Claude 3.5是最好的,但在LMArena上的排名卻很低。他還發現一些其他相對隨機的模型,通常小得可疑,據他所知幾乎沒有現實世界的知識,但排名也很高。他開始懷疑,Google等AI巨頭在暗中操縱LMArena的排名。要知道,就在本月初,就有報導稱LMArena可能正在成立新公司,籌集資金。在這個時候曝出醜聞,不知對此是否會有影響。業內聯名痛斥巨頭巧鑽漏洞,暗箱操作這篇報告,研究者花費了5個月時間分析了競技場上的280萬場戰鬥,涵蓋了43家提供商的238個模型。結果表明,少數提供商實施的優惠政策,導致過度擬合競技場特定指標,而不是真正的AI進步。因為存在未公開的私下測試機制,少數公司能在模型公開發佈前測試多個變體,甚至選擇性地撤回低分模型的結果。如此一來,公司便可以「挑三撿四」,只公佈表現最好的模型得分,從而讓LMArena的排行榜的結果出現嚴重「偏見」。而這種優勢,會隨著變體數量的增加,而持續疊加。私下測試模型變體數量對最佳預期得分的影響「best-of-N」提交策略對排名的模擬影響允許撤回評分會導致提供商有意抬高競技場分數比如說,Meta在發佈Llama 4之前,曾私下在LMArena上測試了27個LLM變體。而最終只公佈了其中一個分數。巧的是,這個模型恰恰就在LMArena上名列前茅。Cohere的AI研究副總裁、論文合著者Sara Hooker在接受外媒採訪時抱怨說:「只有少數公司會被告知可以私下測試,而且部分公司獲得的私下測試機會,遠超其他公司。」「這就是赤裸裸的兒戲。」從「行業標準」到「人人喊打」?與此同時,研究者還發現:閉源商業模型(如Google、OpenAI的模型)在LMArena中參與次數更多與之對比,開源模型(開放權重)不僅對戰次數較少,而且更容易在Arena中被移除這導致了一個長期的資料訪問不平等現象不同模型提供者的最大觀測採樣率採樣率反映了模型在LMArena中被普通使用者看到的頻率,也直接決定了該模型開發者能獲取多少使用者互動資料。LMArena是一個開放的社區資源,提供免費反饋,但61.3%的所有資料都流向了特定的模型提供商。具體來說,他們估算:Google和OpenAI的模型分別獲得了Arena上約19.2%和20.4%的全部使用者對戰資料而83個開源模型的總資料佔比僅為29.7%模型開發者的資料可用性情況而保守估計那怕是有限的額外資料,也可能帶來高達112%的相對性能提升。這進一步說明模型在Arena上的表現很容易被「過擬合」——即最佳化的是排行榜表現,而不是真正的通用模型質量。值得注意的是,LMArena的建構和維護依賴於組織者和開源社區的大量努力。組織者可以通過修訂他們的政策來繼續恢復信任。論文還非常清楚地提出了五個必要的改變:公開全部測試限制變體數量確保移除模型的公平性公平抽樣提高透明性官方回應論文有大量錯誤和詆毀鋪天蓋地的質疑襲來,LMArena火速出來回應了!它的官號第一時間發推回應稱,這項研究存在諸多事實錯誤和誤導性陳述,充滿了「不確定和可疑的分析」。而他們的說法,得到了GoogleDeepMind首席研究員Armand Joulin的聲援。他表示,論文中的一些資料是不精準的,比如Google只向LMArena發過一個Gemma 3的模型,進行預發佈測試。具體來說,關於某些模型提供商未得到公平對待的說法:這不符合事實。LMArena表示他們一直盡力滿足所有收到的評估請求。如果一個模型提供商選擇提交比另一個模型提供商更多的測試,這並不意味著後者受到了不公平對待。每個模型提供商對如何使用和重視人類偏好都有不同的選擇。事實錯誤:LMArena的模擬(如圖7/8所示)存在缺陷。這就像說:「NBA的平均三分球命中率是35%。庫裡的三分球命中率是NBA中最高的,為42%。這不公平,因為他來自NBA球員的分佈,而他們都有相同的潛在均值。」論文中的許多數字與實際情況不符。LMArena在幾天前發佈了部落格,公佈了不同提供商的測試模型的實際統計資料。例如,開源模型佔40%,而不是8.8%!所謂112%性能提升的說法具有誤導性,論文的結果基於LLM-judge基準,而不是Arena中的實際人工評估。LMArena的政策並非「秘而不宣」。早在一年多前,LMArena就設計並公開分享了他們的政策。模型提供商不僅僅選擇「要披露的最佳分數」。公共排行榜上列出的任何模型都必須是所有人都可以使用的正式版本,並且計畫提供長期支援。LMArena會使用新的資料對模型進行至少一個月的持續測試。LMArena的政策中一直明確說明了這些要點。顯示無法通過API或開源權重公開獲取的預發佈模型的分數毫無意義,因為社區無法使用這些模型或自行進行測試。這將違反LMArena一年多以前制定的政策。LMArena制定這項規則正是為了明確這一點:如果模型在排行榜上,則必須保證可用性。模型下架並非不公正或缺乏透明度,這與事實不符。排行榜旨在反映社區對最佳AI模型進行排名的興趣。LMArena還會下架不再向公眾提供的模型。這些標準已在我們的政策中公開聲明,並且在社區進行私下測試期間始終有效。要不,換個平台試試?正如貝佐斯所說:「當資料與個人經驗不一致時,個人經驗通常是正確的。」Karpathy也有同感。他認為這些大團隊在LMArena分數上投入了太多的內部關注和決策精力。不幸的是,他們得到的不是更好的整體模型,而是更擅長在LMArena上獲得高分的模型,而不管模型是否更好。對此Karpathy表示,既然LMArena已經被操控了,那就給大家推薦一個有望成為「頂級評測」的新排行榜吧!它就是——OpenRouterAI。OpenRouter允許個人/公司在不同LLM提供商之間快速切換API。他們都有真實的用例(並非玩具問題或謎題),有自己的私有評測,並且有動力做出正確的選擇,因此選擇某個LLM就是在為該模型的性能和成本的組合投票。Karpathy表示,自己非常看好OpenRouter成為一個難以被操控的評測平台。創始成員離開初心或已不在如今的爆火,或許讓人早已忘記,LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的幾位學生自己做出來的項目。和傳統評測不同,LMArena採用的則是一套完全不同的方式——使用者提出問題,兩個匿名AI模型給出答案,然後評判那個回答更好,並最終將這些評分被彙總到一個排行榜上。憑藉著這套創新性的方法,它一舉成為了當時幾乎唯一一個能較為客觀地反映LLM性能的榜單。在輸入框中輸入問題,兩個不同的模型A和B同時回答。之後,使用者可選A或B的不同評價:A更好,B更好,平局,都不好隨著科技公司投入數百億美元押注AI將成為未來幾十年的決定性技術,LMArena也迅速走紅。在吸引客戶和人才方面,任何領先競爭對手的優勢都可能帶來重大影響,這就是為什麼眾多科技高管和工程師像華爾街交易員盯盤一樣密切關注LMArena。之後的故事,大家就都知道了。問題在於,作為課餘項目的LMArena本身並不完善。之所以能在持續的爆炸性增長下不失客觀性,靠的是創始人們堅定的初心。隨著創始成員陸續畢業,新成員的加入,LMArena似乎也離它最初的路線,越來越遠。一方面,由於投票不公開、以及那些模型應該進入競技場是由某幾位成員獨斷決定的,導致LMArena自身機制就缺乏透明性。另一方面,新團隊在某個時間點突然決定,把LMArena開放給頭部大公司做匿名模型測試。這幫摸爬滾打了多年的老油條們,顯然不會錯失這一良機。基於對大量實測資料的分析,這些技術大佬們很快就「掌握」了LMArena的調性,紛紛刷起了高分。從此,質疑聲便開始此起彼伏。 (新智元)
這個00後小哥,賣AI作弊軟體,50天狂賺千萬
從作弊者到千萬富豪,一個哥倫比亞大學學生開啟了轟轟烈烈的“叛逃”之路。這個人叫Roy Lee,是一位哥大電腦系的韓裔大二學生。最近,他用自制的AI工具作弊先後拿到了4份頂級Offer——亞馬遜、Meta、TikTok和Capital One。這個被稱為“Interview Coder”作弊工具,堪稱隱形外掛,不僅能騙過螢幕監控,還能製造擬人化程式碼,生成“帶瑕疵的完美答案”。在因為作弊被哥大開除後,Roy Lee靠著賣自己的AI作弊工具,在短短50天裡,就賺了220萬美元,折合人民幣1600萬左右。根據Roy Lee自己透露,這個產品利潤率高達99%,唯一的實際成本來自於每月約3000美元的vercel帳單。接下來,讓我們一起來看看這個頗具戲劇性的故事吧。/ 01 / AI作弊裡的“隱形戰機”這兩年,在面試裡用作弊的人越來越多,面試官也進化了一些“反作弊”功夫。一般來說,出現以下行為的人,就有可能被HR視為作弊而慘遭拉黑:對方頻繁地看向電腦一側(正在看另一個裝置的答案),反應“慢一拍”(正在背答案),在答題區突然出現大片程式碼(正在複製貼上答案)……而Interview Coder比這些手段可要高級得多。簡單來說,Interview Coder是一款專門用於應付Leetcode平台程式設計考試的作弊工具。Leetcode題庫常被一執行緒序員吐槽不實用,與實際工作中簡潔的程式碼風格相悖,但偏偏Leetcode能力普遍被大廠認為是基礎的程式設計能力。21歲的Lee受夠了這種舊秩序,他決定把自己的作弊工具做大做強。Interview Coder的功能很簡單,就是能讓你的作弊動作徹底“隱身”。( https://t.co/Ki0oVQb4On)比如,你可以直接問它“你能解決頁面上的問題嗎”,而網線另一端的面試官卻渾然不知。那麼,這究竟是如何做到的?Interview Coder將自己的軟體變成隱形式外掛窗口,並利用系統權限或特殊技術,避開瀏覽器的記錄手段。從面試者視角看,外掛窗口只是一個半透明的覆蓋層,可以疊放在介面上。▲面試者視角面試官看不到這個半透明的窗口,也看不到面試者在作弊工具上的所有動作,像是把面試官眼睛蒙上了一樣。比如,面試者點選外掛窗口時,從面試官視角看,游標不會跟隨滑鼠移動。這樣一來,就不會引起別人注意。▲面試官視角除了避開面試官的檢測,Interview Coder在回答問題上的能力也不含糊。Interview Coder不僅能拆解問題,還能自我檢查。具體來說,當面試者提出複雜、模糊問題時,它會對問題進行拆解,幫助面試者理解問題和答案。打個比方,當被問及“如何提高產品銷量”的問題,Interview Coder會自動生成“產品的目標市場是什麼”之類的補充,以幫助深入地瞭解問題的全貌。同時,在註釋中進行程式碼演練,幫助面試者檢查自己的程式碼流程。更自然、更細節的是,Interview Coder給出的面試答案裡還會加一點無關痛癢的語法錯誤、個性化註釋等,以模仿人類的自然表達。這樣出來的面試效果天衣無縫,簡直真得不能再真。也就是靠著這樣的“作弊神器”,Roy Lee輕鬆斬獲了亞馬遜、Meta、TikTok和Capital One的offer。/ 02 / 99%利潤率,3000美元成本撬動220萬ARR更牛逼的地方是,Interview Coder已經開始名利雙收了。這種“普惠”項目在GitHub開源後,很快就獲得了4.1k Star。要知道,在GitHub有100 Star就算是優秀了,畢竟每個Star都是程式設計師們實打實的認可。在商業層面,Interview Coder的訂閱服務定價60美元/月。今年2月,這個產品的收入就達到了22.85萬美元,利潤22.4萬美元,利潤率高達99%。唯一成本是雲平台Vercel每月3000美元的帳單。3月25日,也就是發佈50天後,Interview Coder達成了220萬美元ARR(年經常性收入)。之所以能這麼快賺到錢,也與Roy Lee獨特的行銷策略有很大關係。在Lee看來,病毒行銷才是Interview Coder破圈的關鍵。這個理解來自於他此前的創業經驗。此前,Lee做過筆記APP,也做過酒類AI銷售代理,但無一例外都失敗了。後來他反思認為,自己既沒有成熟的行銷網路,也沒有深刻的行業洞察。既然沒有現成的行銷網路,那就直接找那些自帶“流量”光環的產品。“我們從頭開始,考慮什麼會像病毒一樣傳播開來。從行銷,到產品更替,再到行銷。這是項目的未來。”Lee說到。在去年12月面試完亞馬遜後,Lee就很快公佈了用AI工具在面試中作弊的實錄視訊,甚至還在LinkedIn和X曬頻頻曬出作弊得來的大公司offer,挑逗公眾的神經。▲Lee面試亞馬遜時的作弊錄影這是作弊的炫技,也是Interview Coder最好的廣告。Lee透露,他在以親身經歷示範的同時,也在用幾段真實的面試周期來完善產品的使用者體驗。在Reddit匿名社區,Lee還花了500美元進行了流量投放,以精準滲透求職焦慮群體。靠著Interview Coder,Roy Lee混得風生水起,但意外也接踵而至。3月26日晚上,Lee收到了哥大的停學通知。在此前,哥大就以學術欺詐為由對Lee下了處分,並在2月17日為此舉行聽證會。起初,Lee不以為意,畢竟他很仔細地讀過哥大的學生手冊,裡面根本沒寫學生不能在社招面試裡用AI進行作弊。在得知自己被開除後,Lee第一反應是震驚,但很快就轉驚為喜——這樣他就可以飛去舊金山專心搞AI作弊事業了。/ 03 / 作弊率暴漲500%,AI正在殺死技術面試?Lee以身入局的AI作弊經歷正在被Fire、Business Insider等科技媒體爭相報導。明明作弊了,卻少有路人反感,原因就是,天下苦程式設計面試久矣。矽谷大型科技公司FAANG的面試,對不少開發者來說都是一場噩夢。原因在於,面試常用的程式設計平台LeetCode,其演算法在朝著奇怪的方向內卷,題庫膨脹至3000+,90%與實際工作無關;Google面試者平均投入300小時刷題,通過率不足2%。這兩年,AI作弊現像在面試環節中蔓延開來。根據軟體開發公司Codesignal當年的資料,在生成式AI影響下,作弊者高達20%-30%。如今,技術面試公司Karat標記的潛在作弊者比例從兩年前的2%躍升至現在的10%。甚至還有人在面試時“公開”作弊。軟體開發公司Studio Init聯創說道,面試者拒絕分享螢幕,有時還會逐字逐句地唸著AI給出的答案,那怕他們將因為這些拙劣的表演而丟掉工作機會。Lee作為程式設計面試的投機者,其與大廠對薄公堂的傳奇經歷,讓他成了一種以AI技術抵抗舊秩序、挑戰陳腐規則的符號。▲Lee曝光了他與哥大的紛爭經過,多條瀏覽量達百萬除了Interview Coder外,還有不少作弊軟體,比如Leetcode Wizard。這個產品的定價高達49歐/月,目前已經有16000人付費。一面是就業競爭壓力,科技裁員潮下,單個崗位競爭比達200:1;一面是AI工具低風險高收益的誘惑,60美元月費vs10萬美元年薪offer,換你你怎麼選?大廠一方面敦促工程師使用AI提高效率,另一方面又對AI使用者指手畫腳,這可能引發對新共識的討論——什麼才是真正的作弊行為。尤其在AI程式設計日益火熱的當下,這個問題變得更為關鍵。YC管理合夥人賈裡德·佛里曼曾透露:W25中,1/4的創業公司,用AI生成程式碼庫。AI作弊軟體讓技術面試面臨挑戰,這或許也會倒逼企業重塑招聘體系。正如AI面試公司Micro1的創始人預測的,未來一兩年編碼面試會有“新常態”。 (烏鴉智能說)
全美高校掀起AI作弊風暴!近50%大學生用ChatGPT拿高分,OpenAI私藏檢測工具
在美國,媒體調查稱近40%中學生、近50%大學生用AI作弊拿高分。ChatGPT已成為美國學生的「作弊黑科技」,從作業到論文,無所不包,而且難以察覺。教育界手無寸鐵、焦頭爛額,科技巨頭卻不以為然。AI正在悄然改變一代人的學習方式!ChatGPT,還是CheatGPT?ChatGPT竟成為美國學生作弊的「黑科技」,而OpenAI為了市場佔有率,暗藏ChatGPT文字識別工具!在美國,WSJ稱近40%高中生、近50%大學生借助AI作弊拿高分;在某些學校,作弊成風,肆無忌憚!越來越多的美國學生,正在偷偷使用ChatGPT等AI軟體完成作業,拿到好成績,而家長和老師卻難以察覺、知情甚少。AI「作弊」有多普遍?一名17歲的紐澤西州高中畢業生,坦言去年利用AI在英語、數學和歷史課上的作弊經歷。這名學生的經歷揭示了生成式AI技術已經深深滲透到美國教育體系中,使得這一代學生能夠輕易地將學習任務「外包」給擁有海量知識的AI軟體。高科技小抄|圖片來源Alexandra Citrin-Safadi/WSJ教育工作者承認AI在課堂上確實有其價值。然而,在如何防止學生濫用這項技術逃避學習的問題上,教師和家長卻只能自行摸索對策。提供AI工具的科技公司——不論是科技巨頭Google,還是AI初創公司OpenAI等——在這方面幾乎沒有提供任何實質性幫助。AI如何成為學生的秘密武器?這位17歲的學生向記者解釋了她去年在數十項作業中使用AI的原因:有時是因為作業太枯燥或太難有時是為了追求更好的成績拖延症到最後,才發現作業完不成她使用OpenAI的ChatGPT和Google的Gemini來獲取靈感和複習知識點,這些用途本是很多老師所允許的。但更多時候,她是直接讓AI完成作業——Gemini不僅幫她解決數學作業,還在一次家庭作業測驗中取得了高分。ChatGPT為她完成了科學實驗的資料計算,還代寫了一篇歷史課論文中較為困難的部分——她後來對這部分內容進行了改寫以逃避查重檢測。Google的AI作業幫手介紹在這些作弊行為中,她只被發現過一次。40%中學生,50%大學生AI寫作業AI正在改變白領工作的方方面面,從起草電子郵件、製作簡報到生成圖像,無所不包。有些職場人士已經因此失去工作,許多公司CEO也開始調整未來的招聘計畫。據OpenAI透露,ChatGPT的周活躍使用者已達4億。4 億相當於地球總人口數的 5%。其中,學生群體是最主要的使用者。ChatGPT的月活量增長OpenAI的目標是讓學生養成終身使用ChatGPT解答問題的「習慣」——代替Google近30年來作為資訊查詢首選平台的地位。Impact Research去年的調查顯示,在未經教師允許的情況下,在使用AI的學生中,約40%的初高中生承認曾使用AI完成作業。而在大學生群體中,這一比例更是接近50%。OpenAI的內部分析也證實,大學生經常使用ChatGPT協助撰寫論文。在沒有成年人監督的數字世界裡,是否使用這些能暗中幫助獲取高分的AI工具,學生們不得不自行抉擇——AI公司設定的年齡限制形同虛設,很容易被繞過。這種情況令人想起上一代人初次接觸社交媒體時的情形——關於AI對學生學習的利弊影響,包括其可能助長作弊行為的研究都還很不充分。AI對教育到底是好是壞?密西西比大學學術創新助理主任Marc Watkins表示:「這是一場沒有徵得任何人同意就已經開始的巨大社會實驗。」那位紐澤西的學生雖然順利通過了去年的所有課程,但她承認自己實際學到的知識遠少於本應掌握的內容。在高中最後一年,她已經停止了違規使用AI。她說:「我決定退一步,重新開始用自己的大腦思考。」保羅·格雷厄姆(Paul Graham)曾在去年10月的一篇部落格中預言一個場景:AI出現後,人們會被分為「寫作」和「不寫作」兩類人。學術不端是否應該由AI負責,AI公司的態度相當淡然。OpenAI教育團隊成員Siya Raj Purohit表示:「作弊又不是OpenAI發明的,想要作弊的人總能找到辦法。」Siya Raj Purohit而眾多教育工作者擔憂,AI聊天機器人的便捷性,會誘使更多學生逃避具有難度的學習任務。教育界:AI無益於教育隨著AI技術的飛速發展,只要稍加巧妙運用,就很難在作業中發現AI的痕跡。在去年10月的一次教育技術會議上,紐約州立大學系統校長、美國前教育部長John B. King Jr.表示:「很可能有大量學生,從小學生到大學生,昨晚用ChatGPT完成了作業,而他們根本沒有學到任何東西。這種情況令人擔憂。」在會議上,當King表達了這一擔憂後,與他同台的Purohit提出了一個具有爭議性的觀點。她說,也許我們應該把善用AI的能力作為衡量批判性思維和溝通能力的標準。她引用了最近與沃頓商學院一位教授的討論,反問道:「在AI時代,寫作的價值到底是什麼?」對此,弗吉尼亞大學認知心理學家Daniel Willingham給出了他的答案:寫作,能培養其他練習方式無法替代的思維模式。當在解釋時,寫作迫使你解釋得更透徹;當在論證時,寫作促使你論證得更全面。在課程中,南卡的八年級英語教師Jody Stallings,安排學生閱讀Harper Lee的《殺死一隻知更鳥》(To Kill a Mockingbird)。每天上課伊始,他都會讓學生根據已讀內容,回答問題。Stallings表示,這個寫作練習不僅能讓學生深入思考書的內容,還能通過寫作來提煉思想。To Kill a Mockingbird首版封面科技界:AI改革教育然而,科技支持者們仍然堅信:AI能從根本上改革並提升教育質量。去年,OpenAI首席執行官奧特曼,描繪了將來教育的美好願景:「未來,我們的孩子將擁有虛擬智能導師,能夠以任何語言、按照每個孩子的個性化節奏,提供所有學科的專門指導。」OpenAI教育副總裁Leah Belsky,建議學校不要抵制,而是要在課堂上主動擁抱AI,從而應對作弊問題。Leah Belsky:擁抱AI,轉變思路她表示:「在教學和作業中,如果教育工作者能合理運用AI,AI就能從學生私下偷用的工具,轉變為學習過程中的重要輔助手段。」目前,已有多個機構和企業,推出了AI智能輔導系統,旨在為學生提供無需教師在場的學習輔導。同時,一些教師也開始使用AI工具來協助編寫教案、設計作業和起草家長通知。紐澤西州高中英語教師Sandy Mangarella表示,AI聊天機器人幫她改進了教學內容,並設計了新的課堂活動。她說:「感覺就像多了一個能隨時討論的同事。」教育部、各州政府、非營利組織以及包括OpenAI在內的科技公司,已經發佈了教師如何負責任地使用AI的指導意見,其中提到了AI生成的資訊並非總是精準的。AI作弊肆無忌憚然而,這些指導檔案大多隻是簡單提及或完全忽略了作弊問題。阿拉巴馬州庫薩縣的高中英語教師Jacob Moon說,他以前很少在課堂上發現作弊現象。但僅在本學年,他就已經發現約二十多名學生在包括論文在內的作業中使用AI。Moon擔憂地表示:「作為教師,最讓我憂心的是,等這些學生進入大學和職場後會怎麼樣?」該校二年級學生Chris Prowell透露,儘管同學們經常使用AI完成作業,但他本人從不這樣做,因為擔心這會影響自己為大學學習做準備。他說,肆無忌憚的AI作弊行為「對那些真正付出努力的人很不公平。」對學生在家獨立完成作業時能否規範使用AI,一些教育工作者持懷疑態度。加州索諾馬縣高中英語教師Joshua Allard-Howells表示,去年AI作弊在他的學生中如野火般蔓延。為此,他採取了新措施:要求學生在課堂上手寫初稿,並嚴禁帶入或使用電子裝置。他說,這一改變帶來了意想不到的效果:學生開始認真對待寫作,作品也更顯真實性和個人特色。這種方法的弊端是:他不得不取消了所有家庭作業。他無奈地表示:「只要佈置作業,學生們就會用AI作弊。」AI代寫鋪天蓋地目前,已有數十家公司在推廣聲稱能用AI完成論文和作業的App,而且「神不知鬼不覺」。比如今年7月,Facebook的一則廣告,畫面中是一個背著書包、戴著耳機和牙套的市場行銷專業學生,配文寫道:使用You的研究助手,我只用了幾分鐘就完成了論文,連參考文獻都搞定了。這款搜尋研究工具已獲得近10億美元的投資估值。在本學年伊始,在Facebook和Instagram上,愛沙尼亞公司Aithor大力推廣寫作助手。廣告配上兩個畢業帽表情,承諾「一鍵生成完美論文」。對此,Aithor首席行銷官Anatoly Terentyev,在郵件回應中表示:「實際上,我們只是提供一個基礎框架,學生仍需要對內容進行潤色和個性化處理。」他說公司正在重新審視廣告用語。另一家AI公司Caktus的廣告語更為直白:「老師們恨死我們了」。該公司CEO Harrison Leonard解釋說,這句話指的是那些抗拒變革的教師。他認為,大學生本就具備寫作能力,Caktus AI只是幫助他們學習使用AI,為未來工作做準備。他強調這並非作弊工具。然而,Caktus AI在社交媒體上的表現卻大相逕庭,在「美國貼吧」Reddit曾發帖稱:過去三年,我在一所名校踢足球,特別討厭做作業、參加訓練這些煩人的事。所以我開發了個軟體,能立刻生成所有論文,瞬間解決所有作業。作為前聖母大學足球運動員的Leonard,對這則帖子避而不答,而他此前的說法是:「我無法控制學生們如何使用這個平台。」亞利桑那州立大學英語教授Patricia Webb,認為雖然明令禁止在她的課程中使用AI。但從寫作風格來看,她估計在寫作作業中仍有20%到40%的學生在暗戳戳地使用AI。但她表示,在沒有確鑿證據的情況下,她很難與這些學生當面對質。正如Webb所說:「沒有證據就不能給出處罰。」這就導致她不得不給那些她內心幾乎確信是AI代寫的作業打出及格分數。為此,她採取了一個變通辦法:佈置需要寫個人經歷或進行採訪的作業,這類內容更難交給AI代寫。OpenAI雪藏檢測工具調查發現,雖然OpenAI已經開發出能夠準確識別ChatGPT生成文字的工具,但該公司選擇不對外發佈。因為內部調查顯示,如果推出這項檢測功能,將近30%的使用者會減少使用ChatGPT。一些教師轉而求助於第三方AI檢測工具。但這些軟體往往不夠可靠:有時會把AI生成的內容誤判為學生原創,有時又會把學生的真實作品誤判為AI生成。目前使用最廣泛的檢測工具是Turnitin。Turnitin稱能激發學生寫出原創作品該公司首席產品官Annie Chechitelli聲稱,他們的工具能以85%的精準率識別AI生成的文字,而且很少會將學生的原創作品誤判為AI生成。不過,該公司拒絕提供產品進行精準性測試。2023年,Max Spero創立了Pangram Labs,這家公司最初的目標是幫助企業甄別AI生成的虛假產品評論。Pangram Labs宣傳精準率在99.98%以上讓他意外的是,許多客戶竟然是教師。在一項測試中,記者讓ChatGPT撰寫了一篇分析《蠅王》主題的九年級水平作文。經Pangram Labs的檢測軟體分析,這篇文章被判定為幾乎確定是AI生成的。接著,研究人員將這篇文章輸入到HumanizeAI.pro——這是一款聲稱能「將AI生成的內容轉化為自然、真實的人類寫作風格」的應用程式。有趣的是,對於經過處理的新版本,Pangram Labs的檢測結果變得猶豫不決:第一次檢測時,系統表示「可能含有AI撰寫的內容」;而在用完全相同的文字進行第二次檢測時,卻得出了「完全是人類寫作」的結論。對此,Spero表示,Pangram Labs正在努力研發新技術來「擊敗這些偽裝工具」。在德克薩斯州休斯頓郊區任教的高中英語教師Carter Wright分享了他的困擾。他說自己耗費了無數時間來追查AI作弊:試用各種檢測軟體的免費版,仔細核查學生Google文件的修改記錄。然而,學生們似乎總能想出新辦法,領先一步。Wright無奈地表示:「除非徹底停用這些技術,否則要完全杜絕作弊,幾乎是不可能的事情。」參考資料:https://www.wsj.com/tech/ai/chatgpt-ai-cheating-students-97075d3c?mod=tech_lead_pos2 (新智元)