#華盛頓郵報
華盛頓郵報:ChatGPT被高估了,以下是一些替代選擇
ChatGPT is overrated. Here’s what to use instead.當我需要人工智慧的幫助時,ChatGPT 不再是我的首選。(插圖:Elena Lacey/《華盛頓郵報》;Adobe Stock)你那位喜歡嘗鮮的朋友對 ChatGPT 的膳食計畫讚不絕口。你的老闆認為 Microsoft Copilot 能“提升 10 倍生產力”。你的社交媒體動態則認為 Meta AI 簡直就是個垃圾機器。他們大多隻是憑感覺行事。我可以告訴你那些人工智慧工具值得使用,那些應該避免使用,因為我一直在營運一個聊天機器人實戰俱樂部。我根據人們使用人工智慧進行的實際活動,進行了數十項機器人挑戰,包括撰寫分手簡訊和工作郵件、解讀法律合同和科學研究、回答棘手的研究問題以及編輯照片和創作“藝術作品”。包括暢銷書作家、參考圖書館員、一位著名科學家,甚至一位普利策獎得主攝影師在內的人類專家對結果進行了評判。經過一年的機器人大戰,有一點顯而易見:沒有絕對最好的AI。如今使用聊天機器人的最明智方式是針對不同的任務選擇不同的工具,而不是指望一個機器人就能包攬一切。舉個例子:聊天機器人界的“舒潔”——ChatGPT,在我所有的直接對決中都敗下陣來。即使是那些最終獲勝的機器人,也很少能達到人類及格的水平。評委們表示,Anthropic公司的Claude機器人寫出的分手簡訊比我寫的還要好。大多數機器人被“iPhone有多少個按鈕?”這個問題難住了。ChatGPT在一個真實的醫學問題上擊敗了一位頂尖醫生——但它給出的建議也可能對你造成嚴重傷害。讓人類專家來評判這些測試,改變了我對聊天機器人的看法,以及我在生活中使用它們的方式。即使你擔心人工智慧會搶走工作、破壞環境或侵犯隱私,但拋開炒作,瞭解當今人工智慧工具的實際表現仍然很有價值。提升人工智慧素養可以幫助你認識到,機器人並非真正“智能”,但同時又能最大限度地發揮它們的實際功能。那款聊天機器人最適合你?三年前,ChatGPT 開啟了生成式人工智慧的競賽,如今它的開發商 OpenAI 表示,它每周的使用者量高達 8 億。過去,每當我想尋找同義詞或冷知識時,它都是我的首選。但當我開始系統地進行測試後,發現 ChatGPT 在最受歡迎的聊天機器人中排名從未超過第二。(《華盛頓郵報》與 OpenAI 有內容合作關係。)OpenAI 近期發佈了內部“紅色警報”,指示員工將工作重心從網頁瀏覽器等項目轉移到改進 ChatGPT 的響應能力上。“我們很高興能在 2026 年繼續提升 ChatGPT 的性能,”發言人 Taya Christianson 表示。根據我的機器人格鬥俱樂部經驗,我現在會針對不同類型的任務選擇不同的機器人。以下是實際操作中的具體情況:我用Claude來寫作和編輯。它的措辭更優美,偶爾還能開個玩笑,而且不太可能像 Claude 那樣,在郵件開頭就用“希望你一切都好”這種令人心碎的客套話。在我的一項測試中——用 Claude 寫一封道歉信——評委Pamela Skillings說 Claude “能夠傳達真實的人類情感和周到的考慮”。為了進行研究和快速尋找答案,我使用Google的AI模式,而不是普通Google搜尋結果中彈出的AI概覽,後者可靠性遠不及前者。AI模式是一款聊天機器人式的搜尋工具,它可以在給出答案之前進行數十次搜尋。這也有助於它提供更及時的資訊:在我的研究測試中,它正確識別出了目前推薦的乳腺炎(一種乳房感染)治療方法,而其他機器人提供的卻是過時的方案。在處理文件方面,我使用Claude。在我的文件分析測試中,它是唯一一個從不捏造事實的機器人。資深公司律師斯特林·米勒法官表示,當我讓機器人就一份租賃協議提出修改建議時,Claude 的回答最接近“律師的良好替代品”。對於圖像處理,我使用Google的Gemini,它在我設計的所有測試中都遙遙領先於其他競爭對手。當我讓機器人從照片中移除兩個主體中的一個時,結果非常逼真——甚至連裙子上亮片反射的光線等細節都完美呈現——以至於評委、攝影記者大衛·卡森驚嘆不已。他根本看不出Gemini的輸出是由人工智慧生成的。我已經介紹了一些主要的AI應用案例,但並非全部。(如果您有關於更公平的機器人測試的建議,請給我發郵件。)我的測試比科技公司喜歡吹捧的行業基準測試需要更多的人為判斷。他們通常使用自動化測試,讓機器人回答一系列問題,就像醫學或法律考試一樣。但機器人可以被訓練成在這些測試中取得高分,掩蓋了它們在實際問題中表現不佳的事實。你可能不會同意我提出的每一個問題或個別評委的觀點,但人類的評估方式更接近我們現在實際使用人工智慧的方式。這就引出了另一個問題:什麼時候應該使用聊天機器人?當機器人讓我們失望時在我的AI格鬥俱樂部裡,機器人有時表現令人印象深刻。但只有一次,裁判給機器人的總分超過了70%——這是通常的及格分數線。那一項得分——84%——是 Gemini 在圖片製作和編輯方面的得分。大多數獲勝者的得分都在 50% 到 65% 之間。“問題是,沒有那個工具能全都拿到 10 分,”擔任我們摘要測試評委的律師米勒說道。這並不意味著如今的人工智慧工具毫無用處。但這確實意味著,你需要對它們的侷限性抱持懷疑態度。將人工智慧應用於某項任務並不總是能提升其效果。當我們測試人工智慧回答冷知識問題的能力時,我們的圖書管理員評委表示,他們完全可以通過傳統的Google搜尋找到大部分答案。人工智慧確實加快了給出答案的速度,但問題在於,其中一些答案是錯誤的。最有效的AI素養訓練方式莫過於觀察機器人的失敗。在我的知識問答測試中,它們連iPhone上有多少個按鈕都答不上來。ChatGPT說是四個,Claude和Meta AI說是三個,而Copilot說是六個。正確答案是五個,指的是最新的高端iPhone機型。為什麼會有這樣的困惑呢?因為機器人過度依賴文字,而且目前還不擅長識別圖片。如今的聊天機器人極力想要立即給你一個看似答案的答覆。它們非常不擅長表達不確定性。例如:在我舉辦的知識競賽中,我問機器人:“《神奇四俠》在爛番茄上的評分是多少?”當時,它是票房冠軍。但即使是最終的獲勝者——AI模式,也答錯了,給出了2015年一部臭名昭著的《神奇四俠》電影的評分。它甚至都沒問我指的是那一部。在我的寫作測試中,當機器人無法將措辭與上下文相符時,它們常常顯得不夠真誠。ChatGPT 就曾有過一次令人尷尬的經歷,它在分手簡訊中使用了帶有被動攻擊意味的短語“that said”:“我覺得你是個很棒的人。話雖如此,我意識到我們之間沒有未來。”如果我可以改變當今人工智慧工具的一件事,我會讓它們更擅長提出後續問題,這些問題可能會徹底改變答案。當我請加州大學舊金山分校醫學系主任鮑勃·瓦赫特(Bob Wachter)評價ChatGPT對真實醫療問題的回答時,他的一番話讓我印象深刻。他指出,擁有無限知識的機器人與一位優秀的醫生之間的區別在於,醫生懂得如何用更多的問題來回答問題。這才是真正解決問題的方法。瓦赫特建議了一種我現在經常使用的AI策略:在向聊天機器人提出問題之前,儘可能詳細地提供所有資訊,因為AI可能不會主動詢問某些資訊就嘗試回答。例如,與其說“總結這份租賃合同”,不如說“為華盛頓特區的租戶總結這份租賃合同,並標記有關費用、續租和提前終止的條款”。我還向我的聊天機器人加入了一條“自訂指令”,告訴它們“如果提示含糊不清,則在回答之前先請求澄清”。我希望這些技巧能幫助你從人工智慧中獲得更有用的答案。這些工具會不斷發展——它們的問題也會隨之而來。基於你的資料來個性化機器人回覆的做法,增加了隱私侵犯和操縱的風險。我總是會更改機器人的默認設定來保護我的資料。2026年及以後,我們必然會面臨更多的人工智慧產品。我們該如何應對?對我來說,答案和今年以來一樣:讓機器人格鬥俱樂部持續運轉——並且讓人類坐在裁判的位置上。 (invest wallstreet)
柔韌的力量:凱瑟琳·格雷厄姆的十大堅守
1963年,當凱瑟琳·格雷厄姆接手《華盛頓郵報》時,她還只是一個羞怯的社交名媛,毫無管理經驗。然而到她退休時,她已成功扳倒了一位總統,終結了那一代人記憶中最暴力的罷工,並打造了美國歷史上最成功的企業之一。當時的格雷厄姆既未受過專業訓練,也毫無經驗,甚至連自信都談不上。她手中只有一份正在不斷虧損的報紙,以及一個期望她乖乖就範的政府。當她的編輯們將竊取的機密檔案帶到她面前時,律師們懇求她不要刊登,聲稱這會毀掉整個公司。儘管如此,她還是毅然發表了。尼克松總統隨之動用了行政部門的全部力量對她進行打擊。接著便是"水門事件"。在近一年的時間裡,她因追查這條最終導致總統下台的新聞而飽受嘲諷與孤立。格雷厄姆的經歷證明:一個看似不可能勝任的職位,你完全可以通過成長去駕馭。再多的訓練,也無法替代正確的價值觀以及依此行事的勇氣。凱瑟琳·格雷厄姆的十條經驗1.  柔中帶剛的鐵錘   凱瑟琳從不提高嗓門,從不拍桌子,也從不試圖比男人更“男人”。她始終柔聲細語,內心卻淬煉得堅如鋼鐵。尼克松政府領悟得太晚:沉默的人出手最重。真正的能力往往輕聲細語,而非高聲喧嘩。2.  價值觀優於分析   關於是否刊登“五角大樓檔案”的決定,是在凱瑟琳的喬治城晚宴上做出的。當時《華盛頓郵報》剛剛上市兩天,一切皆懸於一線。刊登機密檔案意味著可能面臨刑事指控、丟失電視牌照、並毀掉公司的首次公開募股。她的律師說這是財務自殺,而她的編輯說不刊登則是新聞自殺。她記起了父親的準則:報紙的存在是為了揭露真相。“我們刊登。”她說完,便掛了電話。3. 別在乎他人看法   “水門事件”調查進入第九個月,《華盛頓郵報》仍是唯一深挖此事的主流報紙。所有人都認為他們錯了。《芝加哥論壇報》等主要媒體公開嘲諷他們。政府針對《郵報》進行打壓,導致其股價暴跌45%。美國總統親自拿他們的電視牌照開刀。報社的律師懇求他們停下。但凱瑟琳堅持了下去。餘下的,都已載入史冊。4. 韌性,而非脆弱   印刷工人毀壞裝置,將一名工頭毆打至昏迷,然後罷工離去。他們指望凱瑟琳會屈服。畢竟,想印報紙,她還能有什麼選擇?但凱瑟琳已準備了數月,她培訓了替代人員,安排了備用印刷機。當罷工糾察隊封鎖卡車時,她僱用了直升機。當他們在外面遊行時,她親自在郵件處理區工作。這場對峙持續了139天,最終她贏得了勝利。5. 尋找一位導師   華倫·巴菲特未經詢問就買下了她公司5%的股份,董事會一片恐慌。凱瑟琳沒有理會他們。她親自會見巴菲特,見識到他的才華,並拜他為師。巴菲特會帶著20份年報參加董事會,逐行教她看報表。她足夠謙遜,知道自己並非無所不知;也足夠智慧,明白該向誰請教。6. 自由與透明並存   她給了主編本·布萊德利完全的新聞自由。唯一的規則是:不得有“意外”。他可以與總統對抗,可以花費數百萬,可以追查任何符合公共利益的報導。她從不質疑他的判斷,他也從不讓她措手不及。結果呢?五角大樓檔案、水門事件、18項普利策獎。最大的自由,需要極致的透明來支撐。7. 邁出邊緣一步   “我本質上所做的,就是一步一步往前走,閉上眼,從懸崖邊邁出去。”這是凱瑟琳描述自己接手《郵報》時的心境。沒有什麼宏圖大略,只是走好下一步。八年後,她已能坦然直面總統。你永遠不會對真正重要的事感到完全準備就緒。儘管如此,邁出那一步就好。8. 著眼十年,而非一季   華爾街想要季度盈利和激動人心的收購。凱瑟琳卻想打造一家能持久經營的公司。她違背了他們的意願,在股價低廉時回購股票(這在當時非常罕見),並收購了一家“無聊”的教育公司——卡普蘭,後者最終的營收超過了報紙本身。她經營著一家上市公司,卻用私有企業的心態來管理。9. 堅守核心使命   凱瑟琳始終面臨著非此即彼的抉擇:要利潤還是要原則,求安全穩妥還是追新聞真相,對股東負責還是對新聞事業盡責。五角大樓檔案事件可能扼殺IPO;水門事件讓她付出了數百萬法律費用,並威脅到電視牌照;印刷工人罷工危及報社營運。每一次危機都給了她妥協的藉口,但她從未接受。《郵報》監督權力的核心使命始終是第一位。她證明了他人所否認的一點:當你堅守核心,其他一切自會隨之而來。原則不是成本,而是你的指南針。10. 信守諾言   當尼克鬆動用行政分支的全部力量打壓《郵報》(挑戰電視牌照、打壓股價、威脅監禁)時,凱瑟琳從未動搖。她曾告訴她的記者們繼續深挖,她說到做到。當檢察官索要記者的筆記時,她親自把筆記帶回家保管。如果有人要坐牢,那個人會是她,而不是她的記者。整整九個月,在其他報紙保持沉默、朋友懇求她收手時,她依然信守諾言。即便是美國總統,也無法讓她背棄承諾。大多數領袖在壓力下會屈服,但她明白一個他們不懂的道理:你的諾言就是你的一切。一旦背棄,它將永遠失去價值。 (Whale Thinkinig)