9月17日消息,AI領域的兩大巨頭Anthropic和OpenAI正致力於開發能夠替代人類執行複雜工作的“AI同事”。其核心方法是使用模擬企業軟體來訓練AI模型,使其能像人類員工那樣理解和操作真實的工作流程。
為加速這一處理程序,Anthropic計畫在明年投入10億美元建設大規模的AI訓練“健身房”。OpenAI則認為,整個經濟未來都可能變成巨大的“強化學習機器”,AI將通過與人類協作和反饋不斷進化,從根本上重塑生產力與工作模式。
Anthropic與OpenAI正在做一件前所未有的事:讓大語言模型真正走進“辦公室”,學習當一名合格的“數字員工”。
這些AI模型正在接受高強度職業培訓,學習操作各類專業辦公軟體,從Salesforce的客戶管理系統、Zendesk的客服平台,到醫療領域的Cerner電子病歷系統。最終目標是讓AI能夠獨立處理白領日常面臨的複雜工作任務。
與傳統AI訓練完全不同,Anthropic和OpenAI這次採用的是“模擬辦公”沉浸式教學。研究人員不僅為AI搭建高度模擬的企業應用環境,還重金聘請各行業專家擔任“職業導師”,手把手教授模型軟體操作技巧。
這樣的訓練成本不菲。據知情人士透露,Anthropic計畫在未來一年內投入10億美元,專門建設被稱為“強化學習環境”或“健身房”的模擬辦公平台。OpenAI同樣不惜重金,預計今年在資料相關領域的支出就將達到10億美元,到2030年更將增至80億美元。這些資金既用於搭建虛擬辦公環境,也用於支付專家薪酬。
不出預料,聘請人類專家的成本也在水漲船高。為OpenAI等公司提供專家服務的Labelbox公司透露,目前教授AI操作軟體的生物、軟體程式設計、醫學等不同領域專家中,20%時薪超過90美元,近10%時薪突破120美元。預計未來18個月,頂級專家的時薪將漲至150-250美元。
儘管投入巨大,但回報可能超乎想像。一旦成功,這種新訓練方式不僅能幫助OpenAI和Anthropic突破傳統訓練技術的瓶頸,還可能為他們開闢全新的商業模式。例如,未來企業可以銷售能接管使用者電腦並代為操作應用的“AI智能體”,或者利用AI開發出更強大的企業級應用。
Anthropic首席執行官達里奧·阿莫代伊(Dario Amodei)將這些AI產品稱為“虛擬協作者”。它們被設計成能與人類並肩工作,熟練操作我們日常使用的各種應用程式。
然而,要實現這個目標並不簡單。
專門幫助企業最佳化AI模型的圖靈公司(Turing)給出了具體案例。該公司前沿資料項目負責人安舒爾·巴吉(Anshul Bhagi)解釋道,要教會AI完成一個銷售任務,需要跨越多個系統:不僅要掌握Salesforce的客戶篩選功能,還要會使用LinkedIn尋找潛在客戶、用Calendly安排會議,並通過Gmail傳送跟進郵件。
為確保AI真正掌握這些技能,圖靈公司設計了一套精細的驗證流程:將每個任務拆解為多個關鍵步驟,並設立明確的檢查標準。以銷售任務為例,考核標準包括:AI是否按“最後聯絡時間”篩選了客戶資料庫?是否成功傳送包含Calendly會議連結的郵件?是否將潛在客戶狀態更新為“重新接洽”?
雖然這項技術尚處於早期階段,但各大AI實驗室已經準備好投入重金。一位投資者透露,Anthropic目前僅將不到10%的後訓練(即模型初步訓練完成後進入最佳化階段)預算用於“強化學習環境”,但由於初期效果顯著,該公司預計明年將大幅提高這方面的投入。
圖靈公司CEO喬納森·西達爾特(Jonathan Siddharth)近日透露,他們已建成超過1000個強化學習模擬環境,覆蓋從Airbnb到Excel等各類應用場景。這些被稱作“AI健身房”的虛擬空間,正成為訓練AI模型的重要資產。每個模擬環境都配備100到500個定製任務示例,并包含完整的評估體系,讓企業能夠系統性地訓練AI掌握各類辦公技能。
這個新興領域正吸引大量玩家入場。Scale、Surge、Mercor和Invisible Technologies等競爭對手紛紛推出類似服務,他們不僅提供模擬環境,還配備行業專家設計各種應用場景下的訓練任務。一批專注服務頂級AI實驗室的初創公司也悄然湧現,強化學習環境正在成為一個新興細分賽道。
Surge公司創始人兼CEO埃德溫·陳(Edwin Chen)說:“OpenAI和Anthropic改進模型的方法,其實是在模仿人類的學習過程,而強化學習環境就像是讓AI生活在真實世界裡。”
除了搭建模擬環境,AI開發商們也在持續用精心篩選的問答來訓練模型,這些問答往往難度極高,比如頂級的程式設計競賽題或博士水平的生物學問題。這些問答隨後會被用於強化學習,從而教會模型在特定領域的新技能或新知識。
隨著AI模型變得越來越聰明,資料標註公司也開始“招兵買馬”,從最初聘請碩博在讀生,升級到聘請在特定領域擁有多年經驗的職場精英。例如,圖靈公司就曾聘請過美國宇航局(NASA)的資料科學家、參與能源部項目的化學家、放射科的住院醫師,甚至還有私募股權公司的副總裁,來完成特定的真實世界任務,讓AI在一旁“觀摩”學習。
巴吉舉了一個例子:假設一個AI開發者想教會模型理解稅率變動對財務模型的影響,圖靈公司會先請一位金融專家(合同工)解決這個問題,得出一個明確的答案,比如最終股價,作為檢驗標準。
然後,AI開發者會讓模型也去嘗試完成這個任務幾十次。他們會篩選出那些模型計算結果與人類專家一致的案例,再用這些正確的案例來集中訓練模型。通過這種方式,模型開發者能快速、低成本地生成大量正確的訓練樣本。
像OpenAI這樣的頭部AI開發商,正試圖從各行各業收集類似的案例,從醫療到法律,無所不包。一位OpenAI的高管在今年早些時候曾私下表示,他們期望“整個經濟體”最終能變成一台巨大的“強化學習機器”。這意味著,AI未來可能會通過記錄各領域專業人士在裝置上的日常工作來進行學習和訓練。 (騰訊科技)