#LLMs
有錢也買不到更好的ChatGPT,比爾·蓋茲用的和你一模一樣:大語言模型如何顛覆技術擴散的傳統路徑?
變革性技術通常遵循一種自上而下的擴散路徑:起源於政府或軍事領域,隨後傳遞到企業,最終惠及個人——比如電力、密碼學、電腦、航空、網際網路或GPS。這種發展軌跡很符合直覺,因為新技術在早期通常是稀缺的、資本密集型的,並且需要專業的技術知識才能使用。然而,讓我感到獨特且值得注意的是,大語言模型(LLMs)卻戲劇性地逆轉了這一模式——它們為普通人帶來了不成比例的巨大好處,而在企業和政府中的影響則相對微弱且滯後。ChatGPT是有史以來增長最快的消費級應用,每周活躍使用者高達4億,他們用它來寫作、程式設計、翻譯、輔導、總結、深度研究、頭腦風暴等。這不僅僅是對現有工具的小幅升級,而是對個人能力的一次重大倍增,覆蓋了廣泛的能力範圍。更重要的是,這些模型使用的門檻極低——它們便宜甚至免費,響應迅速,只需通過瀏覽器連結或個人電腦即可隨時訪問,而且還能用你熟悉的語言、語氣、俚語甚至表情符號與你交流。這簡直令人難以置信。據我所知,普通人從未經歷過如此劇烈、如此迅速的技術躍遷。那麼,為什麼企業和政府從中獲得的好處卻相對有限?我認為第一個原因是,大語言模型具備一種特定的能力特徵——在許多領域都擁有類似專家但並不深入且容易犯錯的“准專家”水平。換句話說,它們很全能,但也相對淺顯易錯。相比之下,一個組織真正的超級能力在於,它能通過僱傭工程師、研究人員、分析師、律師、行銷專家等,將深度的專業技能集中到單一實體中。雖然大語言模型可以提高這些專家的個人效率(如初步起草法律條款、生成程式碼範本等),但對於組織整體而言,它們的作用更像是錦上添花,讓原本就能完成的任務變得稍微更好一些。而個人通常最多隻精通一個領域,因此大語言模型提供的廣泛准專業能力,使他們能做此前根本做不到的事。現在人們可以輕鬆編寫應用程式,接近法律檔案,理解深奧的研究論文,進行資料分析,生成多媒體的品牌行銷內容,所有這些都能以足夠的能力完成,而無需額外聘請專家。其次,企業和政府面臨的往往是複雜得多且需要高度協調的問題,例如各種系統整合、遺留系統、品牌規範、嚴格的安全協議、隱私保護、國際化需求、監管合規以及法律風險。這裡面變數更多、限制更多、顧慮更多,犯錯的餘地卻更小。這種複雜性遠不是一個上下文窗口就能簡單解決的。你不能僅憑直覺編寫企業級程式碼,因為可能一次嚴重的“幻覺”錯誤就足以讓你丟掉飯碗。第三,大型組織還存在著眾所周知的慣性問題:文化、歷史積澱、政治鬥爭在快速變化中會加劇,溝通成本增加,重新培訓分佈式員工隊伍的挑戰,以及傳統官僚主義。這些都是迅速採用一種新穎但淺顯易錯工具的重大阻礙。我無意低估大語言模型在企業或政府中的影響,但至少就當前而言,對社會整體來說,這些模型對個人生活的改變遠超過組織。真正享受大部分好處的是普通的瑪麗、吉姆和喬,而不是Google或美國政府。展望未來,大語言模型的進一步擴散當然取決於其性能持續提升及能力特徵的發展。整體“收益分配”將是個特別有趣的話題,並高度依賴於性能與資本投入之間的動態範圍。目前,頂級大語言模型的性能極易獲取且成本低廉,現階段你無法通過花更多錢獲得顯著更好的性能、可靠性或自主性。有錢買不到更好的ChatGPT。比爾·蓋茲使用的GPT-4o與你使用的完全相同。但這種狀況能持續多久呢?增加訓練規模(參數、資料),增加推理時間,以及使用模型組合策略,這些都會增加動態範圍。另一方面,模型蒸餾技術(通過訓練小型模型模仿大型模型的能力)卻在縮小這種差距。一旦金錢可以明顯買到更強的ChatGPT,形勢就會發生巨大變化。屆時,大型組織將能利用龐大的資源購買更多智能;在個人層面上,精英階層或許也會再次與大眾拉開差距。他們的孩子可能接受GPT-8超級高級版的私人輔導,而你的孩子只能用GPT-6迷你版。但至少在當下,我們發現自己處於技術史上一個獨特且前所未有的局面。如果你回顧各種科幻作品,你會發現很少有人預測到人工智慧革命會以這種方式展開。按照想像,它原本應當是一個由政府主導的絕密超級大腦計畫,由軍事將領掌控,而不是像ChatGPT這樣一夜之間免費出現在每個人口袋裡的裝置上。記得威廉·吉布森那句名言嗎?——“未來早已降臨,只是分佈並不均勻”。出人意料的是,現在未來不僅已經到來,而且驚人地公平分佈。權力回歸大眾。說實話,我特別喜歡這樣的未來。 (超算百科)
7000字詳解火爆全網的Claude 模型上下文協議 (MCP)
人工智慧領域正在經歷快速發展,大型語言模型(LLMs)的能力日益增強。然而,將這些強大的模型與現實世界的資料和工具整合仍然面臨著諸多挑戰。傳統上,連接 AI 模型與各種資料來源通常需要為每個資料來源編寫定製化的程式碼,這不僅耗時,而且容易出錯 。這種為連接 M 個不同的 LLM 和 N 個不同的工具而產生的“MxN”問題,導致了整合過程的複雜性,並阻礙了 AI 應用的廣泛採用和不同系統之間的互操作性 。為了應對這些挑戰,Anthropic 近期推出了模型上下文協議(Model Context Protocol,簡稱 MCP),作為一種開放標準,旨在提供一個統一的解決方案,以取代這些臨時性的整合方法 模型上下文協議(MCP)可以被定義為 Anthropic Claude 專門設計的一種開放協議標準,其目標是在 AI 模型和開發環境之間建立標準化的上下文互動 。通過提供對上下文資訊的標準化訪問,MCP 使得 AI 模型能夠更好地理解和處理程式碼 。該協議通過引入客戶端和伺服器的概念來運作:客戶端通常嵌入在基於 LLM 的應用程式中,例如 Claude Desktop 應用,它們負責發起對資源的請求;而 MCP 伺服器則由客戶端啟動,處理這些請求並執行所需的操作,這些操作可能涉及到使用額外的工具、程式語言或處理程序 。MCP 的核心功能在於標準化上下文互動,這預示著在 AI 領域,“上下文”正日益成為實現超越簡單問答等高級功能的關鍵要素。Anthropic 將 MCP 定位為一個開放協議,這表明其戰略意圖是圍繞 Claude 模型建構一個協作生態系統,鼓勵更廣泛的採納和社區貢獻 為了幫助讀者快速理解 MCP 的本質,可以將其比作 AI 領域的 USB-C 介面 。正如 USB-C 提供了一種連接各種裝置和外設的通用方式,MCP 也為連接 AI 系統和各種工具及資料來源提供了一種統一的方法 。它就像一個通用介面卡,使得 AI 模型能夠與各種外部系統進行無縫互動 。這種類比有效地傳達了 MCP 的核心價值主張:標準化和普遍相容性。這表明 AI 領域正朝著對這種通用標準的需求發展,以促進不同 AI 模型和工具之間的互操作性 MCP 的技術詳解