#LLMs | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#LLMs

【以美襲擊伊朗】哈米尼之死，“誰”幫了美軍？

美國和以色列公然擊殺哈米尼，所謂“情報神話”的背後，還有什麼？據媒體報導，AI和演算法發揮了關鍵性輔助作用。“哈米尼面對的並非單一的武器，而是一個由Palantir、Anduril以及頂級大型語言模型（Claude）組成的全球監視和打擊網路。”《耶路撒冷郵報》稱，將大型語言模型（LLMs）融入軍事“殺傷鏈”標誌著現代戰爭的重大轉變。“最初用於編寫程式碼和詩歌的工具，如今已成為致命武力投射的關鍵組成部分。”01最先注意到這一點的是《華爾街日報》。報導引述知情人士的話證實，包括美國中央司令部（負責中東地區）在內的世界各地的指揮機構都在使用美國Anthropic 公司的Claude人工智慧工具。《華爾街日報》稱，Claude主要被用於情報評估、目標識別以及模擬作戰場景。之後，更多細節被深挖出來。在美軍的作戰行動中，用到了兩個重要的AI工具：Palantir和Claude。Palantir是一家美國軟體與服務公司，總部位於科羅拉多州丹佛市，以其在巨量資料分析領域的技術聞名。這個公司名，來自英國作家托爾金奇幻小說《魔戒》裡的可以觀察世界上其他地方發生事件的魔法球。這個名字也說明了這家公司產品的主要功能——觀察、監測與記錄。Palantir與美國軍事和情報界有緊密聯絡，其軟體服務是美國國防部為關鍵任務國家安全系統授權的五種產品之一。該公司也因參與美國政府監控監聽全球的行動而廣受批評。據報導，Palantir深度參與美國軍事幹涉行為，它曾通過巨量資料技術幫助美國軍方成功定位和擊殺本·拉登。在俄烏戰場上幫助烏軍炮兵更準確地打擊俄軍陣地和後勤補給線。它還在南海乾擾我相關部門正常維權行動。在對伊朗的突襲中，有報導稱，Palantir技術平台很可能某種程度上扮演了“戰場大腦”的角色。當然，它是否真如一些報導所說發揮了最關鍵的作用，促成了美軍“一擊必中“的神話，目前還無法印證。不過，這一平台確實能把複雜的戰場資料對應為易於理解的實體，將原本需要幾個月才能編制完成的系統部署，縮短到了幾小時。在行動決策方面，發揮了前所未有的輔助性作用。“在哈米尼被殺的時候，正是Palantir在後台調整衛星調度邏輯，確保目標在離開地堡的一瞬間，有超過三顆衛星同時進行了交叉驗證。”Claude是由美國Anthropic公司開發的生成式預訓練模型，具備自然語言處理、程式碼生成及多工協作能力。據稱，Claude在行動中扮演的角色並非直接操控武器，而是處理海量的非結構化戰爭資料。根據解密資料，美軍在2026年初針對馬杜洛的行動中，首次大規模使用了Claude進行“情報合成”。有報導這樣形容：分析人員不再需要撰寫漫長的簡報，他們只需像訂餐一樣詢問：“如果我們在此時對德黑蘭實施電子壓制，並同步進行空中打擊，哈米尼最可能的逃生路線是那一條？”Claude會基於海量的軍事理論訓練和即時注入的情報流，給出最佳化的攔截機率圖表。簡而言之，Palantir解決“把世界拼成一張圖+把行動跑起來”；Claude解決“把材料讀懂說清楚”。從軍事學角度而言，的確可以大大增加戰鬥力。這類平台把影像、訊號、報告、地理等多源情報融合為“共同作戰圖像”，並將分析—派工—覆核—執行串成流程，從而壓縮決策時間。02除了美國，以色列國防軍開發的AI系統也值得一說。如果說Palantir和Claude提供了戰略層面的算力，那麼以色列國防軍（IDF）開發的三個AI系統，則在戰術層面發揮重要作用。這三套系統被統稱為“大規模暗殺工廠”。它們曾在以色列針對加薩的行動中被大量使用。有報導稱，在針對德黑蘭的襲擊中，“美軍借鑑了IDF在加薩實戰中磨煉出的演算法”。第一套系統是“哈布索拉”（The Gospel）。這是一個專門推薦建築目標的AI系統。它能以每天100個的速度生成打擊名單，“而人類在過去每年只能生成50個”。第二套系統是“薰衣草”（Lavender）：對數百萬人口進行打分，通過分析社交網路、移動軌跡和通話記錄，自動標記疑似武裝分子。最具爭議的部分在於人類在其中的角色。據《衛報》披露，在這些AI系統推薦目標後，人類指揮官往往只花費“20秒”來審查。然而20秒的時間“僅夠確認目標性別”。也就是說，誤殺的機率極高。而在巔峰時期，該系統標記了37000個目標。第三套是一個名為“爸爸在那兒？”（Where's Daddy?）的系統，“它更加殘酷”。這個系統會自動監控被標記人員何時進入家宅。因為指揮官認為，在目標人員與家人團聚時發起攻擊，比在軍事據點發起攻擊更為容易。這同時也意味著整棟建築的平民都可能成為“附帶傷亡”。報導稱，在哈米尼遇刺的過程中，演算法不再尋找哈米尼的座駕，而是在蒐集他的每一個細微特徵。03這些資訊曝光的主要導火線，是Anthropic公司的“翻臉”。據美國媒體報導，在強抓馬杜洛行動之後，Anthropic提出抗議，表示其使用條款禁止將 Claude 用於暴力目的、開發武器或進行監視。但五角大樓那會聽它的。要麼移除“安全護欄”，讓軍方在“合法”的情況下無限制使用，要麼就滾蛋。2月27日，就在美以對伊朗發起突襲前不久，美國防長赫格塞思宣佈Anthropic構成 “供應鏈風險”，白宮要求所有聯邦機構停止使用該公司的AI工具。川普還在社交媒體上痛罵該公司：“美利堅合眾國絕不會允許一家激進左傾、覺醒主義的公司來決定我們偉大的軍隊如何作戰並贏得戰爭！”“這些公司是由根本不懂現實世界的人在掌控。”《華爾街日報》的爆料，正是基於這一背景，認為儘管白宮宣佈與Anthropic斷絕關係，但美軍在實戰中還是用了Claude。但現實是，Anthropic不干，有的是人幹。五角大樓第二天就找到了新的合作夥伴。2月28日，另一家美國頂級人工智慧公司OpenAI就宣佈與五角大樓簽約，將該公司的大模型部署於美軍的機密網路。OpenAI首席執行長奧爾特曼說，與五角大樓的合作遵循該企業堅持的原則，即人工智慧不得用於“國內大規模監控”、包括自主武器系統在內的武力使用必須由人類負責。他說，公司設立了“安全保障”。但很多媒體注意到，OpenAI近年來不斷放寬與美軍的合作。這家公司過去曾禁止將其技術應用於軍事領域，但2024年開始放寬相關限制，公司目前的宗旨說明中也去掉了“安全”兩字，只說要通過人工智慧技術“造福全人類”。04當然，還有一種可能性不能排除。借助中東戰場局勢，美國軍工複合體是否正在建構一個“美國AI全球無敵”的神話。畢竟，美國AI公司不少陷於泡沫中，如果藉機能吸引投資，豈不很好。撇開這些紛紛擾擾，有四點我們得擦亮眼睛。第一，戰爭的形態的確在變。未來戰爭，肯定是智能化戰爭。誰擁有更全面的資訊，誰決策速度更快，誰的演算法更強，再配合先進的現代化武器，誰的贏面就更大。在很難完全依靠道德和倫理對各國行為進行約束的背景下，一方面要推動國際社會共同制定人工智慧倫理規範，另一方面我們必須堅持獨立自主的AI研發。要看到，AI真正比拚的是國家戰略力量的對比，是電力、是算力、是科技儲備、是國家政策、是產業發展等更加強大的工業底座和頂層規則。第二，華盛頓未來會進一步逼科技公司“站隊”。不服從，就被踢出局。儘管OpenAI宣稱有“安全護欄”，但許多輿論認為這只是“面子工程”。OpenAI、Google、xAI都簽了類似合同，條款寬鬆到“所有合法用途”。不少分析認為，美國AI公司為軍方服務，已成趨勢。第三，傳統情報管道和反諜報網路的建設仍至關重要。從美以一些消息人士最新披露的情況看，美以情報機構近期一直在通過通訊訊號及內部資訊，秘密監控哈米尼的行蹤，掌握其日常行蹤、通訊方式、會面對象。通訊訊號攔截和內部線人提供關鍵情報的可能性非常大。所以，時刻不能低估反諜報的重要性。第四，今後一段時間，美國針對別國AI、半導體等領域的打壓會更加密集。賊的眼裡看誰都是賊。看了美國的操作，就不難理解為什麼華盛頓政客每每打壓別國公司，拿出的總是同一套劇本：“與該國軍方有關聯”。因為美國自己就是這麼幹的。對中國來說，我們既要堅定維護自身合法權益，戳破其“賊喊捉賊”的謊言，也要沉下心築牢科技底座，穩步推進技術創新。 (補壹刀)

有錢也買不到更好的ChatGPT，比爾·蓋茲用的和你一模一樣：大語言模型如何顛覆技術擴散的傳統路徑？

變革性技術通常遵循一種自上而下的擴散路徑：起源於政府或軍事領域，隨後傳遞到企業，最終惠及個人——比如電力、密碼學、電腦、航空、網際網路或GPS。這種發展軌跡很符合直覺，因為新技術在早期通常是稀缺的、資本密集型的，並且需要專業的技術知識才能使用。然而，讓我感到獨特且值得注意的是，大語言模型（LLMs）卻戲劇性地逆轉了這一模式——它們為普通人帶來了不成比例的巨大好處，而在企業和政府中的影響則相對微弱且滯後。ChatGPT是有史以來增長最快的消費級應用，每周活躍使用者高達4億，他們用它來寫作、程式設計、翻譯、輔導、總結、深度研究、頭腦風暴等。這不僅僅是對現有工具的小幅升級，而是對個人能力的一次重大倍增，覆蓋了廣泛的能力範圍。更重要的是，這些模型使用的門檻極低——它們便宜甚至免費，響應迅速，只需通過瀏覽器連結或個人電腦即可隨時訪問，而且還能用你熟悉的語言、語氣、俚語甚至表情符號與你交流。這簡直令人難以置信。據我所知，普通人從未經歷過如此劇烈、如此迅速的技術躍遷。那麼，為什麼企業和政府從中獲得的好處卻相對有限？我認為第一個原因是，大語言模型具備一種特定的能力特徵——在許多領域都擁有類似專家但並不深入且容易犯錯的“准專家”水平。換句話說，它們很全能，但也相對淺顯易錯。相比之下，一個組織真正的超級能力在於，它能通過僱傭工程師、研究人員、分析師、律師、行銷專家等，將深度的專業技能集中到單一實體中。雖然大語言模型可以提高這些專家的個人效率（如初步起草法律條款、生成程式碼範本等），但對於組織整體而言，它們的作用更像是錦上添花，讓原本就能完成的任務變得稍微更好一些。而個人通常最多隻精通一個領域，因此大語言模型提供的廣泛准專業能力，使他們能做此前根本做不到的事。現在人們可以輕鬆編寫應用程式，接近法律檔案，理解深奧的研究論文，進行資料分析，生成多媒體的品牌行銷內容，所有這些都能以足夠的能力完成，而無需額外聘請專家。其次，企業和政府面臨的往往是複雜得多且需要高度協調的問題，例如各種系統整合、遺留系統、品牌規範、嚴格的安全協議、隱私保護、國際化需求、監管合規以及法律風險。這裡面變數更多、限制更多、顧慮更多，犯錯的餘地卻更小。這種複雜性遠不是一個上下文窗口就能簡單解決的。你不能僅憑直覺編寫企業級程式碼，因為可能一次嚴重的“幻覺”錯誤就足以讓你丟掉飯碗。第三，大型組織還存在著眾所周知的慣性問題：文化、歷史積澱、政治鬥爭在快速變化中會加劇，溝通成本增加，重新培訓分佈式員工隊伍的挑戰，以及傳統官僚主義。這些都是迅速採用一種新穎但淺顯易錯工具的重大阻礙。我無意低估大語言模型在企業或政府中的影響，但至少就當前而言，對社會整體來說，這些模型對個人生活的改變遠超過組織。真正享受大部分好處的是普通的瑪麗、吉姆和喬，而不是Google或美國政府。展望未來，大語言模型的進一步擴散當然取決於其性能持續提升及能力特徵的發展。整體“收益分配”將是個特別有趣的話題，並高度依賴於性能與資本投入之間的動態範圍。目前，頂級大語言模型的性能極易獲取且成本低廉，現階段你無法通過花更多錢獲得顯著更好的性能、可靠性或自主性。有錢買不到更好的ChatGPT。比爾·蓋茲使用的GPT-4o與你使用的完全相同。但這種狀況能持續多久呢？增加訓練規模（參數、資料），增加推理時間，以及使用模型組合策略，這些都會增加動態範圍。另一方面，模型蒸餾技術（通過訓練小型模型模仿大型模型的能力）卻在縮小這種差距。一旦金錢可以明顯買到更強的ChatGPT，形勢就會發生巨大變化。屆時，大型組織將能利用龐大的資源購買更多智能；在個人層面上，精英階層或許也會再次與大眾拉開差距。他們的孩子可能接受GPT-8超級高級版的私人輔導，而你的孩子只能用GPT-6迷你版。但至少在當下，我們發現自己處於技術史上一個獨特且前所未有的局面。如果你回顧各種科幻作品，你會發現很少有人預測到人工智慧革命會以這種方式展開。按照想像，它原本應當是一個由政府主導的絕密超級大腦計畫，由軍事將領掌控，而不是像ChatGPT這樣一夜之間免費出現在每個人口袋裡的裝置上。記得威廉·吉布森那句名言嗎？——“未來早已降臨，只是分佈並不均勻”。出人意料的是，現在未來不僅已經到來，而且驚人地公平分佈。權力回歸大眾。說實話，我特別喜歡這樣的未來。 (超算百科)

7000字詳解火爆全網的Claude 模型上下文協議 (MCP)

人工智慧領域正在經歷快速發展，大型語言模型（LLMs）的能力日益增強。然而，將這些強大的模型與現實世界的資料和工具整合仍然面臨著諸多挑戰。傳統上，連接 AI 模型與各種資料來源通常需要為每個資料來源編寫定製化的程式碼，這不僅耗時，而且容易出錯。這種為連接 M 個不同的 LLM 和 N 個不同的工具而產生的“MxN”問題，導致了整合過程的複雜性，並阻礙了 AI 應用的廣泛採用和不同系統之間的互操作性。為了應對這些挑戰，Anthropic 近期推出了模型上下文協議（Model Context Protocol，簡稱 MCP），作為一種開放標準，旨在提供一個統一的解決方案，以取代這些臨時性的整合方法模型上下文協議（MCP）可以被定義為 Anthropic Claude 專門設計的一種開放協議標準，其目標是在 AI 模型和開發環境之間建立標準化的上下文互動。通過提供對上下文資訊的標準化訪問，MCP 使得 AI 模型能夠更好地理解和處理程式碼。該協議通過引入客戶端和伺服器的概念來運作：客戶端通常嵌入在基於 LLM 的應用程式中，例如 Claude Desktop 應用，它們負責發起對資源的請求；而 MCP 伺服器則由客戶端啟動，處理這些請求並執行所需的操作，這些操作可能涉及到使用額外的工具、程式語言或處理程序。MCP 的核心功能在於標準化上下文互動，這預示著在 AI 領域，“上下文”正日益成為實現超越簡單問答等高級功能的關鍵要素。Anthropic 將 MCP 定位為一個開放協議，這表明其戰略意圖是圍繞 Claude 模型建構一個協作生態系統，鼓勵更廣泛的採納和社區貢獻為了幫助讀者快速理解 MCP 的本質，可以將其比作 AI 領域的 USB-C 介面。正如 USB-C 提供了一種連接各種裝置和外設的通用方式，MCP 也為連接 AI 系統和各種工具及資料來源提供了一種統一的方法。它就像一個通用介面卡，使得 AI 模型能夠與各種外部系統進行無縫互動。這種類比有效地傳達了 MCP 的核心價值主張：標準化和普遍相容性。這表明 AI 領域正朝著對這種通用標準的需求發展，以促進不同 AI 模型和工具之間的互操作性 MCP 的技術詳解

多步推理碾壓GPT-4o，無需訓練性能提升10%！史丹佛開源通用框架OctoTools

OctoTools通過標準化工具卡和規劃器，幫助LLMs高效完成複雜任務，無需額外訓練。在16個任務中表現優異，比其他方法平均精準率高出9.3%，尤其在多步推理和工具使用方面優勢明顯。大型語言模型（LLMs）目前仍然很難處理需要多步驟推理、特定領域知識或外部工具整合的複雜任務，有研究工作探索了使用預先建構的外部工具來增強LLMs處理複雜任務的能力，但這些方法需要對模型進行微調或額外訓練以實現工具的整合，在不同任務之間難以靈活適應。現有的方法要麼依賴於靜態的、預定義的工具集，要麼缺乏高效的工具選擇和規劃機制，這種低效性會導致任務執行出錯、計算成本增加，以及在應用於新領域時適應性受限。傳統增強LLMs的方法包括少量樣本提示（few-shot prompting）、思維鏈（chain-of-thought reasoning）以及與外部工具介面的功能呼叫API；有的框架如LangChain和AutoGen允許LLMs夠使用外部資源，但通常智能用於指定應用場景或需要大量的預組態，沒有提供一種統一的多步驟規劃和執行方法，因此在處理複雜推理問題時效果不佳。

【DeepSeek】Nature發文：中國如何創造出令全球驚嘆的人工智慧模型DeepSeek

中國科技初創公司DeepSeek（深度求索）以兩款大型語言模型（LLMs）的發佈震驚了科技界，這些模型的性能可與美國科技巨頭開發的佔主導地位的工具相媲美，但卻以遠低於其成本和計算能力開發而成。 1月20日，總部位於杭州的DeepSeek公司發佈了部分開放原始碼的“推理”模型DeepSeek-R1，該模型可以解決一些科學問題，其標準與OpenAI去年晚些時候在舊金山總部推出的最先進LLM o1相似。就在上周，DeepSeek又發佈了另一款名為Janus-Pro-7B的模型，該模型可以通過文字提示生成圖像，與OpenAI的DALL-E 3和Stable Diffusion（由總部位於倫敦的Stability AI開發）類似。如果說DeepSeek-R1的性能讓許多中國以外的人感到驚訝，那麼中國國內的研究人員表示，這家初創公司的成功是意料之中的，並符合政府成為全球人工智慧（AI）領域領導者的雄心。中國科學院北京計算技術研究所的電腦科學家Yunji Chen表示，考慮到中國在LLM開發領域的巨額風投以及擁有科學、技術、工程或數學領域博士學位的人才（包括AI領域），在中國出現一家像DeepSeek這樣的公司是不可避免的。“如果沒有DeepSeek，肯定會有其他中國公司開發出偉大的LLM。”