AI產業一天發生10件大事：GPT-5 Turbo來了？最強大GPT人形機器人爆紅；全球最大AI 晶片來了

2024/03/14

•

這一夜，人工智慧（AI）又雙叒叕發生了大事。

3月14日，適逢GPT-4一週年時刻，美國通用人形機器人公司Figure宣布與OpenAI合作下，旗下人形機器人Figure 01終於能夠與人一起即時對話，震撼世界。

其次，OpenAI同時宣布與Le Monde 和Prisa Media 合作，將法語和西班牙語新聞內容引入ChatGPT並協助訓練OpenAI模型。

再次，OpenAI競爭對手谷歌再扔下“震撼彈”，宣布推出首個通過訓練學習遊戲技能的AI Agent遊戲應用SIMA，10秒完成任務，可實現600個基本技能；另一競品Anthropic發布Claude 3 Haiku中盃模型，官方聲稱這是同類產品中「最快、最實惠的模型」。

最後，AI 晶片領域也是動作不斷，全球最大的生成式AI 晶片來了！

3月13日晚，美國AI 晶片領域明星公司Cerebras 宣布推出5nm製程的WSE-3晶片，尺寸幾乎與12 吋晶圓相當，擁有4T（400兆）電晶體，高於WSE-2的2.6T，用於訓練AI 模型。

以下是昨夜今晨AI 領域發生的10個重要消息：

1.GPT-5 Turbo來了？

備受關注的GPT-5系列模型曝光。

3月14日訊息，在微軟Copilot Pro的付費介紹中，出現了GPT-5的字眼，顯示開通可以優先訪問美國OpenAI公司研發的GPT-5 Turbo大模型。

據悉，2022年11月30日，AI聊天機器人ChatGPT正式發布，引發關注。

去年3月14日，OpenAI發布新一代多模態大模型GPT-4，支援圖像和文字輸入以及正確的文字輸出，擁有強大的識圖能力，文字輸入限制提升至2.5萬字，支援多個語言，回答準確度顯著提高，讓新的ChatGPT更聰明。

2023年11月，OpenAI公佈GPT-4 Turbo模型，支援長文本，效能更強，API價格最低僅需0.03美元/1000個token；同時也推出快速創建定製版本ChatGPT的GPTs、GPT Store應用商店，以及具備智能體的Assistants API。

今年2月，OpenAI突然發布AI 影片生成模型Sora，引發關注。這是繼Runway、Pika、Google和Meta 之後，OpenAI 正式加入這場AI 視訊生成領域「戰爭」當中，同時也是GPT、DALL·E之後，2024年OpenAI 發布的旗下最新、最重要的AI 產品系列。

OpenAI強調，“Sora是能夠理解和模擬現實世界的模型的基礎，我們相信這一功能將成為實現通用人工智慧（AGI）的重要里程碑。”

此前，OpenAI CEO奧爾特曼（Sam Altman）曾透露，2024年將會發布GPT-5，但整個進展受到董事會罷免、馬斯克起訴等因素影響。

今年初，有用戶發現，Bing和DuckDuck Go等搜尋引擎在GPT-4.5 Turbo正式發布之前就已經對GPT-4.5 Turbo的產品頁面建立了索引。當點擊進入GPT-4.5 Turbo 的索引連結會進入到404 頁面，但頁面上可以看到一些預告文字，稱GPT-4.5 Turbo是OpenAI迄今為止最快、最準確、最具可擴展性的模型。

網友猜測GPT-4.5 Turbo正式發布的日期可能是當地時間3月14日——GPT-4 發布週年紀念。奧特曼3月9日在推文中暗示，等待是值得的。

如今來看，OpenAI即將在這幾天內發布GPT-5系列模型。

2.只用13 天，OpenAI 做出能聽、能說、能自主決策的機器人大模型

台北時間3月14日凌晨，美國通用人形機器人公司Figure發布一則最新視頻，展示該公司與OpenAI的首個合作成果，即讓旗下人形機器人Figure 01完成實時對話功能。

Figure創辦人、CEO布雷特·阿德考克（Brett Adcock）透露，Figure 01的整合式攝影機將資料傳送到由OpenAI訓練的大型視覺語言模型，而Figure自己的神經網路也透過機器人上的攝影機以10 Hz頻率拍攝影像。另外，OpenAI 也負責理解口語單字的能力，

他強調，所有這些湧入的訊息都被Figure 01的神經網路轉化為快速、靈巧的機器人動作。

據悉， Brett Adcock去年成立了Figure。在此之前，他是一位連續創業者，先前創立的AI 招募軟體Vettery 以1 億美元被全球最大的招募公司Deco Group 收購，而後創立的低空飛機公司Archer也成功實現IPO。

這次成立Figure，他個人投入至少1 億美元。公司目標是「創造了世界上第一個商業上可行的通用人形機器人」。即價格實惠且實用的人形機器人，讓它們可以輕鬆融入製造、零售和倉庫等商業領域。

有報導稱，Figure的開發團隊堪稱豪華，研究人員來自波士頓動力公司、特斯拉、GoogleDeepMind 和Archer Aviation等一群關鍵人物。

到了2023年10月，Figure 01已經能夠獨立運作並執行基本的自主任務。到年底，這款機器人已具備觀看和學習的能力。

2024年1月中旬，Figure宣布01人形機器人進入BMW的員工當中。

今年2月，Figure宣布成功完成B輪約6.75億美元融資，投資人包括OpenAI、微軟、英偉達、英特爾等機構，投前估值約20 億美元。同時，Figure也與OpenAI達成合作協議，宣稱將為人形機器人開發下一代AI 模型。

如今，僅僅過去13天，這項合作已經取得了顯著進展。

此次，利用ChatGPT-4技術，結合Figure先進的神經網絡，使機器人能夠執行類似人類的快速、靈巧動作。同時，新的Figure 01機器人可實現描述周圍環境、決策常識推理、將模糊請求（如“我餓了”）轉化為某些上下文、執行適當的行為、用簡單的英語描述執行特定動作的原因等主要功能。

另外，從技術角度來看，新的Figure 01人形機器人，可以透過正常速度運行，實現即時回饋。並且透過從機器人的攝影機獲取的圖像和透過機器上的麥克風捕獲的轉錄文本，輸入到一個OpenAI 訓練的大型多模態模型中，完全反饋和理解圖像和文本。

在硬體層面，Figure 01機器人使用搭載攝影機和OpenAI訓練的大型視覺語言模型（VLM），實現200Hz的24自由度動作。而且，Figure在工程方面進行了垂直整合，包括馬達、韌體、熱管理、電子設備等。

整體來看，新的Figure 01人形機器人成果，展示如何透過綜合應用多模態理解能力和機器學習，實現與機器人的自然互動和智慧行為規劃。

3.全球首部全面監管AI 法規獲批

根據歐洲議會官網消息，當地時間3月13日，歐洲議會以523票贊成、46票反對、49票棄權通過了具有里程碑意義的《人工智慧法案》（EU AI Act），使其成為全球首部全面監管AI的法規。

歐洲議會表示，該法案旨在保護基本權利、民主、法治和環境永續性免受高風險人工智慧的影響，同時促進創新，以將歐洲「打造成為該領域的領導者」。該法案將禁止某些「威脅公民權利」的人工智慧應用，包括基於敏感特徵的生物辨識分類系統，以及從網路或閉路電視錄影中無目標地抓取臉部影像以建立臉部辨識資料庫。操縱人類行為或利用人類弱點的AI 也將被禁止。

雖然該法在官方公報上發布20天後正式生效（可能是今年5月），但一些規則（例如影響聊天機器人等通用AI 系統的規則）將在12個月後生效，以便讓更多AI 公司遵守。

事實上，從提出建議到正式達成，歐盟《人工智慧法案》走了很長的一段路。

該法案最早基於歐盟委員會在2021年提出的建議，指出未來的AI 系統應該有一定的限制和風險規則，即AI應用的潛在風險越高，對它的要求就會越高，歐盟期望這些規則能夠在全世界範圍內得到認可和應用。

2023年5月11日，歐盟議會內部市場委員會和公民自由委員會投票通過了《人工智慧法案》的談判授權草案；6月，歐洲議會層級就談判授權草案進行投票表決。最後結果顯示，法案預計在2023年底正式通過並成為全球首部綜合性AI 監管法。

2023年12月，經過馬拉松式的談判後，歐盟終於敲定了AI 監管協議。這是全球首個廣泛涵蓋包括生成式AI 在內的監管法案，也是目前全球對AI監管最嚴格的法案。

2024年2月2日，歐盟27國代表在《人工智慧法案》文本上達成臨時政治共識，標誌著歐盟在立法監管人工智慧領域邁出了堅實的一步。

直到今日的議會會議，歐洲議會終於以壓倒性的523票贊成的結果，正式通過了該法案。

在新的《人工智慧法案》中，立法者同意嚴格禁止使用敏感特徵（例如政治、宗教、哲學信仰、性取向、種族）的生物識別分類系統，而且禁止從互聯網或閉路電視錄像中無目的地抓取臉部影像以建立臉部辨識資料庫，禁止工作場所和教育機構中的情緒識別，禁止基於社會行為或個人特徵的社會評分，AI 利用人們曾經的弱點（由於年齡、殘疾、社會或經濟狀況）等。同時，該法律禁止利用AI 進行「社會評分」以及「操縱人類行為」的AI 系統。新規也禁止利用人工智慧剝削那些因年齡、殘疾或經濟狀況而處於弱勢的人。

歐盟內部市場專員蒂埃里·布雷東（Thierry Breton）表示：“歐洲現在成為了AI 領域的全球標準制定者。”

這次立法的成功堪稱AI商業領域上的里程碑事件。因為單從商業視角來看，這項法案的通過率先為歐盟內部的人工智慧創新提供了明確的法律框架，有了這項法案做背書，企業不僅能夠準確地評估其AI項目，更會在法律的保障下變得更大膽，投入更多的資源進行創新。

4.GoogleDeepMind推出首個AI Agent遊戲應用SIMA

台北時間3月13日，GoogleDeepMind宣布，其推出首款透過訓練學習遊戲技能的AI Agent遊戲應用SIMA。

具體來說，SIMA不需要自訂API 來玩遊戲或存取原始程式碼，擁有在未經過特定環境訓練的情況下（零樣本學習）執行基本任務的能力，支援可擴展、可指導、多世界代理，約10秒內完成簡單的遊戲任務，可實現600個基本技能，涵蓋了在超過10個模擬環境中的具身互動。因此，SIMA更像人類，而不是一個只做自己事情的強大AI。

同時，Google也宣布與Hello Games、Embracer、Tuxedo Labs、Coffee Stain 等八家遊戲開發商合作，在九種不同電玩遊戲上訓練和測試SIMA。目前，SIMA僅處於研究階段。

GoogleDeepMind 研究員兼SIMA 聯合負責人Tim Harley表示，“SIMA 並不是為了贏得比賽而訓練的，而是為了贏得比賽而訓練的。它經過訓練可以運行它並執行它所指示的操作。”

據悉，所謂Agent，就是在大語言模型（LLM）技術下，Agent成為某種能自主理解、規劃決策、執行複雜任務的智能體。用感知（Perception）、規劃（Planning）和行動（Action）實現人的智慧互動。

OpenAI聯合創始人Andrej Karpathy曾表示，“AI Agent代表著一個瘋狂的未來。”

截至目前，國內外包括Google、OpenAI、位元組挑戰、面壁智慧、智譜AI 等企業都在佈局AI Agent技術產品。

在此之前，Google已推出Gemini、Gemma等多個系列大模型。其中，最新的Gemini Ultra已成為全球第一個超越人類專家等級的AI 模式。

GoogleDeepMind推出的SIMA，全名為Scalable, Instructable, Multiworld Agent（可擴展、可指導的多世界代理），旨在開發能夠在多個模擬的3D環境中遵循任意語言指令的智慧代理。

相較於其他Agent代理應用，SIMA專案擁有多環境適應性、語言理解、即時互動、大規模資料驅動學習、零樣本學習能力以及負責任的AI開發等方面的優勢，其在創建通用AI 和推動未來技術發展方面具有巨大潛力。

根據谷歌官方最新的31頁SIMA技術論文，新技術主要有以下九個核心資訊點：

專案目標：創建一個能夠在任何虛擬3D環境中執行人類所能執行的任何任務的智慧代理。這包括使用自然語言指令來控制代理在多樣化的虛擬環境中的行為。

關鍵挑戰：將語言與知覺和具身行為結合，以便完成複雜任務。這需要代理人能夠理解語言並在3D環境中執行相應的動作。

方法論：SIMA專案透過在多種虛擬3D環境中訓練代理來實現這一目標，這些環境包括研究環境和商業視訊遊戲。代理透過圖像觀察和語言指令與環境交互，並使用鍵盤和滑鼠動作作為輸出。

代理設計：SIMA代理使用了一個通用的、類人介面與環境互動。輸入是影像觀察和語言指令，輸出是鍵盤和滑鼠動作。這種方法允許代理在視覺上複雜和語義上豐富的環境中理解語言，並能夠在新環境中輕鬆運行。

數據和訓練：專案收集了大量來自研究環境和商業視頻遊戲的遊戲數據，用於訓練代理。這些數據包括影片、語言指令、對話和記錄的動作等。

評估方法：由於商業視頻遊戲不設計用於報告任意語言任務的完成情況，研究者開發了多種評估方法，包括使用光學字元辨識（OCR）檢測螢幕上描述任務完成的文本，以及使用人類評估代理行為的錄製影片。

初步結果：論文描述了SIMA代理在多個研究環境和商業視頻遊戲中的初步進展和有希望的初步結果。

未來工作：研究者計劃擴展SIMA項目，包括增加更多環境和資料集、提高代理的穩健性和可控性、利用更高品質的預訓練模型，並開發更全面和受控的評估方法。

責任與倫理：論文還討論了負責任的模型開發方法，以識別、衡量和管理可預見的倫理和安全挑戰。SIMA計畫遵循Google的AI原則，並確保其社會利益大於風險。

目前，SIMA透過600 項基本技能進行評估，涵蓋導航（例如「左轉」）、物件互動（「爬梯子」）和選單使用（「開啟地圖」）。DeepMind表示，其已訓練並執行SIMA項目，最終可在約10秒內完成的簡單任務。此外，Google還評估了SIMA完成近1500 個獨特遊戲內任務的能力，最終發現可與人類能力相當。

Harley坦言，在遊戲選擇上，團隊選擇了更注重開放式遊戲而非敘事的遊戲，以幫助SIMA學習一般遊戲技能。但他非常希望未來SIMA能學習自發性遊戲能力。

The Verge表示，SIMA 並不會像英偉達和Convai 一樣成為一個由AI 驅動的NPC，而是遊戲中影響結果的另一個玩家。SIMA 計畫共同負責人Frederic Besse 表示，現在判斷像這樣的AI Agent能為研究領域以外的遊戲帶來哪些用途還為時過早。

DeepMind方面強調，就像AI NPC 一樣，SIMA 最終可能會學會說話，以及可能會完成更複雜的任務，成為完美的AI 遊戲玩家，帶領你走向勝利。

5.Anthropic發表Claude 3 Haiku中盃模型

當地時間3月13日，總部位於舊金山的新創公司Anthropic發表Claude 3 Haiku，這是其Claude 3 AI 模型系列的最新產品。

Haiku 是同類智慧產品中最快、最實惠的型號，稱之為“中盃”，提供先進的視覺功能和行業基準的強大性能，但極具性價比。早前，Anthropic推出Claude 3 模型系列，其中包括Claude 3 Opus和Claude 3 Sonnet，從而為企業客戶提供了一系列選項，以根據其特定用例平衡智慧、速度和成本。

Haiku 的主要優勢之一是速度，每秒鐘能夠處理21,000 個Token（大約30 頁），提示的數量低於32,000 個token。這種快速的處理能力使企業能夠分析大量文檔，例如季度備案、合約或法律案件，而所需時間只是其性能層中其他模型的一小部分。

Claude 3 Haiku 現已透過Anthropic 的API 提供給claude.ai 上的Claude Pro 訂閱者。該模型也將很快登陸Amazon Bedrock 和Google Cloud Vertex AI，進一步擴大其對全球企業的存取範圍。

Anthropic聯合創始人兼首席執行官Dario Amodei表示，Haiku 有兩類客戶：「對延遲敏感和對成本敏感。延遲敏感通常是面向用戶的，例如，當您只想要一個良好的UI 時。公司知道，如果[某些任務]需要三秒鐘而不是一秒鐘來回應，他們就會失去一小部分客戶以及他們正在執行的任何工作流程。”

6.OpenAI將推出法語、西班牙語ChatGPT版本

3月14日，OpenAI宣布，已與兩家主要歐洲出版商、法國報紙Le Monde 和西班牙媒體集團Promotora de Informaciones SA 或Prisa 簽署了許可協議，將把法語和西班牙語新聞內容引入ChatGPT 並幫助訓練OpenAI模型。

OpenAI 首席營運長Brad Lightcap 表示：「我們致力於透過應用新的人工智慧技術並增加內容創作者的機會來支持新聞業。」他還表示，此次合作的目的是「讓世界各地的ChatGPT 用戶能夠以互動且富有洞察力的新方式與新聞聯繫。”

據該公司部落格文章稱，未來幾個月，ChatGPT 用戶將在ChatGPT 的精選回覆中看到Le Monde 和Prisa 的新聞內容摘要。ChatGPT 的回應還將提供原始文章的歸屬和“增強連結”，使用戶能夠從其新聞網站存取其他資訊或相關文章。

並非每個管道都與OpenAI 合作。去年12 月，《紐約時報》（NYTimes）起訴這家新創公司，指控其未經許可使用其受版權保護的文章來建構其技術。OpenAI 對這些說法提出異議，並表示《紐約時報》沒有「講述完整的故事」。

儘管OpenAI 與NYTimes存在分歧，但它已經在該行業取得了重大進展。根據彭博社先前報道，該新創公司去年12 月與Axel Springer 達成了一項價值數千萬歐元的多年內容授權協議。根據彭博社一月報道，該公司一直在與CNN、福斯公司和《時代》雜誌等出版商就新聞內容授權事宜進行談判。

7.全球最大的生成式AI 晶片來了

3月13日晚，Nvidia 最大競爭對手之一Cerebras Systems 推出了「Wafer Scale Engine 3」（WSE-3），這是其第三代AI 晶片和世界上最大的半導體產品。

Cerebras 聯合創始人兼首席執行官安德魯·費爾德曼(Andrew Feldman) 在一份聲明中表示：「性能是兩倍，功耗相同，價格相同，因此這將是真正的'摩爾定律'步驟，我們行業已經很長時間沒有看到這種情況了。我們認為，我們現在已經在計算和內存之間取得了適當的平衡。”

具體來說，全新WSE-3採用5nm技術，電晶體數量從2.6 兆個電晶體增加到了2到4兆，尺寸幾乎相當於整個12 吋晶圓，並且將指令執行速度提高了一倍，從62.5 petaFLOPs 增加到125 petaFLOPs。（1 petaFLOP 是指每秒執行1 兆次浮點運算）

公司稱，WSE-3電晶體從7 奈米（十億分之七公尺）縮小到5 奈米，由全球最大的晶片製造商台積電製造而成。

另外，在WSE-3上，Cerebras 保持了邏輯電晶體與儲存電路的相同比例，僅將片上SRAM 的儲存容量從40GB 略微增加到44GB，並將計算核心的數量從850,000 個略微增加到900,000 個。

據悉，Cerebras成立於2016年，2021 年4 月發布了WSE-2——全球最大的擁有神經網路技術的AI 訓練晶片。2021年11月，公司完成2.5億美金的F輪融資，估值高達40億美金，是全球AI 晶片領域獨角獸企業。

8.輝達支持的Together AI再獲融資，投後估值為12.5億美元

當地時間3月13日，英偉達支持的人工智慧公司Together AI宣布完成新一輪融資，總額達1.06億美元，投後估值為12.5億美元，本輪融資由Salesforce Ventures領投，Coatue Management 、 Lux Capital 和Emergence Capital 等跟投。自去年人工智慧賽道火熱，投資人紛紛押注人工智慧新創企業，Together AI的公司估值也翻了一番。

Together AI的執行長Vipul Ved Prakash表示，本輪融資將用於租賃更多運算能力，並聘請研究人員來建立新的模型架構。目前公司已擁有來自AI 新創公司和跨國企業的4.5萬名註冊用戶。

據悉，Together AI成立於2022年6月，因其可以提供對英偉達廣受歡迎的圖形處理單元（GPU）的訪問而深受市場歡迎。目前，Together AI正試圖擴展到一個平台，幫助開發者建立或自訂他們的開源AI 模型。

融資方面，2023年5月，Together AI獲得2,000萬美元種子輪融資，2023年11月再度獲得由凱鵬華盈(Kleiner Perkins) 領投，英偉達、Emergence Capital等機構跟投的1.025億美元（約7.3億元）A輪融資。

據悉，Together AI開發的主要產品包括：類ChatGPT開源模型RedPajama-INCITE，開源30兆訓練資料集RedPajama-Data-v2以及開源大語言模型訓練、推理加速器FlashAttention v2。

此外，Together AI也與英偉達、 Crusoe Cloud、Vultr等夥伴合作，在歐美地區營運了一個雲端運算中心，為生成式AI新創公司提供推理、訓練等服務。

9.微軟4月1日上線新型網路安全軟體，每小時4美元

3月14日，微軟公司宣布，將於4月1日推出由Open AI驅動的新型網路安全軟體Security Copilot。該軟體將以微軟現有安全產品（例如防毒軟體Defender和登入軟體Entra ID）的附加元件出售。

據悉，Security Copilot提供了一個AI聊天機器人，安全專業人員可以使用它自動總結從安全軟體收集的數據，辨別某些程式碼是否是惡意的。此外，Security Copilot還能提供有關微軟正在追蹤的駭客組織的資訊。

微軟公司安全業務副總裁Vasu Jakkal在接受採訪時表示，Security Copilot基於OpenAI的GPT-4模型，也接受了微軟內部安全資料的培訓，能夠更有效地準確回答安全問題。根據Vasu Jakkal介紹，該軟體將依照用戶使用時間長度計費，每小時約4美元（約28.75元）。

10.OpenAI將於年內對外開放Sora，新增音訊及影片編輯功能

3月14日消息，OpenAI 技術長Mira Murati表示，OpenAI將於2024年正式上線文生視訊大模型Sora，可能只需數月時間。

早在今年2月16日，OpenAI發布了多個由Sora生成的演示視頻，其逼真度和連貫性令人驚艷。不過OpenAI只向視覺藝術家、設計師和電影製作人開放了Sora的使用。

Mira Murati表示，今年OpenAI 不僅會向公眾開放使用Sora，還計劃將音訊功能整合進去，這可能會使生成影片中的場景更加真實。此外，由於AI工具並不總是能創造準確的圖像，OpenAI 也正在研發允許用戶自行編輯Sora生成的影片內容的技術。(鈦媒體AGI)