亞馬遜是如何讓Alexa錯失稱霸全球AI領頭羊機會的?


“Alexa,我們聊聊吧。”

2023 年9 月,時任亞馬遜裝置和服務主管的 David Limp 用這句話,展示該公司標誌性Alexa 語音助理的全新生成式人工智慧(AI)版本。

在這家總部位於西雅圖的科技巨頭位於華盛頓郊區的第二總部舉行的活動中,現場座無虛席。林普向滿屋子的記者和歡呼的員工展示了全新的Alexa。他示範了當用戶輸入新的觸發語句「Alexa,我們聊聊吧」時,這款數位助理的回應聲音要自然得多,也更具對話性,而數億人已經習慣了用友好但機械的聲音來發送天氣更新、提醒、計時器和音樂請求。林普問Alexa 他最喜歡的足球隊范德比爾特大學的表現如何。 Alexa 展示了它如何用快樂的聲音回應,以及如何給他的朋友發送訊息提醒他們觀看即將到來的范德比爾特足球比賽,並將訊息發送到他的手機上。

該公司表示,新的Alexa LLM 很快就會在美國的Alexa 裝置上免費預覽。亞馬遜高級副總裁兼Alexa 負責人Rohit Prasad 表示,這一消息標誌著“我們喜愛的助手發生了巨大變化”,並稱新Alexa 為“超級代理”。很明顯,該公司想反駁人們對現有Alexa 缺乏智慧的看法。 (據報導,微軟執行長Satya Nadella在2023 年3 月稱其“愚蠢如石”,當時OpenAI 的ChatGPT 一夜成名)。

但發表會結束後,一切都消失了——或者說,數位助理也保持了沉默。在全球已售出的5 億台裝置上,傳統的Alexa 語音從未改變過,而且在接下來的幾個月裡,關於新的生成式人工智慧Alexa 的消息很少,除了最近有報導稱它可能會在今年稍後推出,並可能收取訂閱費用。

根據對十幾位曾為Alexa 開發過AI 的前員工的採訪,原因在於公司存在結構性功能障礙和技術挑戰,導致新款生成式AI Alexa 的發貨一再推遲。總的來說,這些前員工描繪的畫面是,在推出AI 聊天機器人和代理商的競爭中,亞馬遜嚴重落後於大型科技競爭對手谷歌、微軟和Meta,並在努力追趕的過程中舉步維艱。

前員工強調,2023 年9 月的演示只是一次演示。新版Alexa 尚未準備好在黃金時段推出,現在仍然沒有。據前員工稱,Alexa 大型語言模型(LLM) 是新版Alexa 的核心,亞馬遜將其定位為與OpenAI 的ChatGPT 競爭,但遠非最先進的。

參與LLM 開發的研究人員表示,亞馬遜沒有足夠的數據或存取運行LLM 所需的專用電腦晶片,無法與OpenAI 等公司的競爭對手競爭。前員工表示,亞馬遜也一再降低新版Alexa 的優先級,轉而為亞馬遜的雲端運算部門AWS 建構生成式人工智慧。

儘管亞馬遜已經與人工智慧新創公司Anthropic 建立了合作夥伴關係並投資了40 億美元,後者的LLM 模式Claude 被認為與OpenAI 的模式具有競爭力,但它無法利用這種關係來建立更好的Alexa 。

亞馬遜前員工表示,出於隱私的考慮,Alexa 的團隊沒有使用Anthropic 的Claude 模型,但亞馬遜以自我為導向的內部政治也是如此。

亞馬遜的一位發言人表示,前研究科學家為本文提供的細節「過時了」——儘管其中許多人在過去六個月內離開了公司——並且並不反映Alexa LLM 的現狀。她補充說,該公司可以使用數十萬個GPU 和其他AI 專用晶片。她還反駁了Alexa 被降級或Anthropic 的Claude 因隱私問題而被禁止使用的說法,但她拒絕提供Claude 在新Alexa 中如何使用的證據。

雖然亞馬遜在更新Alexa 方面遇到的困難有其獨特之處,但該公司面臨的挑戰表明,公司要改造基於舊技術的數位助理以融入生成性人工智慧是多麼困難。蘋果在將人工智慧融入其產品(包括其數位助理Siri)方面也面臨類似的困難。 Siri 和Alexa 擁有相似的技術血統- 事實上,Siri 於2011 年10 月比Alexa 早三年推出。而且與亞馬遜一樣,蘋果在構建當今生成性人工智慧所依賴的大規模語言模型所需的人工智慧專業知識方面以及在龐大的圖形處理單元(GPU)集群(此類模型所需的專用電腦晶片)方面投資不足。與亞馬遜一樣,蘋果也發起了一場堅定但遲來的追趕努力。


本周早些時候,蘋果在WWDC 大會上發布了一系列備受期待的公告,朝著在生成式人工智慧競賽中邁出了重要一步。首次亮相的新功能包括對Siri 的重大升級,包括更自然的聲音和「螢幕感知」的潛力,這最終將使Siri 能夠在各個應用程式中採取更多類似代理的操作。蘋果也宣布Siri 將與ChatGPT 整合。

但蘋果的這些公告只會給亞馬遜帶來壓力,迫使其推出新的Alexa。

不幸的是,越來越多的證據表明,亞馬遜對這場新的數位助理之戰準備不足——儘管許多人認為該公司完全有能力將Alexa 帶入生成式人工智慧時代。

Alexa AI前高級機器學習科學家米哈伊爾·埃里克(Mihail Eric)在X(前Twitter)上發表了這樣的看法:在一篇題為“Alexa 如何未能成為全球頂級對話系統”的帖子中,2021 年7 月離開亞馬遜的埃里克指出,Alexa 已售出超過5 億台設備,“這是一個令人難以置信的用戶數據護城河”,並且“我們擁有成為對話式人工智能領域無可爭議的市場領導者所需的所有資源、人才和動力。

但他表示,這些技術中的大多數從未面世,因為Alexa AI「充斥著技術和官僚主義問題」。

那麼,ChatGPT熱潮下,亞馬遜是如何讓Alexa錯失稱霸全球AI 領頭羊機會的呢?


ChatGPT 讓亞馬遜Alexa 措手不及

實際上,早在2022 年11 月ChatGPT 震驚世界之前,亞馬遜就有了Alexa——這款數位助理於2014 年與作為其硬體介面的Echo 智慧揚聲器一起推出。

亞馬遜表示,這款數位助理的靈感來自《星際爭霸戰》中無所不知的電腦(亞馬遜創辦人傑夫貝佐斯是《星際爭霸戰》的忠實粉絲)。

該產品迅速受到消費者的追捧,到2017 年已售出超過2,000 萬台。但Alexa 並非基於使ChatGPT 具有開創性的相同AI 模型和方法構建的。相反,它是一組小型機器學習模型和數千條手工製作和硬編碼的規則,這些規則將使用者的話語轉化為Alexa 執行的操作。

亞馬遜一直在試驗一些早期的大型語言模型——它們都比GPT-3 和GPT-4 小得多,OpenAI 將使用這兩個模型來支援ChatGPT——但這些模型還遠未準備好部署到產品中。

有亞馬遜前員工表示,ChatGPT 在2022 年11 月下旬推出後,生成式人工智慧熱潮讓該公司措手不及。

接下來的幾個月裡,亞馬遜的Alexa 組織努力凝聚在一起,實現一個願景,將數位助理從一個呆板的命令式機器人變成一個真正會說話、樂於助人的代理。非生成式人工智慧專案一夜之間被降級,在整個2022 年聖誕節期間,高層敦促亞馬遜的科學家、工程師和產品經理想辦法確保亞馬遜有生成式人工智慧產品可以提供給客戶。一位前Alexa 人工智慧專案經理將公司的氣氛描述為「有點恐慌」。

亞馬遜的回應幾乎立即陷入困境,因為Alexa 和AWS 內部的各個團隊未能就統一的計劃達成一致。這位Alexa AI 專案經理表示,新冠疫情爆發後,許多員工仍在遠端辦公,導致人們無休止地「聚在一起開電話會議,討論戰略PRFAQ 的細節」(亞馬遜的術語,指在早期階段提出產品創意時使用的書面文件)。他說,公司很難「從和平時期轉變為戰時模式」。

一位資深Alexa 資料科學家表示,這尤其令人沮喪,因為他早在2022 年中期就試圖對即將到來的生成式人工智慧浪潮敲響警鐘,並收集數據來展示他的主管級領導力,但他表示,他無法說服他們公司需要改變其人工智慧策略。他解釋說,只有在ChatGPT 推出後,公司才開始採取行動。


OpenAI 的ChatGPT 由技術長Mira Murati


問題在於,正如數億人從他們與Alexa 的生硬對話中意識到的那樣,這款助手不是為來回對話而設計的,而且從未主要用於來回對話。相反,它總是專注於Alexa 組織所稱的「話語」——人們向Alexa 大喊的問題和命令,例如「天氣怎麼樣?」或「打開燈」。

一位在此期間在Alexa 團隊實習的博士研究員表示,在ChatGPT 推出後的頭幾個月裡,尚不清楚LLM是否能夠透過自然對話觸發這些現實世界的動作。 「當你說『我看不見,把燈都打開』時,LLM可以『打開燈』的想法尚未得到證實,」他說。 「所以內部領導顯然有宏偉的計劃,但他們並不真正知道他們要做什麼。」(現在人們普遍認為,LLM至少在理論上可以與其他技術相結合來控制數位工具。)

相反,各團隊正在研究如何即時實現生成式AI。其中包括建立合成資料集(在本例中是電腦生成的聊天機器人對話的集合),他們可以使用這些資料來訓練LLM。當現實世界數據不足以提高AI 準確性或需要隱私保護時,構建AI 模型的人通常會使用合成數據——請記住,Alexa 團隊擁有的大部分內容都是簡單的、聲明性的“話語” 。

「[客戶] 用Alexa 語言交談,」一位前亞馬遜機器學習科學家說。 「現在想像一下,你想鼓勵人們用從未發生過的語言交談——那麼你要從哪裡獲取資料來訓練模型?你必須創建它,但這會帶來很多障礙,因為人們可以用無數種方式說同樣的話。

此外,儘管Alexa 已與數千種第三方設備和服務集成,但事實證明LLM 在處理此類集成方面並不十分擅長。

據一位曾參與Alexa 智慧家庭功能開發的前Alexa 機器學習經理稱,即使是OpenAI 最新的GPT 4o 模型或最新的Google Gemini 模型(兩者都能夠使用語音而不僅僅是文本)也難以從口頭對話轉變為使用其他軟體執行任務。這需要所謂的API 調用,而LLM 目前在這方面做得還不夠好。

這位前機器學習科學家表示:“它不夠一致,會產生幻覺,出現錯誤,當你連接到許多不同的設備時很難建立體驗。”

隨著春天的到來,2023 年夏天即將到來,Alexa 的許多普通員工仍然不知道數位助理將如何迎接生成式人工智慧時代。前員工表示,該專案缺乏願景。

「我記得我和我的團隊經常向上級抱怨,願景不透明——我們到底要推出什麼也不透明,」其中一位員工說。

另一位前經理表示,在9 月演示之前的幾個月裡,人們一直在談論新的Alexa LLM,但並不清楚這意味著什麼。 “我們只是聽到這樣的話,'哦,是的,它即將到來',”他說。 “但我們不知道它是什麼,也不知道它會是什麼樣子。”


Alexa大模型示範不符合銷售標準

2023 年9 月的Alexa 演示讓人覺得新Alexa LLM 即將大規模推出。但一位前員工表示,基於語言模型的新Alexa 最終「沒有達到通過/不通過的標準」。眾所周知,LLM 會產生幻覺,有時甚至會產生有毒內容,亞馬遜的LLM 也不例外,因此大規模發布存在風險。

前員工表示,這就是Alexa 的「讓我們聊天」功能從未廣泛發布的原因。一位前經理表示:“要讓人工智慧足夠安全並測試這個黑匣子的各個方面才能發布,這非常困難。”

他指出,2023 年9 月的演示涉及的功能與Alexa 最廣為人知的功能不同——即接受命令並執行。確保Alexa 仍能執行這些舊功能,同時也能實現新Alexa 承諾的對話並非易事。這位經理說,他越來越清楚,該組織至少暫時需要維護兩個完全不同的技術堆疊——一個支援Alexa 的舊功能,另一個支援新功能。但他說,經理們不想考慮這個想法。相反,當他在2023 年11 月被解僱時,公司的信息仍然是“我們需要基本上與舊的Alexa AI 模型斷絕關係,轉而只研究新模型。”

儘管新推出的Alexa LLM 計畫舉步維艱,但亞馬遜高層仍制定了更宏偉的生成式人工智慧目標。就在演示之前,曾擔任Alexa 首席科學家的亞馬遜高級副總裁普拉薩德被提拔到一個新職位,旨在將公司分散的研究團隊整合到一個單一的保護傘下,目標是開發人類級別的通用人工智能,即AGI。此舉使亞馬遜與OpenAI、Google DeepMind和Anthropic 等公司展開直接競爭,這些公司的創始使命都是創造AGI。 Meta 執行長馬克祖克柏最近也表示,創造AGI 也是他公司的使命。

到2023 年11 月,有消息指出亞馬遜將投資數百萬美元來訓練代號為Olympus 的AI 模型,該模型將擁有2 兆個參數(或可調變數)。參數是模型大小和複雜度的粗略近似值。 Olympus 報告的參數數量將使其大小達到OpenAI 最強大的模型GPT-4 的兩倍。

這位前Alexa LLM 研究科學家表示,Project Olympus 是“一個笑話”,並補充說,正在開發的最大模型有4700 億個參數。他還強調,目前的Alexa LLM 版本與2023 年9 月演示中使用的1000 億個參數模型沒有變化,但對其進行了更多的預訓練和微調以改進它。 (可以肯定的是,1000 億個參數仍然是一個相對強大的模型。相較之下,Meta 的Llama 3 有700 億個參數)。


缺乏數據使得大模型難以“發揮魔力”

在2023 年9 月演示後的幾個月裡,一位參與打造新Alexa LLM 的前研究科學家回憶起Alexa 領導層(包括亞馬遜的生成AI 領導者Rohit Prasad)如何推動團隊更加努力地工作。

這位研究科學家說,他們傳達的訊息是「從LLM 中獲取一些魔力」。但魔力從未發生。亞馬遜前員工表示,缺乏足夠的數據是主要原因之一。

Meta 的Llama 3 預先在15 兆個標記上進行了訓練,這是LLM 處理的最小資料單位。 Alexa LLM 只接受了3 兆個標記的訓練。 (與參數(模型具有的可調設定數量)不同,標記是模型在訓練期間處理的小資料單位,例如單字)。 )同時,對AI 模型進行「微調」(採用預先訓練的模型並進一步針對特定任務進行磨練)也受益於比亞馬遜現有的更大的數據集。 Meta 的Llama 3 模型在1000 萬個數據點上進行了微調。

這位前Alexa LLM 研究科學家表示,亞馬遜AGI 組織建構的LLM 迄今只累積了約100 萬個數據點,其中只有50 萬個高品質數據點。


他解釋說,其中一個原因是亞馬遜堅持使用自己的資料註釋員(負責標記資料以便AI 模型能夠識別模式的人),而這個組織的速度非常慢。「因此,即使經過幾輪測試,甚至在開發模型一年後,我們也無法從他們那裡獲得高品質的數據,」他說。

兩位消息人士透露,除了資料匱乏之外,Alexa 團隊還無法取得OpenAI、Meta 和Google團隊所擁有的大量最新Nvidia GPU(用於訓練和運行AI 模型的專用晶片)。 「大多數GPU 仍然是A100,而不是H100,」這位前Alexa LLM 研究科學家補充道,他指的是Nvidia 目前最強大的GPU。

他們表示,有時,開發新Alexa 會讓位於亞馬遜的其他生成式AI 優先事項。在推出ChatGPT 後,亞馬遜的主要重點是推出Bedrock,這是一項新的AWS 雲端運算服務,允許客戶在雲端中建立生成式AI 聊天機器人和其他應用程式——該服務於2023 年4 月宣布,並於9 月全面上市。 AWS是亞馬遜的關鍵利潤驅動因素。

另一方面,Alexa 是一個成本中心——據報導該部門每年虧損數十億美元——並且主要被視為一種讓客戶與亞馬遜保持互動的方式,以及一種可以幫助亞馬遜及其合作夥伴更好地投放廣告的數據方式。一位在過去幾個月內離職的前Alexa LLM 科學家表​​示,亞馬遜科學家正在建構的LLM(其中一個版本也將為Alexa 提供支援)也將首先推廣到AWS 面向業務的生成式AI 助理Amazon Q,因為該模型現在被認為足以滿足特定的企業用例。 Amazon Q 也採用了Anthropic 的Claude AI 模型。但出於對資料隱私的擔憂,Alexa 的LLM 團隊尚未被允許使用Claude。

亞馬遜發言人表示,有關克勞德和隱私的說法是錯誤的。 “說亞馬遜Q 比Alexa 更優先的說法是不準確的。說我們對Q 和Alexa 使用同一個LLM也是不正確的。”


官僚主義和基礎設施問題拖累了Alexa 的人工智慧發展

一位前Alexa AI 員工曾聘用過幾名參與開發新Alexa LLM 的員工,他表示,大多數人都提到,他們“感到精疲力竭”,因為要為一再推遲的發布做好準備,而且不斷承受著巨大的壓力。同時,他們也因為其他工作被擱置而感到沮喪。

他補充說,少數人也表達了越來越強烈的懷疑,即基於LLM 的Alexa 的整體設計是否合理。

「我聽到的一個故事是,在專案早期,一些高階主管在嘗試ChatGPT 後變得過度自信,他們大力推動,這種過度自信一直存在於一些高階領導中,他們繼續朝著不切實際的目標努力,」他說。另一位前Alexa LLM科學家表示,經理們設定的最後期限高得離譜。 「每次經理給我們分配與LLM相關的任務時,他們都會要求我們在很短的時間內(例如2 天、1 周)完成,這是不可能的,」他說。 “領導層似乎對LLM一無所知——他們不知道需要多少人,也不知道要花多長時間才能完成每個任務,才能打造出像ChatGPT 這樣的成功產品。”

Alexa 從未與傑夫貝佐斯的「兩個披薩團隊」理念保持一致——也就是說,團隊規模應該足夠小,這樣你就可以只用兩個披薩就能為整個團隊開會提供食物。貝佐斯認為,小團隊可以推動有效的決策和合作。相反,Alexa 歷史上一直是——而且在很大程度上仍然是——一個龐大的部門。在最近的裁員之前,它有10,000 名員工。雖然現在員工人數減少了,但它仍然被組織成大型的、孤立的領域,例如Alexa Home、Alexa Entertainment、Alexa Music 和Alexa Shopping,每個領域都有數百名員工,以及主管和最高級別的副總裁。

消息人士稱,隨著各個領域與新的Alexa LLM 合作打造生成式AI 功能的壓力越來越大,每個領域都需要準確度基準,因此各個領域之間產生了衝突,有時會產生適得其反的結果。

例如,一位致力於Alexa Home 的機器學習科學家回憶說,雖然他的領域正在研究如何讓Alexa 幫助用戶控制燈光或恆溫器,但音樂領域正忙於研究如何讓Alexa 理解非常具體的請求,例如「播放蕾哈娜(Rihanna),然後播放Tupac,然後暫停30 分鐘,然後播放DMX」。

每個領域團隊都必須與Alexa 核心LLM 團隊建立自己的關係。 「我們花了幾個月的時間與那些LLM 團隊合作,只是為了了解他們的結構以及我們可以給他們哪些數據來微調模型以使其發揮作用。」每個團隊都希望根據自己的領域目標微調AI模型。

但事實證明,如果Home 團隊嘗試對Alexa LLM 進行微調,使其更能解決Home 問題,然後Music 團隊也加入進來,使用他們自己的Music 數據對其進行微調,那麼模型最終的表現會更差。 「災難性遺忘」是指模型在訓練後期學習到的內容會降低其在訓練早期遇到的任務上表現良好的能力,這是所有深度學習模型都存在的問題。 「隨著Music 越來越好,[模型] 在Home 上可能會變得不那麼聰明,」這位機器學習科學家說。 「因此,找到你試圖在12 個領域進行微調的最佳點幾乎是碰運氣。」他補充說,如今,LLM 科學家們知道,微調可能不是創建具有豐富功能和靈活性的模型的最佳技術— —還有其他技術可以做得更好,例如快速工程。但到那時,許多個月已經過去了,卻沒有任何進展。

一位前產品經理表示,每個Alexa 網域都有自己的領導,都想保護和擴大自己的領地。 「這個組織已經變成了黑手黨,」她說。 「比如說,如果我為你工作,我只是接受命令,因為同意你的意見對我最有利。我最大的利益是不要在下一次裁員時被解僱——這很無情。這對我來說是最有利。好的,因為你將幫助我建立我的帝國。


亞馬遜表示將信守對Alexa 的承諾

亞馬遜發言人堅稱,它完全致力於提供生成式人工智慧Alexa,並補充說,其願景仍然是打造「世界上最好的個人助理」。

亞馬遜的一位代表指出,支援Alexa 的裝置已售出超過5 億台,客戶每小時與Alexa 互動數千萬次。

上述代表補充稱,生成式人工智慧的實施伴隨著“巨大的責任——細節真的很重要”,因為這種規模的技術實施已經應用於數百萬客戶在家中使用的設備上。雖然Alexa LLM 的「讓我們聊天」功能尚未向公眾推出,但它已經「持續」在小群客戶中進行了測試。


但許多員工表示,他們離開的部分原因是他們不相信新的Alexa 永遠無法準備就緒——或者等到它準備就緒時,它已經被OpenAI 等更靈活的競爭對手推出的產品所取代。這些公司不必駕馭現有的技術堆疊並捍衛現有的功能集。

一位前員工在過去一年僱用了幾位離開Alexa 組織的員工,他說許多人對Alexa LLM 的推出持悲觀態度。“他們只是沒有看到它真的會發生,”他說。

一些員工表示,亞馬遜最終可能會推出基於LLM 的Alexa,而且它將是對當今Alexa 的改進。畢竟,世界上有數億Alexa 用戶,如果這款放在辦公桌或廚房櫃檯上的設備能做更多事情,而不僅僅是執行簡單的命令,他們肯定會很高興。

但考慮到Alexa LLM 計畫面臨的挑戰,以及它與OpenAI 和Google等生成式人工智慧領導者之間的差距。採訪到的所有消息人士都不認為Alexa 已經接近實現亞馬遜成為「世界上最好的個人助理」的使命,更不用說亞馬遜創始人傑夫·貝佐斯(Jeff Bezos) 創造星際迷航電腦現實版的願景了。

相反,亞馬遜的Alexa 有可能成為具有警示作用的數位遺物——一種可能改變遊戲規則的技術,卻在玩錯遊戲。(鈦媒體AGI)