2024年，AI商業落地的十個方向

2024/01/15

•

就像爭奪土地、石油、黃金的戰爭一樣，人工智慧算力、演算法變成了大國軍備的新戰場，也成為企業家和創業家的兵家必爭之地。

轟轟烈烈的2023年AIGC元年結束了，心情有點複雜。

在國內，和年初ChatGPT炸雷帶來的全民興奮相比，AI並沒有為一般人的生活帶來太多改變。

AI——這個當之無愧的下一代資訊科技革命，沒像上一波行動互聯網浪潮中的微信和滴滴打車，在一年的時間裡實現「一夜春風來、萬樹梨花開」式的商業滲透。認真使用AI工具的人不多，現象級的AI產品完全沒有出現。

在海外，ChatGPT以迅雷不及掩耳的速度斬獲1.8億用戶，AI繪圖軟體MidJourney獲得超1500萬用戶和數億美元營收；微軟的GitHub編程助手Copilot在9月份付費用戶已超百萬（含3萬7千個組織訂閱），多個小型APP號稱獲得數百萬美元的訂閱收入。

在矽谷和華爾街，逢人必談AI。美股在AI晶片霸主英偉達和AI應用先鋒微軟的帶領下，日日創出新高。

不誇張地說，若無AI，美國可能已陷入經濟衰退；有了AI，美國走在了新一輪泡沫的路上。

比爾蓋茲認為：在像美國這樣的高收入國家，距離一般大眾使用人工智慧達到顯著水準還有18到24個月的時間。在非洲，他預計在三年左右的時間裡會看到類似的使用水準。據此預測，2024年美國將達到人工智慧的「普惠」狀態。

中國和美國的人工智慧差距正在拉大。由於對英偉達GPU的禁令，全世界最緊俏的商品變成了英偉達的GPU或平替，甚至有人不恰當地將GPU比喻為超過毒品的新一代最暴利走私品。

就像爭奪土地、石油、黃金的戰爭一樣，人工智慧算力、演算法變成了大國軍備的新戰場，也成為企業家和創業家的兵家必爭之地。

時不時我待，何以勝出？下文我主要採用AI在醫療、金融等嚴肅領域的實際需求案例，探討AI在2024年從科技到產品商業落地的10個方向：

更強的多模態交互
可解釋性更強的人工智慧
更強的搜尋增強生成
構造自動代理生態
更強、更經濟節能的算力
更快的AI平民化進程
AI與Web3結合的破局
打磨用戶需要的「小」產品
AI能力帶入數據，而不是相反
取得用戶對AI的信任

多模態互動類似人類的多維感官能力。多模態人工智慧可以交叉處理和分析文字、圖像、語音多種資料類型。這種融合不同模式的方法使機器能夠全面且立體地理解世界。

去年聖誕節，很多賀卡由AI生成。這是從文字生成的圖片和影片。從文字生成音樂和歌曲還不成熟。GPT4.0的語音對話相當給力，可以直接用中文和它對話。美中不足的是，總覺得GPT的中文發音是我國台灣人夾雜海外華人的腔調，有點像王力宏。

以醫療領域的需求來看，病人拿到血常或腫瘤指標檢查報告，想知道異常指標的意義。對自己負責的病人會上網搜尋每個指標的意思。入冬以來兒童夾雜肺炎和流感，許多焦慮的家長會搜尋檢查結果的意義，往往費時費力，找不到準確的解讀。

多模態技術的發展，可以讓使用者拍照上傳檢查報告，AI辨識照片中的指標、搜尋知識庫、給出每個指標的意義，然後用語音告訴可能的診斷。這種體驗太棒了。

在金融領域，如果上傳一張K線圖，AI就能辨識出其形態，則可以大幅提昇技術分析投資者的效率。在晶片設計或建築設計領域，如果能讓AI讀懂設計圖，再設計出新的設計圖，那就更厲害。

在非嚴肅領域，多模態會大幅提高數位影像、短影片製作的效率，並豐富這些應用的使用情境。

可解釋的人工智慧的目標在於提高AI決策過程的透明度和可理解性，以便更能理解AI如何做出決策。

目前的AI決策過程往往被視為一個“黑盒子”，使用者無法了解模型得出結論的內在邏輯。大語言模型最強大且是最神秘的「湧現」能力，亦無法被解釋。無法被解釋的決策過程，不可能在嚴肅商業領域中獲得信任。

AI看完檢查報告，可以給用藥建議。如果不知道這個用藥建議是基於何種知識，也不知道AI做出推理和判斷的過程，相信沒有人敢用AI開出的藥方。生命不能作AI機率遊戲的試驗品。

現舉例說明。我問ChatGPT:

“如果換算成特斯拉的行駛里程，7200兆瓦時可以行駛多少公里？”

AI會告訴我它的邏輯—

為了估算7,200兆瓦時（MWh）的電力可以讓特斯拉汽車行駛多少公里，我們需要知道特斯拉汽車的能源效率。以特斯拉Model 3為例，其能源效率約為15千瓦時/100公里（即0.15千瓦時/公里）。

我們可以透過以下公式計算行駛里程：

總行駛里程=總電能（千瓦時）/每公里耗電量（千瓦時/公里）

現在我們可以計算7200兆瓦時（即7200000度）可以讓特斯拉汽車行駛多少公里。我將進行計算（此處，AI寫Python程式碼進行計算）。

使用7200兆瓦時的電能，一個特斯拉Model 3理論上可以行駛約4800萬公里。

以上，AI展示了一個完整的、可解釋的AI推導。用戶可以對每一步檢查、糾錯。

AI在嚴密的數學推理已經取得某些突破。近期，數學大神陶哲軒成功地用AI工具完成了形式化多項式Freiman-Ruzsa猜想證明過程的工作。陶哲軒大聲呼籲，數學家一定要用AI。

可解釋的人工智慧的實現需要開發新的演算法和工具，透過視覺化技術、自然語言解釋或簡化決策邏輯的表示，以提供關於AI決策過程的深入洞察。

綜上，可解釋的人工智慧在醫療、科學研究等嚴肅領域具有巨大的商業應用價值。在這些領域，決策的透明度和可信度至關重要，AI的大規模嚴肅應用必須在較高的置信度上給客戶以流程控制和品質控制的選項和權利。

搜尋增強生成（Retrieval-Augmented Generation，簡稱RAG）是一種結合了資訊檢索和文字產生的AI技術。它旨在透過從「外部」資料來源檢索資訊來增強和改善生成模型的輸出品質。

RAG使得大型語言模型能夠存取外部訊息，幫助它們產生更準確、更具上下文意識的回應，其目標在於提高語言模型生成內容的準確性和相關性。

在RAG系統中，當模型接收到一個查詢時，首先執行一個檢索步驟，尋找與查詢相關的資訊。然後，這些相關資訊被融入生成過程，實現生成內容準確性和相關性的顯著改善。

以病人的需求為例，我的朋友曾親自嘗試ChatGPT 4.0搜尋增強的能力。病人服藥後發生間歇性尿失禁，但尿失禁到底是不是服藥的不良反應？在藥品說明書上找不到，醫生也不確定。

朋友最初給AI的問題是“卡培他濱（Capecitabine）的副作用是否包含尿失禁?”

AI的回答是：「尿失禁不是通常與卡培他濱直接關聯的副作用。卡培他濱的副作用通常包括胃腸道症狀，如腹瀉、噁心、嘔吐和口腔潰瘍等。尿失禁可能是由其他因素引起的，如泌尿系統的問題、藥物的其他副作用、或與患者的整體健康狀況相關。”

如果把提問改成：“搜尋英文專業醫學資料，卡培他濱的副作用是否包含尿失禁?”，AI開始自動用Bing搜尋互聯網，然後它真的搜到了多個醫學文獻。

AI說：「根據我找到的英文專業醫學資料，尿失禁被列為卡培他濱的罕見副作用之一，發生率在0.01%到0.1%之間。這表明尿失禁確實可能是卡培他濱使用的潛在副作用，儘管它並不常見。”

AI可以給出它得出這個結論的多個可靠資訊來源。AI如何搜尋這些資訊、如何加快搜尋的速度、如何綜合多個搜尋結果做出推理和結論，是更強的增強搜尋要做的事情。

RAG在企業級商業應用上具有顯著優勢。因為在面向客戶的場景中，生成內容的準確性至關重要。RAG能夠減少生成型AI的「幻覺」問題。「幻覺」指的是生成聽起來合理但實際上是錯誤的答案。在資訊不對稱領域，使用者無法判斷幻覺內容的對錯。這導致AI的應用受限。

此處說一個題外話，為什麼上面的例子需要指明搜尋「英文」專業醫學資料？因為在某些不指明英文的情況下，Bing搜尋引擎用中文搜索，在中文網路上找不到符合的關聯資訊。如果用最常用的某中文搜尋引擎搜索，搜尋到的結果大部分是廣告和商業網站上意義不相關的資訊。

中文搜尋引擎和中文網路的品質堪憂是AI發展的重大問題之一。因此，和大模型相比，想辦法打造更強的搜尋增強生成技術，或許是在中文互聯網開發產品致勝的關鍵。

上面搜尋增強生成的討論，已經包含了自動代理的部分功能。

當AI經過自我學習和模型升級，當它了解到我總是在搜尋專業文獻後，當我再次詢問藥物副作用同樣模式的問題時，AI會自己啟動搜尋專業互聯網的動作，而不需要我再做指示。就像我的秘書了解我的習慣、不需要我吩咐就把事情做了一樣。這是自動代理的用例之一。

自動代理是一種能夠自動獨立執行任務和做出決策的AI系統。這些代理展現了一定程度的自主性和主動性，能夠理解其所處的環境、設定目標，並採取行動實現目標，不再需要人類額外指導。

有一個開源專案叫AutoGPT，它自動分解任務的動作，然後自動逐步執行，就像自動執行上面的搜尋任務一樣。

自動代理在多個領域具有廣泛的應用前景。

2024年的訂外送服務也許會變成：你只要和AI說中午訂三份我常吃的外賣和客戶一起吃，不要辣。AI會自動分析你常吃的外賣、剔除辣的；它知道你是跟客戶吃，要吃好一點、貴一些；它根據送達的時間和午餐的時間選擇商家，然後自動買一份準時達保險。這些步驟在幾秒鐘內自動完成。

不只訂餐服務，個人日常助理會是自動代理的重要應用場景。如果蘋果在2024年入局AI，Siri會變成一個更高級的自動代理。現在，只需可以指示Siri打開一個app，Siri還有點愚。

自動代理和硬體結合，會有新的產品形態。使用AI加持的蘋果公司會是自動代理領域最有實力的競賽選手。

Humane公司開發的AI Pin是由Sam Altman支援的創新穿戴式人工智慧裝置。AI Pin可以夾在衣服上，像校徽一樣。它能夠回應觸控、語音指令和手勢，主要用於搜尋和翻譯資訊、導航等功能，透過語音和AI聊天機器人來交流訊息。這款產品預計將在2024年3月開始向消費者出貨。

這意味著：未來的每個人都可以有一個隨身攜帶的小秘書，它記錄你的會議、見聞、聊天、思想，隨叫隨到，直到複製出你的數字生命，就像電影《流浪地球》裡的數字生命一樣。

顯然，自動代理需要完整的閉環生態建置和安全管控，它需要打通互動、採購、物流、支付全環節。我相信在2024年，此閉環生態將露出雛形，重量級選手會入場。

當前AI發展的一個關鍵限制因素是對大量計算資源的需求。這不僅增加了成本，而且導致了巨大的能源消耗。

AI聊天工具導致大型科技公司的水資源使用量劇增。計算產生熱量，進而需要大量水資源冷卻設備。

有數據表明，由於AI產品（如ChatGPT）日益受歡迎，微軟的全球水資源使用量增加了超過三分之一，達到了近17億加侖。谷歌的水資源使用量也比前一年增加了約20%，約56億加侖。研究員估計，使用GPT回答5到50個問題，大約消耗500毫升的水。

電力方面，根據估算，訓練GPT4.0耗時150天，耗費電力720萬度電，這些電力夠特斯拉行駛4,800萬公里。（這個換算是我在上文「可解釋的AI」部分的例子。做任何事情，我都想用AI試試看，不試不知道，一試嚇一跳。）

2024年需要更有效率的AI演算法以在減少計算資源需求的同時提高模型的效能。硬體方面，業界也在尋找新的材料和設計，如量子運算，以期實現更有效率的資料處理、降低能耗。

在晶片禁令下，突破原有技術路徑，尋找升維競爭的突破，可能是中國企業的機會。這需要強大的創投資本支持。

對GPU的需求才剛開始。當全球有20%的人，每天使用AI的時候，GPU的需求將會成長百倍。美股科技股的天花板還很高。能在中國實現GPU「平替」的企業可以賺大錢。

這又被稱為開發的民主化。它的意思是，AI的易用性使得人與電腦的深度互動簡單到像聊天一樣，幾乎任何人都能夠成為開發者。

AI開發的平民化意義重大。它意味著更多的人可以參與電腦產品的開發，不再局限於專業技術人員或擁有高級程式設計技能的人。

我本來是一個做投資的，只有20年前大學C語言程式設計基礎。因小孩喜歡畫畫，被AI繪畫吸引誤入AI的大坑。現在，我正在用GitHub AI編程助手和ChatGPT，用業餘時間開發一個功能複雜的AI應用軟體，我絲毫不覺得困難。在我和AI的共同努力下，AI正確寫出了我需要的所有程式碼。

AI打破了電腦科學的技術壁壘，其實質是矽基生命向碳基生命敞開心扉，人類用自然語言就可以實現深度電腦技術的實現。

當大量不同背景的人都能參與這場資訊革命的浪潮中，這種多元化的參與帶來了更廣泛的視角和創新的可能性，必然極大地加快人類技術爆炸的速度。

其意義重大程度，堪比近1000年來，人類完成的識字掃文盲運動。從第一封電子郵件發出，到人類普遍掌握網路技能，花了數十年。而用多模態技術的互動方式，AI可以用3年時間完成高難度電腦技能向人類白丁的普及，速度加快十倍、百倍。

在平民化浪潮下，低程式碼、無程式碼平台、開源平台的發展至關重要。這些平台透過提供簡化的程式設計接口，使非專業人士也能輕鬆建置和部署AI模型。

其次，使用者友善的工具和介面的開發同樣重要，它們能夠降低AI開發的複雜性，使其更易於理解和操作。自動化和智慧化的開發工具將大大減輕人工程式設計的負擔，並提高開發效率。

預計2024年的AI程式工具將更加強大，平民化的進程將進入加速發展期。在AI的幫助下，一個沒有程式設計基礎的普通人可以編寫出任何他想要的應用，如同文字掃盲運動讓普通人不再需要找人代寫信、自媒體技術發展讓每個人不再需要找期刊投稿就能發表自己的觀點。

當你有一個需求的時候，你自己就可以寫出這樣一個軟體，不需要再去找商業軟體——你完全個性化需求的軟體。

回到醫療的例子，一個腫瘤病人，有過去30個月每週的檢查結果數據，他想知道他的腫瘤指標變化的趨勢。這些結果儲存在醫院的系統裡，醫院的資訊系統不會提供病人歷史資料摘錄和比較功能。病人或家屬需要手動摘錄出每個異常指標，記錄下來，劃出曲線。有了AI，病人可以讓AI寫一個APP，每週把紙質的檢驗報告拍照上傳，然後AI就自動辨識結果，並更新畫出變化趨勢圖。

在目前的軟體範式中，使用者需要尋找能滿足自己需求的軟體，軟體開發者需要在許多人的差異化需求中尋找公約數，小眾用戶的需求不能被滿足。AI平民化將從根本上改變人們使用電腦的方式和軟體開發行業的商業圖景。

在AI平民化的浪潮中，中國有可能會特別被動。在物慾橫流的衝擊下，中國沒有像樣的程式設計師社區，中國的教育體制培養出的是AI時代被拋棄的程式設計師和知識搬運工，有科學專研精神的人不多，全民創造力無法被激發。AI平民化程度低的國家將在未來的生產效率和創造性競爭中，落後於AI平民化程度高的國家。

OpenAI創辦人Altman支持的一個Web3計畫是WorldCoin。WorldCoin運行在以太坊區塊鏈上。它要做的是建立一個全球最大、公平的數位身分驗證體系。為了區分誰是活人、誰是機器人，WorldCoin透過掃描人眼的虹膜來實現身分認證。到今天，已經有數百萬人主動接受了WorldCoin的眼球掃描。如果不是區塊鏈和數位世界的“原住民”，普通人很難理解這個項目的意義何在。

以區塊鏈技術為基礎的Web3在2022、2023年陷入低谷，Crypto市場則處於慢慢熊市的尾端。科技信徒們的創業熱情從Web3完全轉移到了AI。

區塊鏈作為數位世界的「生產關係」基礎設施，和AI作為數位世界的「生產力」激發工具，有天生結合點。如果相信矽基生命的未來，矽基生命的載體應該存在於區塊鏈上。

否極泰來，自2023年11月開始，區塊鏈資產獲得了巨大漲幅，熱情被重新點燃。2024年，伴隨區塊鏈市場的復甦，AI與Web3在去中心化算力、AI經濟價值的實現、智慧合約自動化與優化、去中心化資料市場、個人隱私資料的使用、AI創作數位藝術品、數位孿生等方面，會找到突破點。

值得警醒的是，這種突破將快速產生暴富的機會和歸零的騙局。

AI時代的大平台、大公司將壟斷基礎設施，大語言模型的終局只會有2到3家企業和開源模型。AI創業家需要認清這個殘酷現實，沒有顛覆性的創新和極強的資本能力、執行能力，不要走向「一將功成萬骨枯」路上的「白骨」之一。

基於此邏輯，大型科技公司將在平台戰鬥中鞏固先機。從硬體到軟體，在開發「+AI」產品的戰役中，大公司的實力明顯。基於此，AI將極大推動全球的資本支出、經濟強勢和科技股的多頭市場。

對應用型開發創業者，必須聚焦打磨使用者所需的、完全AI原生的「小」產品。Web 2.0時代燒錢取得用戶規模經濟的打法不復存在。使用者在APP上任何使用AI的動作，都需要支付費用，沒有人會用免費模式燒這麼多錢。

只有打磨出真正顧客需要的產品，幫助顧客提升效率的產品，才是王道。開發者需要從第一分鐘開始，就有用戶付費意願認可。這種產品不怕小眾。但是，由於AI開發平民化的快速發展，創業者開發出成功產品的難度越來越高。

而為了打磨產品，創業者最重要的能力是把需求產品化的能力，要跟上大平台快速迭代的AI技術發展，然後快速而經濟地應用到產品需求中。

英偉達金融業高層認為，隨著人工智慧的進步呈指數級增長，金融服務公司將把運算能力帶入數據，而不是相反。

並非只在金融業。事實上，沉澱在企業和個人的優質數據已經足夠龐大，問題是如何用AI能力全新發揮這些數據的生產力。學術期刊資料庫《知網》也推出了人工智慧助理。開發者不需要守著金礦向外尋覓。

據麥肯錫公司稱，像OpenAI的ChatGPT這樣的深度學習演算法，經過企業數據的進一步訓練，每年可以在63個業務用例中增加相當於2.6萬億至4.4萬億美元的收入。巨大的金礦等待被挖掘。

開發者應聚焦以AI加持現存的有價值數據，滿足使用者的效率要求、讓大數據在AI時代的場景中開始賺錢。

讓使用者把更多的工作交給AI完成，需要AI獲得使用者的信任。

經過2023年的新鮮感，見慣了新鮮玩意兒，用戶不想再把AI當玩具，而是想用它實現可靠的真實價值。即使是情感陪伴機器人，也需要有血有肉、有情感的真實體驗。

能率先可控、準確、高品質地依照使用者指示完成任務的AI產品將在2024年獲得大發展。

同時，建構信任需要更多早期使用者擁抱AI的意願。一件新型事物的普及，如同一個石子投入池塘所產生的漣漪。

AI是個新物種，產品開發人員和使用者都需要學習如何和它相處。此種適應的過程需要工作方式、思考模式的根本轉變。一件事情，如果不用AI試一下，則不知道原來還可以這樣做。

例如，我寫本文的傳統方式是：閱讀既有的AI技術和商業方向文章，加入個人思考，然後在文章最後加上無足輕重的參考文獻。而用AI寫文章的方式可把順序完全顛倒過來：先從參考文獻開始，讓AI閱讀並寫出參考文獻的要點，我再取其精華，加入個人的思考。

這會不會涉及版權和「洗稿」呢？紐約時報在12月底，起訴OpenAI大量採用紐約時報的內容。紐約時報的內容被用於紐約時報的競爭對手生產新的內容。紐約時報認為自己是大冤種。

我認為，不管人還是AI，判斷是否有價值內容的黃金標準是「獨立而有價值的思想」。AI和人類的互信模式會和以往的互信模式不同。

在工業革命中，機器的意義是幫助人們擺脫了重複和繁重的「體力」勞動；AI智能的終極意義是幫助人們擺脫重複的「腦力」勞動，幫助人們更好的創新。在此目標下建立的可以信任的AI智能機器，可以跳出任何舊法律的束縛，而不應該受到懲罰。（秦朔朋友圈）