#人工智慧模型
巨頭“押注”數十億美元!中國藥,迎“DeepSeek時刻”
在生物醫藥領域,部分國產創新藥在療效上展現出了能媲美國際藥企明星藥品的表現。近年來,有越來越多的國際製藥企業斥巨資和中國藥企展開合作。今年年初,中國的人工智慧模型DeepSeek以極低的開發成本和強大的性能獲得了世界的矚目,而其實在生物技術領域,中國也正在迎來類似的“DeepSeek時刻”,中國藥企正在從過去的仿製藥時代進入到創新藥時代,並且吸引了眾多的國際合作。合作的主要形式是授權合作:外方獲得在中國以外市場對中方藥品或相關技術的開發、生產及商業化權利。宏觀上來看,美國生物醫藥資料公司DealForma在今年5月份發佈的報告顯示:中國生物醫藥企業在全球大型授權交易,也就是首付款達到5000萬美元或以上的交易中,按數量看佔比已達42%,這一比例與去年的27%和前年的20%相比顯著增加。一些亮眼案例,就例如今年5月輝瑞支付了12.5億美元的首付款,獲得了三生製藥一款創新藥在海外市場的授權。此外,今年上半年,美國製藥公司艾伯維、默沙東和再生元等,和中國藥企總計簽署了價值數十億美元的授權合作協議。值得一提的是藥企阿斯利康,在過去兩年間已和十多家中國創新藥企達成了授權合作。其CEO接受CNBC採訪時也表達了對中國創新實力的看好。業內人士指出,中國生物技術行業如今的突破,是過去多年中國政府和企業持續投入的結果。是這些積累,推動了中國藥企研發出了越來越高品質的創新藥。新加坡畢盛資產管理創始人 王國輝:中國政府深知必須鼓勵生物醫藥公司加大創新投入,實際上這項工作多年來一直在推進。因此我認為在未來幾年,我們將在中國生物醫藥領域看到許多成果和進展。傑富瑞分析指出,從國際藥企的角度來看,當前他們正面臨藥價下行的壓力,以及重磅藥物專利即將到期的挑戰。也正因如此,一筆又一筆的國際合作應運而生。 (央視財經)
Meta,重磅發佈!
開源大模型元老,發佈重磅更新。台北時間4月6日凌晨,美國科技巨頭Meta推出了開源人工智慧模型Llama 4。據介紹,該模型目前目前有Scout和Maverick兩個版本,是Meta迄今為止最先進的模型,也是同類產品中多模態性最強的模型。在DeepSeek引發模型開源浪潮以前,Meta一直是開源模型的領先玩家及重要的行業奠基者。在ChatGPT橫空出世7個多月後,Meta就率先宣佈開源Llama 2,並且可免費商用。這也成為大模型發展的分水嶺,是開源模型社區的歷史性時刻。Llama第四代模型的發佈,不僅是Meta應對DeepSeek等新興開源勢力的一次“回擊”,同時也推動了開源模型技術的進一步發展和生態的進一步完善。大規模、多模態、長文字的Llama 4發佈台北時間4月6日凌晨,Meta發佈Llama 4系列首批模型,包括兩款高效模型Llama 4 Scout、Llama 4 Maverick。此外,Meta還預覽了其迄今最強大最智能的模型——Llama 4 Behemoth,是“新模型中的教師”。Llama 4模型是Llama系列模型中首批採用混合專家(MoE)架構的模型。這一模型也是DeepSeek系列模型採用的架構,與傳統的稠密模型相比,在MoE架構中,單獨的token只會啟動全部參數中的一小部分,訓練和推理的計算效率更高。首先,Llama 4的第一大特點是參數規模大,最先進的Llama 4 Behemoth總參數高達2兆(作為對照,DeepSeek-R1總參數規模為6710億)。其中,Llama 4 Scout面向文件摘要與大型程式碼庫推理任務,專為高效資訊提取與複雜邏輯推理打造,共有16位“專家”、1090億參數、170億啟動參數量;Llama 4 Maverick則專注於多模態能力,支援視覺和語音輸入,具備頂級的多語言支援與程式設計能力,共有128位“專家”、4000億參數、170億啟動參數量;Llama 4 Behemoth(預覽版)則是Meta未來最強大的AI模型之一,具備令人矚目的超大規模參數架構,具有2880億啟動參數量,總參數高達2兆。其次,Llama 4的另外一大特點是多模態能力突出。作為原生多模態模型,Llama 4採用了早期融合(Early Fusion)技術,可以用海量的無標籤文字、圖片和視訊資料一起來預訓練模型,實現文字和視覺token無縫整合到統一的模型框架裡。據Meta介紹,Llama用各種圖像和視訊幀靜止圖像訓練兩個模型,以賦予它們廣泛的視覺理解能力,包括時間活動和相關圖像。這支援多圖像輸入與文字提示的無縫互動,用於視覺推理和理解任務。模型在預訓練中最多使用48張圖像,後訓練中測試了最多8張圖像,結果良好。最後,Llama在長文字能力上也取得了突破,具有超大的上下文窗口長度。Llama 4 Scout 模型支援高達1000萬token的上下文窗口,刷新了開源模型的紀錄,而市場上其他領先模型如GPT-4o也未能達到此規模。超大上下文窗口使Llama 4在處理長文件、複雜對話和多輪推理任務時表現出色。大模型競爭趨於白熱化作為開源模型社區的“領頭羊”和佼佼者,Llama(Large Language Model Meta AI)系列模型由Meta在2022年推出。2023年,為應對ChatGPT等領先閉源模型的挑戰,Meta率先宣佈開源Llama 2,並且可免費商用。這一開源之舉啟動了開發者社區的創新潛力,此後基於Llama 2建構的應用項目數量大大增加,覆蓋各種領域,形成了一個充滿活力的生態系統。2024年4月,Llama 3正式發佈,在技術層面實現了諸多突破,最重要的是不僅在單語言任務上表現卓越,還實現了多模態處理能力,能夠同時理解並生成文字、圖像、音訊等多種類型的資料,從而開啟了多模態的新紀元。雖然Meta是開源模型的重要奠基者,但是開源領域的競爭正變得日益激烈和焦灼,尤其是DeepSeek的崛起,對Meta在開源模型社區的領先地位構成了巨大的衝擊。今年1月末,在DeepSeek剛剛在海外火爆出圈時,就有Meta員工在匿名社區TeamBlind上爆料稱,僅用550萬美元訓練的DeepSeek-V3在基準測試中已經讓Llama模型相形見絀,Meta的工程師們正在爭分奪秒地分析DeepSeek,試圖複製其中的一切可能技術。該爆料帖還說,Meta管理層正面臨嚴峻的財務壓力,其生成式AI部門數十位高管,“每個人的年薪都超過了DeepSeek-V3的全部訓練費用。如何向公司高層解釋這種投入產出比,已成為他們的噩夢”。除了DeepSeek以外,阿里巴巴通義千問系列開源大模型也屢屢斬獲佳績。4月2日,全球最大的AI開源社區Hugging Face更新了大模型榜單,阿里通義千問近期開放原始碼的端到端全模態大模型Qwen2.5-Omni登上總榜榜首。據瞭解,阿里至今已向全球開源200多款模型,千問衍生模型數量已突破10萬,超越美國Llama系列,成為全球最大的開源模型族群。在Llama 4發佈之際,OpenAI首席執行官山姆·奧特曼也對外透露了公司的模型發佈計畫。他表示,OpenAI可能在幾周後發佈最新的推理模型o3和最新的基座模型o4-mini,然後在幾個月後推出GPT-5。DeepSeek-R2模型何時發佈也備受市場關注。4月4日,DeepSeek與清華大學研究團隊聯合發佈題為《獎勵模型的推理時Scaling方法及其在大規模語言模型中的應用》的重磅論文,提出自我原則點評調優(SPCT)與元獎勵模型(Meta Reward Model)兩項核心技術,為提升大語言模型的推理能力提供了全新方法論。雖然官方並未明確R2的發佈時間,但這一成果被視為DeepSeek下一代推理模型R2的重要技術鋪墊。技術的不斷突破及各家大模型的密集推出,表明大模型競爭趨於白熱化,彼此間你追我趕將是未來一段時間的常態。業內人士分析稱,模型能力的持續提升,推動大模型競爭進入推理強化和應用拓展的下半場賽程。個人智能體潛力初步顯現,行業應用漸次走深,開源開放日益成為大模型的核心競爭力組成。大算力、多模態、強推理、廣開源、准資料、智能體、深應用等,成為大模型發展的重要趨勢。 (證券時報)
一家神奇的晶片公司,要取代輝達
Extropic 不是一家普通的初創公司,但現在也並非正常時期。該公司正在開發一種全新的電腦晶片,利用電子電路中自然發生的熱力學波動(這通常是工程師的難題),利用它們進行高效的機率計算。隨著人工智慧巨頭尋求更強大的電腦能力來建構執行人工推理的人工智慧模型,以及我們都擔心人工智慧驚人的能源需求,這種晶片很可能會受到一些追捧。Extropic 現已與《連線》雜誌分享了更多有關其機率硬體的細節,以及表明其有望在許多資料中心建構出一種替代傳統矽片的產品的結果。該公司的目標是提供一種比當今硬體效率高出三到四個數量級的晶片,這一壯舉將大大減少未來的排放量。在此前的文章中,我們寫了有關 Extropic 奇特背景的故事。我的文章探討了促成該公司成立的非凡技術、政治和文化潮流。但 Extropic 的技術值得我們仔細研究。Extropic 向我提供的一份技術文件包括來自示波器(一種隨時間測量電子電壓的儀器)的訊號,該訊號顯示了機率位元或 p 位元的運行情況。傳統電腦位元固定為 1 或 0。p 位元處於任一狀態的機率是一定的,示波器圖像顯示 p 位元在 1 和 0 之間翻轉。關鍵在於,Extropic 可以控制位元在任何時間點處於任一狀態的機率。通過設計多個這樣的 p 位元之間的互動,可以執行更複雜的機率計算。“示波器上的這個訊號乍一看似乎很簡單,但它展示了我們平台的一個關鍵建構模組,代表著世界上第一個可擴展、可大規模生產且節能的機率計算平台的誕生,”Extropic 首席執行官 Guillaume Verdon 說道,他也是廣受歡迎、極具煽動性且有時引起爭議的網路人物 Based Beff Jezos 的幕後推手。Extropic 的創新之一是控制傳統矽中的熱力學效應,以便在沒有極端冷卻的情況下進行計算。熱力學計算的努力傳統上依賴於超導電子電路,但 Verdon 和他的聯合創始人 Trevor McCourt 正在使用普通矽中的電荷波動。Extropic 表示,其硬體非常適合運行蒙特卡羅模擬,這是一種涉及採樣機率的計算,廣泛應用於金融、生物和人工智慧等領域。這些計算對於建構推理模型(如Google的 OpenAI o3 和 Gemini 2.0 Flash Thinking)非常重要。“事實上,計算量最大的工作負載是蒙特卡羅模擬,”Verdon 說。“我們不僅對人工智慧感興趣,而且對高性能計算中隨機系統模擬的應用也感興趣。”Extropic 的創始人承認,與 Nvidia 和其他晶片製造商競爭的想法從表面上看似乎是絕對瘋狂的。Nvidia 的晶片仍然是訓練人工智慧的最佳選擇,而切換到完全陌生的架構將既昂貴又耗時。但我們正處於一個獨特的時刻,人工智慧公司需要大量的計算能力,以至於他們正在核電站旁邊建造資料中心,民族國家準備在人工智慧上投入巨額資金,而這項技術對環境的影響只會越來越嚴重。考慮到這一切,也許不去嘗試重新發明電腦的工作方式才是更瘋狂的做法。你認為 Extropic 有機會挑戰 Nvidia 的晶片主導地位嗎?是時候徹底重新考慮計算了嗎? (半導體行業觀察 )