微軟推出iPhone能跑的ChatGPT級模型，效能超Llama-3

2024/04/24

•

Llama 3發布才幾天，微軟就出手截胡了？

其中僅3.8B參數的Phi-3-mini在多項基準測試中就超過了Llama 3 8B。

為了方便開源社群使用，也刻意設計成了與Llama系列相容的結構。

微軟這次打出「手機就能直接跑的小模型」的旗號，4bit量化後的phi-3-mini在iPhone 14 pro和iPhone 15使用的蘋果A16晶片上跑到每秒12 token。

這意味著，現在手機上能本地運行的最佳開源模型，已經做到ChatGPT水準。

在技術報告中還玩了一把花活，讓phi-3-mini自己解釋為什麼建造小到手機能跑的模型很令人驚嘆。

除了mini杯之外，小杯中盃也一併發售：

Phi-3-small，7B參數，為支援多語言換用了tiktoken分詞器，並額外增加10%多語種資料。

Phi-3-medium，14B參數，在更多數據上訓練，多數測試中已超越GPT-3.5和Mixtral 8x7b MoE。

作者陣容一看也不簡單，一眼掃過MSRA和MSR雷蒙團隊都投入了不少人。

那麼，Phi-3系列到底有什麼獨特之處呢？

根據技術報告中揭露，其核心秘訣在於數據。

去年團隊就發現，單純堆砌參數量並不是提升模型效能的唯一路徑。

反而是精心設計訓練數據，尤其是利用大語言模型本身去產生合成數據，配合嚴格過濾的高品質數據，反而能讓中小模型的能力大幅躍升。

也就是訓練階段只接觸教科書層級的高品質數據，Textbooks are all you need。

Phi-3也延續了這一思路，這次他們更是下了血本：

舉個例子，例如某一天足球比賽的結果可能對於大模型是良好的訓練數據，但微軟團隊刪除了這些加強知識的數據，留下更多能提高模型推理能力的數據。

這樣一來，比較Llama-2系列，就可以用更小的參數來獲得更高的MMLU測試分數了。

不過小模型畢竟是小模型，也不可避免一些弱點。

微軟透露，模型本身參數中沒能力儲存太多事實與知識，這點也可以從TriviaQA測驗分數低看出來。

緩解辦法就是連網接入搜尋引擎增強。

總之，微軟研究院團隊是鐵了心了要在小模型+資料工程這條路上走下去，未來還打算繼續增強小模型的多語言能力、安全性等指標。

對於開源小模型超過ChatGPT這回事，不少網友都認為壓力現在給到OpenAI這邊，需要趕快推出GPT-3.5的繼任者了。

(虎嗅APP)