#難言之隱
2024/03/18
•
馬斯克開源Grok的“難言之隱”與“野望”
2024年3月18日,馬斯克兌現前幾天的諾言,正式對Grok大模型進行開源。根據開源資訊顯示:Grok模型的Transformer達到64層,大小為314B;使用者可以將Grok用於商業用途(免費),並且進行修改和分發,並沒有附加條款。 首先速覽一下Grok 的參數細節: ① 模型概況:擁有3,140億個參數,成為目前參數量最大的開源模型;Grok-1 是基於Transformer 的自迴歸模型。xAI 利用人類和早期Grok-0 模型的大量回饋對模型進行了微調。初始的Grok-1 能夠處理8192 個token 的上下文長度,已經在2023 年11 月發布。 ② 特點:模型採用了混合專家架構,共有8個專家模型,其中每個資料單元(Token)由2位專家處理。這使得每次對Token的處理會涉及860億激活參數,比目前開源的最大模型Llama-2 70B的總參數量還多。模型包含64個處理層,模型使用了48個用於處理查詢的注意力機制單元和8個用於處理鍵/值對的注意力機制單元。模型支援8bit精度量化。