#GRPO
2025/02/10
•
【DeepSeek】DeepSeek-R1推理本地跑,7GB GPU體驗啊哈時刻?GRPO記憶體暴降,GitHub超2萬星
黑科技來了!開源LLM微調神器Unsloth近期更新,將GRPO訓練的記憶體使用減少了80%!只需7GB VRAM,本地就能體驗AI「啊哈時刻」。 李飛飛團隊僅用16張H100訓了26分鐘,訓出的模型就超越了o1-preview,震動業內。 可以說,DeepSeek-R1已經讓全球AI模型走向了推理新時代。 甚至利用其訓練方法GRPO,AI開源界開始了競賽:看誰能用最少的成本,復現AI的「啊哈時刻」。