DeepSeek-R1:_Incentivizing_Reasoning_Capability_in_LLMs_via_Reinforcement_Learning

Motivation

Contributions

大量数据的强化学习

GRPO

蒸馏强大的小模型

图片放到图床上这个过程应该自动化。