DeepSeek-R1:_Incentivizing_Reasoning_Capability_in_LLMs_via_Reinforcement_Learning

DeepSeek-R1:_Incentivizing_Reasoning_Capability_in_LLMs_via_Reinforcement_Learning
风铃夜行Motivation
Contributions
大量数据的强化学习
GRPO
蒸馏强大的小模型
图片放到图床上这个过程应该自动化。

图片放到图床上这个过程应该自动化。