PaperReading:Deepseek-R1
paperreading
本文字数:1.5k 字 | 阅读时长 ≈ 5 min

PaperReading:Deepseek-R1

paperreading
本文字数:1.5k 字 | 阅读时长 ≈ 5 min

DeepSeek-R1:强化学习如何提升大模型的推理能力

1. 引言

随着OpenAI的o1-preview发布,思维链(Chain of Thought)成为LLM推理能力提升的重要方法。DeepSeek-R1 通过 强化学习(RL) 来提升推理能力的 LLM。

本文一共提出了两个模型,DeepSeek-R1-Zero(完全基于强化学习的模型)和 DeepSeek-R1(结合监督微调(SFT)和 RL 进行优化的模型)。下面是各个模型的效果对比。


2. DeepSeek-R1-Zero:纯强化学习驱动的推理能力

2.1 训练目标

DeepSeek-R1-Zero 的核心目标是 验证 LLM 是否可以通过纯强化学习(RL)自主学习推理能力,而不依赖于监督微调(SFT)。直接对一个预训练的基础模型(DeepSeek-V3-Base)进行 RL 训练,观察其推理能力的自我演化过程。

2.2 训练流程

  1. 基础模型(Base Model)

    • 采用 DeepSeek-V3-Base 作为初始模型,它具有基本的语言理解能力,但缺乏强化的推理能力。
  2. 强化学习(RL)训练

    • 使用 GRPO(Group Relative Policy Optimization),这是一种优化后的 RL 算法,可以提高训练稳定性,避免过度依赖价值网络(Critic Model)。
    • 训练过程中,模型生成不同的推理答案,基于 准确性奖励(Accuracy Rewards) 进行强化学习优化。
  3. 奖励机制

    • 准确性奖励:如果模型的回答正确,则给予较高奖励。对于数学问题,可以使用规则验证答案的正确性。
    • 格式奖励:为了提升可读性,模型需要将推理过程包裹在 <think></think> 标签中,而最终答案则在 <answer></answer> 标签内,确保生成的内容结构化。

2.3 训练结果

为了解决这些问题,团队提出了 DeepSeek-R1,在强化学习之前增加了 冷启动(Cold Start) 过程,以提高模型的可读性和稳定性。


3. DeepSeek-R1:结合监督微调(SFT)优化强化学习

3.1 训练目标

DeepSeek-R1 的目标是在 DeepSeek-R1-Zero 的基础上,进一步提高推理能力,同时确保生成内容的可读性、稳定性和通用性

3.2 训练流程

  1. 冷启动(Cold Start)—— 先进行小规模监督微调(SFT)

    • 目的:避免 RL 训练初期的不稳定性,提高答案的可读性和格式规范。
    • 数据来源
      • 人工标注的长链式思维(CoT)推理数据。
      • DeepSeek-R1-Zero 生成的高质量回答(经过筛选和优化)。
      • 利用 few-shot 提示方法让模型生成更结构化的推理答案。
    • 数据规模:团队收集了数千条 CoT 数据,进行 SFT 训练,使模型具备基本的推理能力。
  2. 强化学习(RL)训练—— 进一步优化推理能力

    • 在 SFT 之后,对模型进行大规模 RL 训练,优化数学、编程、科学推理等能力。
    • 优化点
      • 语言一致性奖励(Language Consistency Reward):确保模型在推理过程中保持一致的语言,不混用中文和英文。
      • 改进奖励模型:结合准确性和可读性,构建更精细的 RL 反馈信号。
  3. 拒绝采样(Rejection Sampling)+ 监督微调(SFT)

    • 在 RL 训练后,收集模型生成的高质量数据,并用作新的 SFT 训练集,进一步优化回答的质量。
    • 训练集最终包含约 80 万条数据,涵盖数学、编程、逻辑推理及其他任务。
  4. 全场景强化学习(RL for all Scenarios)

    • 进一步对模型进行强化训练,使其在推理之外的任务(如写作、知识问答、代码生成等)上表现更优。

3.3 训练结果


4. 结论

DeepSeek-R1 证明了 强化学习(RL) 在提升大语言模型推理能力方面的潜力。通过两阶段训练(纯 RL 训练的 R1-Zero 和结合 SFT 及 RL 训练的 R1),团队探索了一种无需大量人工标注数据的方法,让模型自主学习复杂推理能力。

  1. 强化学习可以显著提升推理能力,即使没有 SFT 训练,DeepSeek-R1-Zero 也能通过 RL 学会自我推理。
  2. 冷启动 + SFT 结合 RL 是更优的方案,能兼顾推理能力与可读性,使模型更加实用。
  3. 最终模型 DeepSeek-R1 已达到最先进水平,在数学、编程等推理任务上表现优异,接近 OpenAI-o1-1217。

未来,强化学习可能会被更多地应用到 LLM 的训练中,进一步提高模型的推理能力,使其在数学、代码生成、逻辑推理等任务上更加可靠。DeepSeek-R1 的成功,也为未来 LLM 训练提供了新的思路。

4月 06, 2025
3月 10, 2025
12月 31, 2024
11月 25, 2024