RL for LLM 高质量文章汇总

算法

PPO

Proximal Policy Optimization Algorithms
日期:2017.08.28

从头理解PPO(Proximal Policy Optimization):从公式到代码

图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读

人人都能看懂的RL-PPO理论知识

RLOO

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
日期:2024.02.22

大模型 | PPO 和 DPO 都不是 RLHF 的理想形式

一文对比4种 RLHF 算法:PPO, GRPO, RLOO, REINFORCE++

GRPO

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
日期:2024.04.27

DeepSeek的GRPO算法是什么?

强化学习小白理解GRPO(一):Deepseek R1和Qwen QwQ的制胜秘诀

为什么GRPO很容易训飞,训到一半reward就很容易突然掉下来?

GRPO为什么会使得模型的推理变长?

ReMax

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models
日期:2024.05.27

ReMax: 一种高效,可替代PPO的RLHF算法 (ICML2024)

DAPO

DAPO: An Open-Source LLM Reinforcement Learning System at Scale
日期:2025.05.20

DAPO:字节完整开源全部复现RL细节

强化学习再梳理,从PPO到GRPO到DAPO

CISPO

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
日期:2025.06.16

CISPO的发现过程

GSPO

Group Sequence Policy Optimization
日期:2025.07.28

GSPO:Qwen3 的 RL 秘方,奖励宜粗不宜细?

REINFORCE++

REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models
日期:2025.08.03

RLHF 对齐之 REINFORCE++ 算法 - 比 GRPO 稳定比PPO快


主题

Agentic RL

综述:基于 LLM 的智能体强化学习(Agentic RL)

ARPO: 让Agent在关键时刻多探索一步!

Reasoning LLM(四):Agentic RL

训推框架

浅聊RL框架的勃勃生机、万物竞发

大模型RL训练框架的进化之路

RL Scaling 时代,我们需要什么样的 RL 框架呢?

基于 torch-memory-savor 浅析 CUDA Graph

训推差异

Your Efficient RL Framework Secretly Brings You Off-Policy RL Training

Small Leak Can Sink a Great Ship—Boost RL Training on MoE with 𝑰𝒄𝒆𝑷𝒐𝒑!

When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch

RL老训崩?训推差异是基石

小米论文提出的R3(Rollout Routing Replay)解决了大模型的什么问题?

训推优化

Partial Rollout

RollPacker

如何优化强化学习训练中的耗时大头:推理?

参数更新

参数更新是指将训练引擎(Megatron/FSDP等)的参数同步给推理引擎(vLLM/SGLang)。

Kimi K2 如何实现高效 RL 参数更新

高效强化学习训练 - 优化slime中的权重同步

slime 的训推分离参数更新

RL 系统深思:深入理解权重更新机制

跨机秒传RL模型参数更新的一些探索

NeMo-RL: Journey of Optimizing Weight Transfer in Large MoE Models by 10x

tokenize & retokenization

1.从 tokenizer 视角来分析 Agentic 多轮训练的复杂性

2.No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL


概念

重要性采样(Importance Sampling)


框架

TRL

https://github.com/huggingface/trl

OpenRLHF

https://github.com/OpenRLHF/OpenRLHF

OpenRLHF源码解读:1.理解PPO单机训练

OpenRLHF源码解读:2.PPO训练Experience数据采样过程

OpenRLHF源码解读:3.PPO模型训练过程

图解OpenRLHF中基于Ray的分布式训练流程

veRL

https://github.com/volcengine/verl

从零开始的verl框架解析

[AI Infra] VeRL 框架入门&代码带读

slime

https://github.com/THUDM/slime

slime v0.1.0: 重新定义高性能 RL 训练框架

Slime 框架深度解析:面向大规模RL的训推一体化实践

AREAL

https://github.com/inclusionAI/AReaL

如何评价开源训练框架 AReaL ?

异步RL框架AReaL速览

NVIDIA-NeMo/RL

https://github.com/NVIDIA-NeMo/RL

ROLL

https://github.com/alibaba/ROLL

EasyR1

https://github.com/hiyouga/EasyR1

Flash-RL

https://github.com/yaof20/Flash-RL


综述

A Survey of Reinforcement Learning for Large Reasoning Models

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey