分类: 强化学习 | Roger-Lv's space

分类 - 强化学习

2025

RL for LLM 高质量文章汇总

2025-12-24

RL for LLM 高质量文章汇总

verl框架学习

2025-12-10

verl框架学习

LIMR解读

2025-09-01

Pass@k作为reward可以有效平衡探索与利用

2025-09-01

Pass@k作为reward可以有效平衡探索与利用

揭秘RLVR的真相:强化学习真的能提升大语言模型的推理能力吗？

2025-09-01

揭秘RLVR的真相:强化学习真的能提升大语言模型的推理能力吗？

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models’ Reasoning Abilities

2025-08-20

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models’ Reasoning Abilities

基于 Ray 的分离式架构:veRL、OpenRLHF 工程设计

2025-08-13

基于 Ray 的分离式架构:veRL、OpenRLHF 工程设计

TD lamda和GAE

2025-08-13

异步RL框架AReaL

2025-08-13

异步RL框架AReaL

2024

RLHF

2024-09-11

数据加载中