标签: RL | Roger-Lv's space

标签 - RL

2025

RL for LLM 高质量文章汇总

2025-12-24

RL for LLM 高质量文章汇总

LLM强化学习算法演进之路：MC->TD->Q-Learning->DQN->PG->AC->TRPO->PPO->DPO->GRPO

2025-12-22

LLM强化学习算法演进之路：MC->TD->Q-Learning->DQN->PG->AC->TRPO->PPO->DPO->GRPO

GSPO & Routing Replay

2025-09-11

GSPO & Routing Replay

Routine:A Structural Planning Framework for LLM Agent System in Enterprise

2025-09-11

Routine:A Structural Planning Framework for LLM Agent System in Enterprise

Policy Gradient公式推导与举例

2025-09-06

Policy Gradient公式推导与举例

UI-R1:通过强化学习增强GUI代理的动作预测能力

2025-09-01

UI-R1:通过强化学习增强GUI代理的动作预测能力

Web Agent综述

2025-09-01

Web Agent综述

一行代码，解锁SFT泛化能力:深度解读DFT如何完胜传统微调

2025-08-21

一行代码，解锁SFT泛化能力:深度解读DFT如何完胜传统微调

SFT专攻Pass@k，RL强化Pass@1?

2025-08-21

SFT专攻Pass@k，RL强化Pass@1?

Agentic RL

2025-08-21

数据加载中