Value-Based RL中offline policy、off-policy、on-policy

如何区分强化学习中的「在线/离线」与「同策略/异策略」这两组概念？

也叫Batch RL或者Offline RL

使用条件：在实时互动与环境成本高昂或者危险的情况下使用，或者当有大量现有数据可用时（比如要train一个真实的机器人，每次尝试都可能导致机器人受损，就可以使用模拟器收集大量的行走数据）。

缺点：

那这样offline policy和监督学习的区别是？

从off-policy的data中学习，生成off-policy的data的策略可以不是当前正在学习的策略，与环境互动（从一个策略搜集的策略来学习另一个策略）
隐性要求的exploration
经验回收：用行为策略收集经验，把（st、at、rt、st+1）的四元组记录到一个数组里面，之后反复利用这些策略去更新目标策略（这个数组叫做replay buffer）。这种方法只适用于off-policy，因为收集经验时所用的策略不同于想要训练出的目标策略。

其缺点是：

采样效率：off-policy学习使用的旧数据可能会导致学习的效率降低，因为并不是所有的旧数据都对当前的策略有用
学习稳定性：由于off-poliy学习使用的数据可能来自不同policy，可能会导致训练不稳定。所以其需要额外的技巧，比如DQN，采用target network和evaluate network来探索Q value和评估Q value

其实是属于异策略的在线学习

主要Q表是离散的->状态空间过大->zhihanshujinsi

DQN将Q表->Q Network（学的是这个reward）

这里的初始样本训练样本好说，通过epsilon-greedy策略去生成就好。

两个网络

经验回放 experience policy

数据必须由当前策略

$\pi_\theta$

生成，更新公式依赖轨迹分布 dπ(s)d^\pi(s) ：

$\nabla_\theta J(\theta) = \mathbb{E}_{s \sim d^\pi, a \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) Q^\pi(s,a) \right]$

例如，机器人必须用当前“笨拙”动作采集的数据学习行走。

优劣对比：

Wasserstein距离是指一种衡量两个概率分布之间差异的方法，也称为最优传输距离或地球移动者距离。Wasserstein距离的数学定义是将一个分布“搬运”成另一个分布所需的最小成本，其中成本是基于两个分布之间样本点的移动距离来计算的。