Pass@k作为reward可以有效平衡探索与利用
UI-R1:通过强化学习增强GUI代理的动作预测能力
Web Agent综述
揭秘RLVR的真相:强化学习真的能提升大语言模型的推理能力吗?
大模型混合并行DP/TP/PP,如何划分机器?
InfiGUIAgent:A Multimodal Generalist GUI Agent with Native Reasoning and Reflection
GUI Agent综述
Mobile-Agent-v3:Foundamental Agents for GUI Automation
现有GUI Agent的训练数据、训练方法及实例分析
UFO:A UI-Focused Agent for Windows OS Interaction