归档 | Roger-Lv's space

全部文章 - 193

2025

Web Agent综述

2025-09-01

Web Agent综述

揭秘RLVR的真相:强化学习真的能提升大语言模型的推理能力吗？

2025-09-01

揭秘RLVR的真相:强化学习真的能提升大语言模型的推理能力吗？

大模型混合并行DP/TP/PP，如何划分机器？

2025-08-29

大模型混合并行DP/TP/PP，如何划分机器？

InfiGUIAgent:A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

2025-08-27

InfiGUIAgent:A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

GUI Agent综述

2025-08-27

GUI Agent综述

Mobile-Agent-v3:Foundamental Agents for GUI Automation

2025-08-27

Mobile-Agent-v3:Foundamental Agents for GUI Automation

现有GUI Agent的训练数据、训练方法及实例分析

2025-08-27

现有GUI Agent的训练数据、训练方法及实例分析

UFO:A UI-Focused Agent for Windows OS Interaction

2025-08-27

UFO:A UI-Focused Agent for Windows OS Interaction

Megatron & Swift监督微调Qwen3-8B

2025-08-27

Megatron & Swift监督微调Qwen3-8B

一行代码，解锁SFT泛化能力:深度解读DFT如何完胜传统微调

2025-08-21

一行代码，解锁SFT泛化能力:深度解读DFT如何完胜传统微调

数据加载中