Roger-Lv's space

发表于2025-09-01|Agent

WebAgents综述：大模型赋能AI Agent，实现下一代Web自动化 https://finance.sina.cn/tech/csj/2025-08-08/detail-infkhmtz1833863.d.html?vt=4&cid=206650&node_id=206650 这篇文章是香港理工大学研究人员发表的首篇关于WebAgents的系统性综述，全面梳理了基于大模型的Web自动化智能体研究进展。核心内容背景与意义互联网已深度重塑生活，但网络活动存在大量重复低效的"数字苦力"（如反复填写个人信息、手动比对商品参数） WebAgents能够根据用户自然语言指令自动完成复杂Web任务，实现网络活动的自动化与智能化例如ChatGPT Agent能独立规划执行任务，无需用户持续监督 WebAgents架构文章将WebAgents工作流程分为三个关键环节：感知：观察环境基于文本（利用HTML等）基于视觉（利用截图）多模态（结合文本与视觉信息）规划与推理：分析环境并决策任务规划（显式/隐式分解任务）动作...

揭秘RLVR的真相:强化学习真的能提升大语言模型的推理能力吗？

发表于2025-09-01|强化学习

揭秘RLVR的真相：强化学习真的能提升大语言模型的推理能力吗？近年来，大型语言模型（LLM）在数学和编程任务中的推理能力取得了显著突破，而**基于可验证奖励的强化学习（RLVR：Reinforcement Learning with Verifiable Rewards）**被认为是这一进步的核心驱动力。RLVR通过自动计算奖励（如数学答案的正确性或代码的单元测试通过率），绕过了传统依赖人工标注的监督学习方法，被认为能够激励模型自我进化，甚至超越基础模型的推理能力边界。然而，这篇由清华大学LeapLab团队领衔的研究却提出了一个颠覆性的问题：**RLVR真的能让模型学会全新的推理能力吗？还是仅仅在优化已有能力的采样效率？**通过大规模的实验和分析，研究团队发现，RLVR并未真正扩展模型的推理边界，反而可能限制其探索潜力。这一发现不仅挑战了当前对RLVR的主流认知，也为未来LLM的训练范式提供了新的思考方向。论文地址：Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond...

大模型混合并行DP/TP/PP，如何划分机器？

发表于2025-08-29|MLSys

大模型混合并行DP/TP/PP，如何划分机器？ 1 DP/TP/PP的通信量比较在大规模深度学习模型的训练过程中，为了加速训练和减少单个计算节点的压力，通常会使用分布式训练技术。分布式训练涉及到几种并行策略，其中最常提到的是数据并行（Data Parallelism, DP）、模型并行（Model Parallelism, MP）和流水线并行（Pipeline Parallelism, PP）。另外，模型并行中还有一种称为张量并行（Tensor Parallelism, TP）的方式，它是指将模型的张量（如权重矩阵）分割到不同的设备上进行计算。数据并行（DP）：解决计算墙的问题。每个设备上都会有一个模型的完整副本，每个设备独立地处理一部分数据集，然后将各自的梯度汇总起来（通常是通过AllReduce操作）。因此，DP的通信主要发生在训练的每个epoch结束时，各个设备之间需要交换梯度信息。这种通信通常量较大，因为它涉及到模型所有参数的同步。张量并行（TP）：解决内存墙的问题。模型的权重矩阵被分割成多个部分，每个部分由不同的设备负责计算。TP的通信主要发生在前向和后向传播过...

InfiGUIAgent:A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

发表于2025-08-27|Agent

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection 2025-01-08｜ZJU, DLUT, Reallm Labs, ByteDance Inc, PolyU| 15 http://arxiv.org/abs/2501.04575v1 https://huggingface.co/papers/2501.04575 https://github.com/Reallm-Labs/InfiGUIAgent 研究背景与意义在当今数字化时代，图形用户界面（GUI）智能体的应用愈发广泛，成为自动化任务的重要工具。现有的多模态大语言模型（MLLMs）为GUI智能体的智能化提供了基础，但其在多步骤推理和对文本注释的依赖上仍存在显著局限。本研究提出的InfiGUIAgent旨在解决这些挑战，强调了原生推理能力在提升GUI交互效率中的重要性，为自动化任务的执行提供了新的可能性。当前挑战：现有的MLLM基础的GUI智能体在处理复杂操作时，往往受限于单步推理能力，无法有效利...

GUI Agent综述

发表于2025-08-27|Agent

GUI Agent综述转自：https://zhuanlan.zhihu.com/p/5934506835 最近在基础模型，特别是大型语言模型（LLMs）和多模态大型语言模型（MLLMs）方面的进步，使得智能体能够执行复杂任务。通过利用（M）LLMs处理和解释图形用户界面（GUIs）的能力，这些智能体可以模拟人类交互，如点击和打字，自主执行用户指令。本调查整合了近期关于（M）LLM基础GUI智能体的研究，突出了数据、框架和应用中的关键创新。我们首先讨论代表性的数据集和基准测试。接下来，我们总结了一个统一框架，涵盖了先前研究中使用的基本组件，并附有分类。此外，我们探索了（M）LLM基础GUI智能体的商业应用。基于现有工作，我们识别了几个关键挑战，并提出了未来的研究方向。我们希望本文能激发（M）LLM基础GUI智能体领域的进一步发展。我们翻译解读最新论文：基于基础模型的图形用户界面智能体，文末有论文信息。 1 引言图形用户界面（GUIs）作为人类与数字设备之间的主要交互点。人们每天都在手机和网站上与GUIs互动，一个设计良好的GUI智能体可以显著提升用户体验。因此，关于GUI...

Mobile-Agent-v3:Foundamental Agents for GUI Automation

发表于2025-08-27|Agent

Mobile-Agent-v3: Foundamental Agents for GUI Automation https://arxiv.org/pdf/2508.15144 以下是对论文《Mobile-Agent-v3: Foundational Agents for GUI Automation》的精读报告，重点关注其实现方式与创新点。一、研究概述 1.1 研究背景与目标背景：GUI（图形用户界面）智能代理旨在自动化跨设备（PC、移动端、Web）的用户任务，提升人机交互效率。问题：现有方法要么依赖闭源模型（泛化差），要么是端到端模型（指令遵循差、多代理兼容性弱）。目标：提出一个开源、端到端、多模态基础模型（GUI-Owl），并在此基础上构建一个多代理协作框架（Mobile-Agent-v3），实现高效、可扩展的GUI自动化。二、核心贡献与创新点 2.1 GUI-Owl：统一的多模态基础模型基础架构：基于 Qwen2.5-VL，通过大规模GUI交互数据后训练，统一了感知、推理、规划、决策与 grounding 能力。端到端交互：将GUI交互建模为多步决...

现有GUI Agent的训练数据、训练方法及实例分析

发表于2025-08-27|Agent

现有GUI Agent的训练数据、训练方法及实例分析一、主要训练数据来源 1. 公开可用数据集 CogAgent的预训练数据全部来源于公开可用的数据集，包括文本识别、视觉定位(visual grounding)等多方面数据。https://openaccess.thecvf.com/content/CVPR2024/papers/Hong_CogAgent_A_Visual_Language_Model_for_GUI_Agents_CVPR_2024_paper.pdf 具体数据包括：(1)文本识别数据，用于处理GUI中的文字内容；(2)视觉定位数据，帮助模型理解界面元素的位置和关系。 CogAgent的训练策略综合了多种数据源，专门针对GUI特有的挑战进行了优化设计。 2. 用户交互轨迹数据 MobileA3gent框架使用从用户日常手机交互中自动收集的数据来训练移动代理，采用去中心化的自源数据收集方法。https://arxiv.org/html/2502.02982v2 Mobile-Agent-v3的训练数据直接来源于高质量离线交互轨迹中的各个步骤，通过分析用户...

UFO:A UI-Focused Agent for Windows OS Interaction

发表于2025-08-27|Agent

UFO: A UI-Focused Agent for Windows OS Interaction 转自：https://zhuanlan.zhihu.com/p/685614612 [2402.07939] UFO: A UI-Focused Agent for Windows OS Interaction (arxiv.org) Introduction 大型语言模型（LLMs）的出现展现了在解决类似人类推理、计划和协作的复杂问题上的革命性潜力。这一发展将人类更接近于实现人工通用智能（AGI）的目标，在我们日常生活中的各种任务中提供帮助，并展现了一种之前被认为具有挑战性的强大和全面的能力水平。向更复杂的多模态视觉LLMs发展，以GPT-Vision为例，为LLMs引入了视觉维度，扩展了它们的能力以包括广泛的视觉任务，并拓宽了它们应对需要视觉能力的挑战的范围。视觉大型语言模型（VLM）的应用不断涌现并蓬勃发展。一个值得注意的应用是使用VLMs与软件应用的用户界面（UI）或图形用户界面（GUI）互动，以自然语言表达的用户请求，并将其落实到物理设备中。虽然GUI主要是为了让人...

Megatron & Swift监督微调Qwen3-8B

发表于2025-08-27|SFT

Megatron & Swift监督微调Qwen3-8B 因为纯Megatron的example中没有对于Qwen的支持，且在社区中没有找到对应封装好的实现。这里Swift已经封装好了对于微调/预训练/强化学习/多种模型/dataloader的各种支持，同时也包含训练结果的图像绘制，可以自主选择Megatron的后端路径（如果要进行修改，就对开源的core_r0.13.0分支的代码进行修改就行，运行时指定该路径）。平台是选用的无问芯穹的开发机进行实验注：也可以用llama-factory去做，后续可以试一试参考 Megatron-SWIFT训练：https://swift.readthedocs.io/zh-cn/latest/Instruction/Megatron-SWIFT%E8%AE%AD%E7%BB%83.html 千问3最佳实践：https://swift.readthedocs.io/zh-cn/latest/BestPractices/Qwen3最佳实践.html#megatron-swift 注意参数：https://swift.readthedo...

一行代码，解锁SFT泛化能力:深度解读DFT如何完胜传统微调

发表于2025-08-21|LLM

一行代码，解锁SFT泛化能力：深度解读DFT如何完胜传统微调转自：https://mp.weixin.qq.com/s/XXGxRk-p5LahtqdYNnbKaA 在大型语言模型 (LLM) 的世界里，如何让模型更好地理解并遵循人类的指令，即所谓的“对齐”，始终是核心议题。目前，主流的技术路线分为两条：监督微调（Supervised Fine-Tuning, SFT）和基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）。 SFT 简单直接，就像教一个学生做题，直接给他看大量的“问题-标准答案”对，让他去模仿。这种方法易于实现，能让模型快速学会特定任务的“套路”。然而，它的弊病也十分明显——模型容易“死记硬背”，学到的知识很“脆”，泛化能力差，遇到没见过的题型就可能“翻车”。相比之下，RLHF 更像是请一位教练来指导学生。它不直接给出答案，而是对模型的不同回答给出评分（奖励），让模型在不断的尝试和反馈中，自己探索出更好的策略。但它的问题在于，训练过程极其复杂，需要耗费大量的计算资源，对超参数敏感，且依...