Roger-Lv's space

发表于2025-08-27|Agent

现有GUI Agent的训练数据、训练方法及实例分析一、主要训练数据来源 1. 公开可用数据集 CogAgent的预训练数据全部来源于公开可用的数据集，包括文本识别、视觉定位(visual grounding)等多方面数据。https://openaccess.thecvf.com/content/CVPR2024/papers/Hong_CogAgent_A_Visual_Language_Model_for_GUI_Agents_CVPR_2024_paper.pdf 具体数据包括：(1)文本识别数据，用于处理GUI中的文字内容；(2)视觉定位数据，帮助模型理解界面元素的位置和关系。 CogAgent的训练策略综合了多种数据源，专门针对GUI特有的挑战进行了优化设计。 2. 用户交互轨迹数据 MobileA3gent框架使用从用户日常手机交互中自动收集的数据来训练移动代理，采用去中心化的自源数据收集方法。https://arxiv.org/html/2502.02982v2 Mobile-Agent-v3的训练数据直接来源于高质量离线交互轨迹中的各个步骤，通过分析用户...

UFO:A UI-Focused Agent for Windows OS Interaction

发表于2025-08-27|Agent

UFO: A UI-Focused Agent for Windows OS Interaction 转自：https://zhuanlan.zhihu.com/p/685614612 [2402.07939] UFO: A UI-Focused Agent for Windows OS Interaction (arxiv.org) Introduction 大型语言模型（LLMs）的出现展现了在解决类似人类推理、计划和协作的复杂问题上的革命性潜力。这一发展将人类更接近于实现人工通用智能（AGI）的目标，在我们日常生活中的各种任务中提供帮助，并展现了一种之前被认为具有挑战性的强大和全面的能力水平。向更复杂的多模态视觉LLMs发展，以GPT-Vision为例，为LLMs引入了视觉维度，扩展了它们的能力以包括广泛的视觉任务，并拓宽了它们应对需要视觉能力的挑战的范围。视觉大型语言模型（VLM）的应用不断涌现并蓬勃发展。一个值得注意的应用是使用VLMs与软件应用的用户界面（UI）或图形用户界面（GUI）互动，以自然语言表达的用户请求，并将其落实到物理设备中。虽然GUI主要是为了让人...

Megatron & Swift监督微调Qwen3-8B

发表于2025-08-27|SFT

Megatron & Swift监督微调Qwen3-8B 因为纯Megatron的example中没有对于Qwen的支持，且在社区中没有找到对应封装好的实现。这里Swift已经封装好了对于微调/预训练/强化学习/多种模型/dataloader的各种支持，同时也包含训练结果的图像绘制，可以自主选择Megatron的后端路径（如果要进行修改，就对开源的core_r0.13.0分支的代码进行修改就行，运行时指定该路径）。平台是选用的无问芯穹的开发机进行实验注：也可以用llama-factory去做，后续可以试一试参考 Megatron-SWIFT训练：https://swift.readthedocs.io/zh-cn/latest/Instruction/Megatron-SWIFT%E8%AE%AD%E7%BB%83.html 千问3最佳实践：https://swift.readthedocs.io/zh-cn/latest/BestPractices/Qwen3最佳实践.html#megatron-swift 注意参数：https://swift.readthedo...

一行代码，解锁SFT泛化能力:深度解读DFT如何完胜传统微调

发表于2025-08-21|LLM

一行代码，解锁SFT泛化能力：深度解读DFT如何完胜传统微调转自：https://mp.weixin.qq.com/s/XXGxRk-p5LahtqdYNnbKaA 在大型语言模型 (LLM) 的世界里，如何让模型更好地理解并遵循人类的指令，即所谓的“对齐”，始终是核心议题。目前，主流的技术路线分为两条：监督微调（Supervised Fine-Tuning, SFT）和基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）。 SFT 简单直接，就像教一个学生做题，直接给他看大量的“问题-标准答案”对，让他去模仿。这种方法易于实现，能让模型快速学会特定任务的“套路”。然而，它的弊病也十分明显——模型容易“死记硬背”，学到的知识很“脆”，泛化能力差，遇到没见过的题型就可能“翻车”。相比之下，RLHF 更像是请一位教练来指导学生。它不直接给出答案，而是对模型的不同回答给出评分（奖励），让模型在不断的尝试和反馈中，自己探索出更好的策略。但它的问题在于，训练过程极其复杂，需要耗费大量的计算资源，对超参数敏感，且依...

SFT专攻Pass@k，RL强化Pass@1?

发表于2025-08-21|LLM

深挖RLVR探索机制：SFT专攻Pass@k，RL强化Pass@1 转自：https://mp.weixin.qq.com/s/QSi580SJ2RFewyFirAe65A 先前的工作已经证明了 RLVR 在实践中的成功，但其背后的根本机制，特别是模型在训练过程中的探索行为，仍有待深入研究。来自中国人民大学高瓴人工智能学院的研究者们发表了一篇题为《From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR》的技术报告，系统性地研究了RLVR 中的探索机制。论文题目：From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR 论文链接：https://arxiv.org/pdf/2508.07534 这篇报告结合了详尽的文献回顾和创新的实证分析，围绕探索空间塑造、熵与性能的相互作用以及强化学习性能优化这三个维度...

Agentic RL

发表于2025-08-21|Agent

转自：https://zhuanlan.zhihu.com/p/1913905349284591240 通过蒙特卡洛树搜索、过程监督与结果监督、强化学习来提高 LLM 的推理能力，从本质上来说，都是尽可能榨取 LLM 本身的能力，区别可能在于多次尝试、反馈信号、训练方法而已，这类方法可称之为“求诸内”。而由 scaling law 可知，模型的能力是有限的，那么该如何进一步提高LLM在具体问题上的表现呢？近期的答案是，类似 RAG，Multi-Agent 系统，让 LLM 学会使用工具，毕竟人与动物的关键区别也只是“能制造并使用工具”，这种方式则是“求诸外”。那么本篇就以此为中心，重点讨论以下问题： Agentic LLM 的算法逻辑、具体方法与实际表现？ RL 如何训练 Agentic LLM，其与 tool using 的 SFT 的差异在哪？ Agentic RL 的工程化问题一、Agentic RL 的算法设计 Agent 和 RL 都并非新鲜事物，而使用 RL 训练基于 LLM 的 agent 则是近期的研究的热点，那么，从算法角度来说，如何理解二者结合的动机、场...

使用 Flowise 构建基于私有知识库的智能客服 Agent(图文教程)

发表于2025-08-21|Flowise

使用 Flowise 构建基于私有知识库的智能客服 Agent（图文教程） https://blog.csdn.net/hejiahao_/article/details/147902607?fromshare=blogdetail&sharetype=blogdetail&sharerId=147902607&sharerefer=PC&sharesource=a1150568956&sharefrom=from_link

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models’ Reasoning Abilities

发表于2025-08-20|强化学习

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models’ Reasoning Abilities 论文链接：https://arxiv.org/pdf/2507.19766 转自：https://zhuanlan.zhihu.com/p/1932380821412638989 得益于Test-time Scaling的成功，大模型的推理能力取得了突破性的进展。为了探索Test-time Scaling的上限，我们尝试通过强化学习来扩展模型输出长度，以提升模型的推理能力。然而，强化学习在处理超长输出时面临两个问题：1) 由于输出长度的长尾分布问题，整体的训练效率低下；2) 超长序列的训练过程中会面临熵崩塌问题。为应对这些挑战，我们对GRPO做了一系列优化，提出了一个名为UloRL的强化学习算法。在Qwen3-30B-A3B的实验表明，通过我们的方法进行强化训练，模型在AIME-2025上由70.9提升到85.1，在BeyondAIME上由50.7提升...

Camel框架

发表于2025-08-18|Agent

NeurIPS 2023｜AI Agents先行者CAMEL:第一个基于大模型的多智能体框架转自：https://zhuanlan.zhihu.com/p/671093582 AI Agents是当下大模型领域备受关注的话题，用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中，Agents之间会进行竞争和协作等多种形式的动态交互，进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架（“骆驼”），CAMEL框架是最早基于ChatGPT的autonomous agents知名项目，目前已被顶级人工智能会议NeurIPS 2023录用。 1777dbe9073c4bcd8ab59365481bcafc.png 论文题目： CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 论文链接： https://ghli.org/camel.pdf 代码链接： https://github.com/camel-a...

极简 Megatron-LM 模型并行切分介绍

发表于2025-08-18|AIInfra

极简 Megatron-LM 模型并行切分介绍转自：https://zhuanlan.zhihu.com/p/498422407 在大模型流行的年代，我经常需要给同事解释 Megatron-LM 是怎么做的模型并行，自己也经常记不清从头推。而现有大多数的文章都是算法向或者历史向的，信息浓度比较低。为了节省大家的时间，在这里记录一下 Megatron-LM 的切分方式。由于只考虑切分，所以本文忽略 transformer 模型中的各种 elementwise 运算和 layernorm。下文中，我们规定 b 为 batch size，s 为 sequence length，h 为 hidden size，n 为 num head，p 为切分数，用中括号表示 tensor 形状，例如 [b, s, h] 为常规的 transformer encoder 输入。这种表示方法参考了尤洋老师的 An Efficient 2D Method for Training Super-Large Deep Learning Models。 transformer encoder 结构 tran...