DeepResearch多智能体方案
发表于|更新于|智能体
|浏览量:
DeepResearch多智能体方案
https://zhuanlan.zhihu.com/p/1983233424220263981
深度研究系统的运作就像一家专业的咨询公司:编排器(Lead Agent)是项目经理,负责制定战略;专业化的子智能体(Sub-Agents)是各领域的专家研究员,并行地收集和验证事实;而合成器/引文智能体(Synthesizer/Citations Agent)是编辑和校对人员,负责将分散的材料编织成一份权威且可信的最终报告。
通义dr的解读:https://zhuanlan.zhihu.com/p/1953262318352863784
关键在于训练一个专门的模型,为DR而生。
文章作者: Roger-Lv
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Roger-Lv's space!
相关推荐
2025-12-15
多智能体系统工作前沿汇总
多智能体系统工作前沿汇总 https://zhuanlan.zhihu.com/p/1950212759796049358 AgentDropout:Dynamic Agent Elimination for Token-Efficient, High-Performance Collaboration(ACL 2025) 这篇论文提出在多轮对话与推理过程中动态“淘汰”冗余 agent 与通信边,从而压缩推理成本。该机制在不同任务中节省了约 20% 以上的 token 使用,同时保持甚至提升性能,并展现良好的迁移性。 链接:https://arxiv.org/abs/2503.18891 。 上面这篇还挺有意思 Chain of Agents: Large Language Models Collaborating on Long-Context Tasks(2025) 这篇论文提出了 Chain-of-Agents (CoA) 框架,把长文本任务拆分给一系列顺序衔接的智能体处理,每个智能体只需关注自己的一小块内容,并通过通信单元传递关键信息,最后由管理智能体整合输出。这样既能避...

2025-08-18
Camel框架
NeurIPS 2023|AI Agents先行者CAMEL:第一个基于大模型的多智能体框架 转自:https://zhuanlan.zhihu.com/p/671093582 AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架(“骆驼”),CAMEL框架是最早基于ChatGPT的autonomous agents知名项目,目前已被顶级人工智能会议NeurIPS 2023录用。 1777dbe9073c4bcd8ab59365481bcafc.png 论文题目: CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 论文链接: https://ghli.org/camel.pdf 代码链接: https://github.com/camel-a...

2025-08-13
MCP-Zero:LLM智能体主动工具发现的新范式
MCP-Zero:LLM智能体主动工具发现的新范式 转自:https://zhuanlan.zhihu.com/p/1928760473630798292 引言 大语言模型(LLMs)在处理复杂任务时,通常需要借助外部工具来扩展其能力范围。然而,当前 LLM 智能体与工具集成的主流范式存在显著局限性:它们往往将预定义的工具模式注入到系统提示中,导致模型扮演被动选择者的角色,而非主动发现所需能力。这种方法不仅造成了巨大的上下文开销,也限制了模型的决策自主性。 为了解决这些问题,本文引入了 MCP-Zero,一个旨在恢复 LLM 智能体工具发现自主性的主动框架。MCP-Zero 的核心思想是,智能体能够主动识别自身能力差距,并按需请求特定工具,从而将自身从大规模检索器转变为真正的自主智能体。该框架通过三大核心机制运行:主动工具请求、分层语义路由和迭代能力扩展。这些机制共同作用,使得 MCP-Zero 能够在最小化上下文开销和保持高准确性的前提下,动态构建多步工具链。 图:LLM 智能体的工具选择范例比较。(a) 基于系统提示的方法将所有 MCP 工具模式注入上下文,导致提示过长,...

2025-08-21
Agentic RL
转自:https://zhuanlan.zhihu.com/p/1913905349284591240 通过蒙特卡洛树搜索、过程监督与结果监督、强化学习来提高 LLM 的推理能力,从本质上来说,都是尽可能榨取 LLM 本身的能力,区别可能在于多次尝试、反馈信号、训练方法而已,这类方法可称之为“求诸内”。而由 scaling law 可知,模型的能力是有限的,那么该如何进一步提高LLM在具体问题上的表现呢?近期的答案是,类似 RAG,Multi-Agent 系统,让 LLM 学会使用工具,毕竟人与动物的关键区别也只是“能制造并使用工具”,这种方式则是“求诸外”。那么本篇就以此为中心,重点讨论以下问题: Agentic LLM 的算法逻辑、具体方法与实际表现? RL 如何训练 Agentic LLM,其与 tool using 的 SFT 的差异在哪? Agentic RL 的工程化问题 一、Agentic RL 的算法设计 Agent 和 RL 都并非新鲜事物,而使用 RL 训练基于 LLM 的 agent 则是近期的研究的热点,那么,从算法角度来说,如何理解二者结合的动机、场...

2025-08-27
InfiGUIAgent:A Multimodal Generalist GUI Agent with Native Reasoning and Reflection
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection 2025-01-08|ZJU, DLUT, Reallm Labs, ByteDance Inc, PolyU| 15 http://arxiv.org/abs/2501.04575v1 https://huggingface.co/papers/2501.04575 https://github.com/Reallm-Labs/InfiGUIAgent 研究背景与意义 在当今数字化时代,图形用户界面(GUI)智能体的应用愈发广泛,成为自动化任务的重要工具。现有的多模态大语言模型(MLLMs)为GUI智能体的智能化提供了基础,但其在多步骤推理和对文本注释的依赖上仍存在显著局限。本研究提出的InfiGUIAgent旨在解决这些挑战,强调了原生推理能力在提升GUI交互效率中的重要性,为自动化任务的执行提供了新的可能性。 当前挑战:现有的MLLM基础的GUI智能体在处理复杂操作时,往往受限于单步推理能力,无法有效利...

2025-08-27
GUI Agent综述
GUI Agent综述 转自:https://zhuanlan.zhihu.com/p/5934506835 最近在基础模型,特别是大型语言模型(LLMs)和多模态大型语言模型(MLLMs)方面的进步,使得智能体能够执行复杂任务。通过利用(M)LLMs处理和解释图形用户界面(GUIs)的能力,这些智能体可以模拟人类交互,如点击和打字,自主执行用户指令。本调查整合了近期关于(M)LLM基础GUI智能体的研究,突出了数据、框架和应用中的关键创新。我们首先讨论代表性的数据集和基准测试。接下来,我们总结了一个统一框架,涵盖了先前研究中使用的基本组件,并附有分类。此外,我们探索了(M)LLM基础GUI智能体的商业应用。基于现有工作,我们识别了几个关键挑战,并提出了未来的研究方向。我们希望本文能激发(M)LLM基础GUI智能体领域的进一步发展。 我们翻译解读最新论文:基于基础模型的图形用户界面智能体,文末有论文信息。 1 引言 图形用户界面(GUIs)作为人类与数字设备之间的主要交互点。人们每天都在手机和网站上与GUIs互动,一个设计良好的GUI智能体可以显著提升用户体验。因此,关于GUI...
评论
公告
Welcome!

