Roger-Lv's space

MEMORY-T1:REINFORCEMENT LEARNING FOR TEMPORAL REASONING IN MULTI-SESSION AGENTS

发表于2025-12-29|agent

MEMORY-T1: REINFORCEMENT LEARNING FOR TEMPORAL REASONING IN MULTI-SESSION AGENTS 这里其实就是对自己跨对话的的上下文（即对话历史）做智能过滤和选择。从历史中选出最相关的部分，丢弃无关内容。主要应对时间错乱、证据不精准的问题。输入：全部对话历史（很长很乱）处理：先按时间过滤，再按内容过滤，最后用强化学习选出最佳证据子集输出：只把精选后的上下文片段喂给模型生成答案在当代人工智能的研究范式中，大型语言模型（LLM）已逐步从单纯的文本生成工具演化为具备长期记忆与复杂规划能力的自主智能体。然而，当这些智能体被部署于现实世界中需要跨越数周、数月甚至数年的多会话（Multi-session）交互场景时，一个核心的技术瓶颈凸显出来：如何精准地理解和推理对话历史中的时间维度信息 1。现有的长文本模型虽然在处理数十万字的技术文档时表现优异，但在处理充满噪音、非结构化且具有复杂时间依赖性的多会话对话时，往往会表现出显著的性能衰退，无法准确识别时间相关的关键证据，导致回答出现逻辑冲突或事实性错误 1...

MemEvolve:Meta-Evolution of Agent Memory Systems

发表于2025-12-29|agent

MemEvolve: Meta-Evolution of Agent Memory Systems 代理记忆系统从静态架构向动态自适应的范式转变在大语言模型（LLM）驱动的智能体（Agent）研究领域，自我演化（Self-evolving）记忆系统正在以前所未有的速度重塑人工智能的进化范式。传统的智能体系统在处理复杂、长程任务时，往往依赖于静态的记忆架构。这些架构通常由研究人员根据特定任务手动设计，用于存储交互轨迹、蒸馏经验以及合成可重用的工具 1。然而，这种范式存在一个根本性的局限性：记忆系统的架构本身是静态的。尽管记忆内容可以随时间积累，但底层的记忆机制（包括编码、存储、检索和管理）无法根据多样化的任务上下文进行元自适应（Meta-adaptation） 1。为了填补这一空白，MemEvolve 框架应运而生。这是一个元进化框架，旨在实现代理经验知识与其记忆架构的联合进化。通过这种方式，智能体系统不仅能积累经验，还能通过与环境的持续交互，逐步优化其“学习如何学习”的机制 1。这种转变标志着智能体从“熟练学习者”（能够提取可重用技能，但遵循固定模式）向“自适应学习者”（能够...

Function Call 的多轮对话要怎么处理？为什么它是最难的部分？

发表于2025-12-24|agent

Function Call 的多轮对话要怎么处理？为什么它是最难的部分？ https://mp.weixin.qq.com/s/HJXyiX1Di8GHuubnP8Mp8w 在 Function Call 微调中，多轮对话是核心难点。我把业务拆成多个工作流，每个工作流根据变量来决定是否需要追问参数。追问完成后，再进入工具链式调用，工具结果可能触发下一轮调用，最终在所有工具完成后统一生成结果。为了让模型真正学会流程，使用沙盒方式构建数据：根据标签选择工作流根据变量决定是否需要追问自动构造反问句用户回答由模板生成工具链由代码模拟工具返回由 mock 数据生成最后用 base 模型重写自然语言通过用户画像、query 模板、工具返回扰动、多轮追问模板等方式，为每个分支生成足够数量的数据，并保证所有分支场景都有覆盖。最终模型可以：需要追问时追问，参数齐全时调用工具，工具链顺序正确，工具为空时 fallback，并且能保持多轮对话的一致性与连贯性。

RL for LLM 高质量文章汇总

发表于2025-12-24|强化学习

RL for LLM 高质量文章汇总算法 PPO Proximal Policy Optimization Algorithms 日期：2017.08.28 从头理解PPO(Proximal Policy Optimization)：从公式到代码图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读人人都能看懂的RL-PPO理论知识 RLOO Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs 日期：2024.02.22 大模型 | PPO 和 DPO 都不是 RLHF 的理想形式一文对比4种 RLHF 算法：PPO, GRPO, RLOO, REINFORCE++ GRPO DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 日期：2024.04.27 DeepSeek的GRPO算法是什么？强化学习...

DeepAgents：基于LangChain的下一代智能代理框架

发表于2025-12-24|agent

DeepAgents：基于LangChain的下一代智能代理框架 https://docs.langchain.com/oss/python/deepagents/overview 概述 DeepAgents是一个构建在LangChain之上的高级智能代理框架，旨在提供更强大、更灵活的代理构建能力。该框架通过模块化设计，为开发者提供了文件系统操作、子代理管理、可插拔后端存储等核心功能，使得构建复杂的多步骤AI代理变得更加简单和高效。 DeepAgents构建在以下基础之上： LangGraph - 提供底层图执行和状态管理 LangChain——工具和模型集成与深度代理无缝协作 LangSmith - 可观测性、评估和部署例子：https://zhuanlan.zhihu.com/p/1979938537802597911 核心架构 DeepAgents采用分层架构设计，主要包含以下核心模块： 1. 核心入口模块（graph.py） create_deep_agent()：框架的主要入口函数，用于创建深度代理默认使用Claude Sonnet 4作为模型内置多种中间件...

Anthropic skils解读与实践

发表于2025-12-23|agent

Anthropic skils解读与实践 https://github.com/anthropics/skills 全流程周期：https://zhuanlan.zhihu.com/p/1984015383276041355 介绍二者都是扩展LLM能力的一种手段。 Agent Skills 是一种标准化的程序性知识封装格式。如果说 MCP 为智能体提供了"手"来操作工具，那么 Skills 就提供了"操作手册"或"SOP（标准作业程序）"，教导智能体如何正确使用这些工具。这种设计理念源于一个简单但深刻的洞察：连接性（Connectivity）与能力（Capability）应该分离。MCP 专注于前者，Skills 专注于后者。这种职责分离带来了清晰的架构优势： MCP 的职责：提供标准化的访问接口，让智能体能够"够得着"外部世界的数据和工具 Skills 的职责：提供领域专业知识，告诉智能体在特定场景下"如何组合使用这些工具" MCP 在使用上的不同之处在于，MCP的流程是...

LLM强化学习算法演进之路：MC->TD->Q-Learning->DQN->PG->AC->TRPO->PPO->DPO->GRPO

发表于2025-12-22|llm

LLM强化学习算法演进之路：MC->TD->Q-Learning->DQN->PG->AC->TRPO->PPO->DPO->GRPO https://zhuanlan.zhihu.com/p/20949520788：这文章很详细

pytorch学习

发表于2025-12-19|llm

pytorch学习简单例子（包含数据集加载、训练、模型保存和测试）一个基本的例子：https://zhuanlan.zhihu.com/p/508721527 加载数据 12torchvision.datasets.CIFAR10torch.utils.data.DataLoader() 训练网络 12345678910111213141516171819202122232425262728293031import torch.nn as nnimport torch.nn.functional as Fclass Net(nn.Module): def __init__(self): super(Net, self).__init__() # 第一层卷积：输入通道3（RGB图像），输出通道6，卷积核大小5×5 self.conv1 = nn.Conv2d(3, 6, 5) # 池化层：2×2最大池化，步长为2 self.pool = nn.MaxPool2d(2, 2) # 第二层卷积...

WebDancer:Towards Autonomous Information Seeking Agency

发表于2025-12-18|agent

WebDancer: Towards Autonomous Information Seeking Agency 论文标题：WebDancer: Towards Autonomous Information Seeking Agency 论文链接：https://arxiv.org/pdf/2505.22648 论文代码：https://github.com/Alibaba-NLP/DeepResearch 这篇论文介绍了一个基于ReAct范式的网络智能体——WebDancer，通义团队透过训练赋予其自主寻求信息的能力。通义团队的训练流程主要有四个步骤，构造问答对、获得高质量轨迹、监督微调和强化学习。问答对构造不同于之前的简单的2到3步就能解决的问答问题，通义团队这里主要想构造的是那些可以激发模型多步推理、目标分解、交互等能力的问答对数据，因此希望对多跳推理的广度和深度都进行扩展。为此，他们提出了两个问答对数据集——CRAWLQA和E2HQA。 CRAWLQA问答对的获取跟之前WebWalkerQA数据集的构造很类似，都是从一个根网页出发递归浏览其中链接指向的网页，基于收集的...

TongSearch-QR:Reinforced Query Reasoning for Retrieval

发表于2025-12-18|agent

TongSearch-QR: Reinforced Query Reasoning for Retrieval 这篇论文《TongSearch-QR: Reinforced Query Reasoning for Retrieval》提出了一种面向推理密集型检索（reasoning-intensive retrieval）任务的新型查询推理与重写模型家族，旨在解决传统信息检索方法在处理复杂、需要多跳推理的查询时性能不足的问题。一、问题背景传统信息检索（IR）方法（如 BM25、稠密向量检索）依赖词法匹配或语义相似度，在一般检索任务上表现良好。但在以下场景中表现不佳：用户问题隐含深层意图（如“找一个可替代函数 Funca 的函数 Funcb”）；相关文档未显式提及原问题中的关键词；需要推理链（reasoning chain）才能连接查询与文档。这类任务被称作推理密集型检索（reasoning-intensive retrieval），如 BRIGHT 基准测试所定义。二、现有方法及其局限 1. 大语言模型（LLM）提示工程使用 GPT-4、LLaMA3-...