Function Call 的多轮对话要怎么处理？为什么它是最难的部分？

发表于2025-12-24|更新于2025-12-24|agent

|浏览量:

Function Call 的多轮对话要怎么处理？为什么它是最难的部分？

https://mp.weixin.qq.com/s/HJXyiX1Di8GHuubnP8Mp8w

在 Function Call 微调中，多轮对话是核心难点。我把业务拆成多个工作流，每个工作流根据变量来决定是否需要追问参数。

追问完成后，再进入工具链式调用，工具结果可能触发下一轮调用，最终在所有工具完成后统一生成结果。

为了让模型真正学会流程，使用沙盒方式构建数据：

根据标签选择工作流
根据变量决定是否需要追问
自动构造反问句
用户回答由模板生成
工具链由代码模拟
工具返回由 mock 数据生成
最后用 base 模型重写自然语言

通过用户画像、query 模板、工具返回扰动、多轮追问模板等方式，为每个分支生成足够数量的数据，并保证所有分支场景都有覆盖。

最终模型可以：需要追问时追问，参数齐全时调用工具，工具链顺序正确，工具为空时 fallback，并且能保持多轮对话的一致性与连贯性。

文章作者: Roger-Lv

文章链接: http://example.com/2025/12/24/2025-12-24-Function-Call-%E7%9A%84%E5%A4%9A%E8%BD%AE%E5%AF%B9%E8%AF%9D%E8%A6%81%E6%80%8E%E4%B9%88%E5%A4%84%E7%90%86%EF%BC%9F%E4%B8%BA%E4%BB%80%E4%B9%88%E5%AE%83%E6%98%AF%E6%9C%80%E9%9A%BE%E7%9A%84%E9%83%A8%E5%88%86%EF%BC%9F/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Roger-Lv's space！

agent 多模态 llm

相关推荐

Agent框架集成多模态能力底层实现

Agent框架集成多模态能力底层实现该项目处理多模态RAG返回图片的完整流程：架构概述该项目采用分层架构处理多模态RAG：前端接口层：通过schema.py中的ImageContent和ImageUrl模型支持base64和HTTPS两种图片URL格式 RAG核心层：rag.py中的RagClient提供统一的向量检索接口多模态嵌入层：multi_model.py中的AliyunEmbeddings使用阿里云DashScope的多模态嵌入API 数据存储层：使用Qdrant向量数据库存储图片和文本的嵌入向量图片处理流程 1. 图片存储阶段在feishu-crawler子项目中，图片处理流程如下：图片下载：DownloadImageTransform从飞书下载图片到本地文件系统图片摘要生成：GenerateImageSummaryTransform使用VLLM模型为图片生成文字描述多模态嵌入：EmbedImageTransform调用MultiModelEmbedder生成图片+文字的联合嵌入向量向量存储：将base64编码的图片数据、文字描述和嵌入向量...

Agent八股模板1 八股：Encoder与decoder的中Attention区别？答案：https://zhuanlan.zhihu.com/p/26252050300 https://www.zhihu.com/question/588325646/answer/1981416261771604279 八股：Attention如何计算？为什么除以根号下Dk？mask attention是如何实现的？你的问题涉及 Transformer 模型中 Attention 机制的三个关键点： Attention 的计算方式为什么除以 (\sqrt{d_k}) Masked Attention 的实现方式下面逐一解释： Attention 如何计算？（以 Scaled Dot-Product Attention 为例）标准的 Scaled Dot-Product Attention 公式如下： \[ \text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V ...

TongSearch-QR:Reinforced Query Reasoning for Retrieval

TongSearch-QR: Reinforced Query Reasoning for Retrieval 这篇论文《TongSearch-QR: Reinforced Query Reasoning for Retrieval》提出了一种面向推理密集型检索（reasoning-intensive retrieval）任务的新型查询推理与重写模型家族，旨在解决传统信息检索方法在处理复杂、需要多跳推理的查询时性能不足的问题。一、问题背景传统信息检索（IR）方法（如 BM25、稠密向量检索）依赖词法匹配或语义相似度，在一般检索任务上表现良好。但在以下场景中表现不佳：用户问题隐含深层意图（如“找一个可替代函数 Funca 的函数 Funcb”）；相关文档未显式提及原问题中的关键词；需要推理链（reasoning chain）才能连接查询与文档。这类任务被称作推理密集型检索（reasoning-intensive retrieval），如 BRIGHT 基准测试所定义。二、现有方法及其局限 1. 大语言模型（LLM）提示工程使用 GPT-4、LLaMA3-...

DeepAgents：基于LangChain的下一代智能代理框架

DeepAgents：基于LangChain的下一代智能代理框架 https://docs.langchain.com/oss/python/deepagents/overview 概述 DeepAgents是一个构建在LangChain之上的高级智能代理框架，旨在提供更强大、更灵活的代理构建能力。该框架通过模块化设计，为开发者提供了文件系统操作、子代理管理、可插拔后端存储等核心功能，使得构建复杂的多步骤AI代理变得更加简单和高效。 DeepAgents构建在以下基础之上： LangGraph - 提供底层图执行和状态管理 LangChain——工具和模型集成与深度代理无缝协作 LangSmith - 可观测性、评估和部署例子：https://zhuanlan.zhihu.com/p/1979938537802597911 核心架构 DeepAgents采用分层架构设计，主要包含以下核心模块： 1. 核心入口模块（graph.py） create_deep_agent()：框架的主要入口函数，用于创建深度代理默认使用Claude Sonnet 4作为模型内置多种中间件...

WebDancer:Towards Autonomous Information Seeking Agency

WebDancer: Towards Autonomous Information Seeking Agency 论文标题：WebDancer: Towards Autonomous Information Seeking Agency 论文链接：https://arxiv.org/pdf/2505.22648 论文代码：https://github.com/Alibaba-NLP/DeepResearch 这篇论文介绍了一个基于ReAct范式的网络智能体——WebDancer，通义团队透过训练赋予其自主寻求信息的能力。通义团队的训练流程主要有四个步骤，构造问答对、获得高质量轨迹、监督微调和强化学习。问答对构造不同于之前的简单的2到3步就能解决的问答问题，通义团队这里主要想构造的是那些可以激发模型多步推理、目标分解、交互等能力的问答对数据，因此希望对多跳推理的广度和深度都进行扩展。为此，他们提出了两个问答对数据集——CRAWLQA和E2HQA。 CRAWLQA问答对的获取跟之前WebWalkerQA数据集的构造很类似，都是从一个根网页出发递归浏览其中链接指向的网页，基于收集的...

Anthropic skils解读与实践

Anthropic skils解读与实践 https://github.com/anthropics/skills 全流程周期：https://zhuanlan.zhihu.com/p/1984015383276041355 介绍二者都是扩展LLM能力的一种手段。 Agent Skills 是一种标准化的程序性知识封装格式。如果说 MCP 为智能体提供了"手"来操作工具，那么 Skills 就提供了"操作手册"或"SOP（标准作业程序）"，教导智能体如何正确使用这些工具。这种设计理念源于一个简单但深刻的洞察：连接性（Connectivity）与能力（Capability）应该分离。MCP 专注于前者，Skills 专注于后者。这种职责分离带来了清晰的架构优势： MCP 的职责：提供标准化的访问接口，让智能体能够"够得着"外部世界的数据和工具 Skills 的职责：提供领域专业知识，告诉智能体在特定场景下"如何组合使用这些工具" MCP 在使用上的不同之处在于，MCP的流程是...

评论

数据加载中