AI Infra相关
AI Infra相关 K8S 异构容错 会有一些挑战: 大规模分布式训练任务为了适应国产芯片需要更大规模 原因在于国产卡的算力比不上N卡,自然需要更大规模 大模型分布式训练任务频繁中断 目前几乎所有的大模型训练方式都是同步训练(DDP/MPI),训练的进程共同使用一个通信拓扑,当某一个进程发生错误时,其他进程也会相继退出 异构芯片及服务器集群的故障率与集群规模成正比,且随着集群规模的扩大训练任务的中断次数成倍增加 BLOOM 176B的训练, 在大约400个GPU的新集群上,平均每周都会遇到1-2个GPU故障。 字节的大规模训练也呈现相应的特征。[from MegaScale] 大模型分布式训练任务出错原因难排查 net ib? socket timeout gpu ecc error 这些问题靠重新调度是无法解决的,需要准确定位到节点出错的位置,这需要花费数小时甚至数天的时间(可观测性建设) 日益凸显。 为了解决这些痛点,Kubernetes 推出了 Dynamic Resource Allocation (DRA)。该特性在 v1.34 版本中已正式进入 GA(General Availability) 阶段,标志着 K8s 进入了异构资源管理的 2.0 时代。 一、 为什么需要 DRA?(痛点分析) 在 DRA 出现之前,Device Plugin 是管理硬件的主力,但它有三个致命伤: 静态分配:资源请求只能是整数(如 nvidia.com/gpu: 1),难以实现 GPU 分片或复杂的组合请求。 网络与存储隔离:硬件驱动无法深度参与调度决策,导致调度器可能把 Pod 调度到一个虽然有 GPU 但网络带宽不足的节点上。 API...
万亿参数大模型训练的网络架构革新:Rail-only 旋转星云式拓扑深度解读
万亿参数大模型训练的网络架构革新:Rail-only 旋转星云式拓扑深度解读 随着生成式人工智能(GenAI)的爆发,大型语言模型(LLM)的参数规模已从百亿量级迅速跨越至万亿量级 1。2020 年发布的 GPT-3 模型需要 NVIDIA V100 GPU 运行 355 个 GPU 年才能完成训练,而当前的 GPT-4 等模型估计拥有超过一万亿个参数,训练周期长达数月 1。在摩尔定律放缓的背景下,单枚加速器的算力增长速度已无法跟上模型规模及计算需求的指数级飙升,这使得超大规模 GPU 集群的部署成为必然趋势。行业领先的机器学习架构师预测,下一代 LLM 训练可能需要超过 30,000 个 GPU 的计算能力才能在合理时间内完成 1。然而,如何高效、低成本地连接这些数以万计的 GPU,已成为制约人工智能发展的关键基础设施瓶颈。 算力中心的基石:GPU 互连域的划分 在理解 Rail-only 架构之前,必须深入剖析当前超大规模 GPU 数据中心的设计范式。现代 GPU 集群通常被划分为两个截然不同的通信域:高带宽域(High-Bandwidth Domain, HBD)和网络接口...
MOE混合专家模型总结
MOE混合专家模型总结 https://zhuanlan.zhihu.com/p/721410980
Tongyi DeepResearch技术报告解读及源码分析
Tongyi DeepResearch技术报告解读及源码分析 https://github.com/Alibaba-NLP/DeepResearch https://zhuanlan.zhihu.com/p/1966914265899329009
OpenSkills深度解析:如何让Claude Code获得超能力
OpenSkills深度解析:如何让Claude Code获得超能力 引言:AI编程助手的新纪元 在AI编程助手日益普及的今天,Claude Code作为Anthropic推出的专业编程助手,其技能系统(Skills System)为用户提供了强大的扩展能力。然而,原生的技能系统存在一些限制:只能从官方市场安装、无法使用私有技能、难以跨项目共享等。 OpenSkills项目应运而生,它完美复刻了Claude Code的技能系统,同时提供了更大的灵活性和控制权。本文将深入解析OpenSkills的技术架构,并详细说明如何让Claude Code使用这个项目作为技能。 一、OpenSkills项目核心价值 1.1 什么是OpenSkills? OpenSkills是一个开源命令行工具,实现了与Claude Code 100%兼容的技能系统。它允许用户: ✅ 从任何GitHub仓库安装技能(不仅仅是官方市场) ✅ 安装本地路径或私有Git仓库的技能 ✅ 跨多个AI代理共享技能 ✅ 在项目中版本控制技能 ✅ 通过符号链接进行本地技能开发 1.2 技术架构概览 graph TB ...
Context as a Tool:Context Management for Long-Horizon SWE-Agents
Context as a Tool: Context Management for Long-Horizon SWE-Agents 在软件工程(SWE)领域,大型语言模型(LLM)驱动的自主代理正逐渐从简单的代码生成器演变为能够处理复杂、长程任务的系统性实体。然而,随着任务复杂度的提升,代理在与大规模代码库进行长达数百轮的交互时,面临着严峻的上下文管理挑战。传统的“追加式”上下文维护策略往往导致上下文爆炸、语义偏移以及推理崩溃 1。近期由 Liu 等人提出的 CAT(Context as a Tool)框架,通过将上下文维护提升为一种可调用、可规划的工具能力,为长程代理的稳定性与可扩展性提供了新的范式 1。本报告旨在深入探讨 CAT 框架的技术架构、数据生成管线、实验表现及其在 2025 年智能代理生态系统中的战略地位。 长程交互中上下文失效的根源分析 在软件工程任务中,如修复 GitHub 存储库级别的 issue,代理通常需要执行数十次甚至数百次的环境交互,包括文件读取、搜索、代码编辑和测试运行 1。大多数现有的代理架构,如 ReAct 框架,采用的是一种被动且线性的上下文增...
MEMORY-T1:REINFORCEMENT LEARNING FOR TEMPORAL REASONING IN MULTI-SESSION AGENTS
MEMORY-T1: REINFORCEMENT LEARNING FOR TEMPORAL REASONING IN MULTI-SESSION AGENTS 这里其实就是对自己跨对话的的上下文(即对话历史)做智能过滤和选择。 从历史中 选出最相关的部分,丢弃无关内容。 主要应对 时间错乱、证据不精准 的问题。 输入:全部对话历史(很长很乱) 处理:先按时间过滤,再按内容过滤,最后用强化学习选出最佳证据子集 输出:只把精选后的上下文片段喂给模型生成答案 在当代人工智能的研究范式中,大型语言模型(LLM)已逐步从单纯的文本生成工具演化为具备长期记忆与复杂规划能力的自主智能体。然而,当这些智能体被部署于现实世界中需要跨越数周、数月甚至数年的多会话(Multi-session)交互场景时,一个核心的技术瓶颈凸显出来:如何精准地理解和推理对话历史中的时间维度信息 1。现有的长文本模型虽然在处理数十万字的技术文档时表现优异,但在处理充满噪音、非结构化且具有复杂时间依赖性的多会话对话时,往往会表现出显著的性能衰退,无法准确识别时间相关的关键证据,导致回答出现逻辑冲突或事实性错误 1...
MemEvolve:Meta-Evolution of Agent Memory Systems
MemEvolve: Meta-Evolution of Agent Memory Systems 代理记忆系统从静态架构向动态自适应的范式转变 在大语言模型(LLM)驱动的智能体(Agent)研究领域,自我演化(Self-evolving)记忆系统正在以前所未有的速度重塑人工智能的进化范式。传统的智能体系统在处理复杂、长程任务时,往往依赖于静态的记忆架构。这些架构通常由研究人员根据特定任务手动设计,用于存储交互轨迹、蒸馏经验以及合成可重用的工具 1。然而,这种范式存在一个根本性的局限性:记忆系统的架构本身是静态的。尽管记忆内容可以随时间积累,但底层的记忆机制(包括编码、存储、检索和管理)无法根据多样化的任务上下文进行元自适应(Meta-adaptation) 1。 为了填补这一空白,MemEvolve 框架应运而生。这是一个元进化框架,旨在实现代理经验知识与其记忆架构的联合进化。通过这种方式,智能体系统不仅能积累经验,还能通过与环境的持续交互,逐步优化其“学习如何学习”的机制 1。这种转变标志着智能体从“熟练学习者”(能够提取可重用技能,但遵循固定模式)向“自适应学习者”(能够...
Function Call 的多轮对话要怎么处理?为什么它是最难的部分?
Function Call 的多轮对话要怎么处理?为什么它是最难的部分? https://mp.weixin.qq.com/s/HJXyiX1Di8GHuubnP8Mp8w 在 Function Call 微调中,多轮对话是核心难点。我把业务拆成多个工作流,每个工作流根据变量来决定是否需要追问参数。 追问完成后,再进入工具链式调用,工具结果可能触发下一轮调用,最终在所有工具完成后统一生成结果。 为了让模型真正学会流程,使用沙盒方式构建数据: 根据标签选择工作流 根据变量决定是否需要追问 自动构造反问句 用户回答由模板生成 工具链由代码模拟 工具返回由 mock 数据生成 最后用 base 模型重写自然语言 通过用户画像、query 模板、工具返回扰动、多轮追问模板等方式,为每个分支生成足够数量的数据,并保证所有分支场景都有覆盖。 最终模型可以:需要追问时追问,参数齐全时调用工具,工具链顺序正确,工具为空时 fallback,并且能保持多轮对话的一致性与连贯性。






