🦌 DeerFlow - 字节跳动开源的超级智能体框架
🦌 DeerFlow - 字节跳动开源的超级智能体框架 初步简介 GitHub: https://github.com/bytedance/deer-flow 📌 一句话介绍 DeerFlow 是一个开源的 SuperAgent Harness(超级智能体框架),能够研究、编码、创作——通过沙箱、记忆、工具、技能和子代理,处理从几分钟到几小时的复杂任务。 🎯 核心定位 DeerFlow 不是一个简单的聊天机器人框架,而是一个完整的智能体运行环境: 传统 Agent DeerFlow 只有工具调用 有自己的沙箱计算机 无状态对话 长期记忆,越用越懂你 单一任务 子代理并行,复杂任务分解 需要手动组装 开箱即用,技能可扩展 🚀 主要功能 1. 技能系统 (Skills) 1234567内置技能:├── research/ # 深度研究├── report-generation/ # 报告生成├── slide-creation/ # PPT 制作├── web-page/ # 网页生成├── ...
最近遇到的一些事,抑郁杂谈
最近遇到的一些事,抑郁杂谈 很难相信,二十三岁到二十四岁这一年,我经历了这么多事情。事实上,最近一两年经历的事,已经超出了很多研究生能承受的范围。最近这段时间,一连串像电视剧一样复杂的事情反复折磨着我,我甚至几次产生过轻生的念头,每天也只能靠烟酒撑着。 大年三十那天晚上,父母睡下以后,我一个人偷偷跑出去买烟买酒。可那天情绪实在太强烈了,连酒精和尼古丁都压不住,身体反应也特别明显。我拿着酒瓶和烟盒,直接躺在了马路中间,躺了很久。没有车开过来把我碾碎,倒是冬天的寒意慢慢渗进身体,我坐起来,还是回去了。 可能有人会好奇到底发生了什么。我只能说,这事比学业和工作要严重得多,很多人可能一辈子也不会遇到这样的劫难。可不幸的是,我正在经历,而且父母也帮不上什么忙——或者说,没有任何人能帮我。 酒精让脑子有点乱,暂时写到这里吧。
OpenClaw解析
OpenClaw解析 https://zhuanlan.zhihu.com/p/2000850539936765122 记忆系统尤其关注下 https://zhuanlan.zhihu.com/p/1999989672403812713
OpenClaw记忆系统分析
OpenClaw记忆系统深度解析:构建AI代理的长期记忆能力 摘要 OpenClaw作为一个多通道AI代理平台,其核心能力之一就是为AI代理提供长期记忆功能。本文深入分析OpenClaw记忆系统的架构设计、实现原理和技术细节,涵盖从本地向量存储到外部记忆系统集成的完整技术栈。 1. 记忆系统架构概览 OpenClaw的记忆系统采用分层架构设计,主要包含以下核心组件: 1.1 核心架构图 graph TB A[记忆系统] --> B[MemoryIndexManager] B --> C[嵌入向量层] B --> D[存储引擎层] B --> E[搜索算法层] C --> C1[OpenAI嵌入] C --> C2[Gemini嵌入] C --> C3[本地模型] D --> D1[SQLite向量存储] D --> D2[FTS5全文检索] D --> D3[文件系统索引] E --> E1[混合搜索算法] E --> E2[相关性排序] E --...
AI Infra相关
AI Infra相关 K8S 异构容错 会有一些挑战: 大规模分布式训练任务为了适应国产芯片需要更大规模 原因在于国产卡的算力比不上N卡,自然需要更大规模 大模型分布式训练任务频繁中断 目前几乎所有的大模型训练方式都是同步训练(DDP/MPI),训练的进程共同使用一个通信拓扑,当某一个进程发生错误时,其他进程也会相继退出 异构芯片及服务器集群的故障率与集群规模成正比,且随着集群规模的扩大训练任务的中断次数成倍增加 BLOOM 176B的训练, 在大约400个GPU的新集群上,平均每周都会遇到1-2个GPU故障。 字节的大规模训练也呈现相应的特征。[from MegaScale] 大模型分布式训练任务出错原因难排查 net ib? socket timeout gpu ecc error 这些问题靠重新调度是无法解决的,需要准确定位到节点出错的位置,这需要花费数小时甚至数天的时间(可观测性建设) 日益凸显。 为了解决这些痛点,Kubernetes 推出了 Dynamic Resource Allocation (DRA)。该特性在 v1.34 版本中已正式进入 GA(General Availability) 阶段,标志着 K8s 进入了异构资源管理的 2.0 时代。 一、 为什么需要 DRA?(痛点分析) 在 DRA 出现之前,Device Plugin 是管理硬件的主力,但它有三个致命伤: 静态分配:资源请求只能是整数(如 nvidia.com/gpu: 1),难以实现 GPU 分片或复杂的组合请求。 网络与存储隔离:硬件驱动无法深度参与调度决策,导致调度器可能把 Pod 调度到一个虽然有 GPU 但网络带宽不足的节点上。 API...
万亿参数大模型训练的网络架构革新:Rail-only 旋转星云式拓扑深度解读
万亿参数大模型训练的网络架构革新:Rail-only 旋转星云式拓扑深度解读 随着生成式人工智能(GenAI)的爆发,大型语言模型(LLM)的参数规模已从百亿量级迅速跨越至万亿量级 1。2020 年发布的 GPT-3 模型需要 NVIDIA V100 GPU 运行 355 个 GPU 年才能完成训练,而当前的 GPT-4 等模型估计拥有超过一万亿个参数,训练周期长达数月 1。在摩尔定律放缓的背景下,单枚加速器的算力增长速度已无法跟上模型规模及计算需求的指数级飙升,这使得超大规模 GPU 集群的部署成为必然趋势。行业领先的机器学习架构师预测,下一代 LLM 训练可能需要超过 30,000 个 GPU 的计算能力才能在合理时间内完成 1。然而,如何高效、低成本地连接这些数以万计的 GPU,已成为制约人工智能发展的关键基础设施瓶颈。 算力中心的基石:GPU 互连域的划分 在理解 Rail-only 架构之前,必须深入剖析当前超大规模 GPU 数据中心的设计范式。现代 GPU 集群通常被划分为两个截然不同的通信域:高带宽域(High-Bandwidth Domain, HBD)和网络接口...
MOE混合专家模型总结
MOE混合专家模型总结 https://zhuanlan.zhihu.com/p/721410980
Tongyi DeepResearch技术报告解读及源码分析
Tongyi DeepResearch技术报告解读及源码分析 https://github.com/Alibaba-NLP/DeepResearch https://zhuanlan.zhihu.com/p/1966914265899329009
OpenSkills深度解析:如何让Claude Code获得超能力
OpenSkills深度解析:如何让Claude Code获得超能力 引言:AI编程助手的新纪元 在AI编程助手日益普及的今天,Claude Code作为Anthropic推出的专业编程助手,其技能系统(Skills System)为用户提供了强大的扩展能力。然而,原生的技能系统存在一些限制:只能从官方市场安装、无法使用私有技能、难以跨项目共享等。 OpenSkills项目应运而生,它完美复刻了Claude Code的技能系统,同时提供了更大的灵活性和控制权。本文将深入解析OpenSkills的技术架构,并详细说明如何让Claude Code使用这个项目作为技能。 一、OpenSkills项目核心价值 1.1 什么是OpenSkills? OpenSkills是一个开源命令行工具,实现了与Claude Code 100%兼容的技能系统。它允许用户: ✅ 从任何GitHub仓库安装技能(不仅仅是官方市场) ✅ 安装本地路径或私有Git仓库的技能 ✅ 跨多个AI代理共享技能 ✅ 在项目中版本控制技能 ✅ 通过符号链接进行本地技能开发 1.2 技术架构概览 graph TB ...







