avatar
文章
187
标签
153
分类
52
关于笔者
主页
博文
  • 分类
  • 标签
  • 归档
友链
留言板
Roger-Lv's spaceMOE混合专家模型总结 返回首页
搜索
关于笔者
主页
博文
  • 分类
  • 标签
  • 归档
友链
留言板

MOE混合专家模型总结

发表于2026-01-04|更新于2026-01-13|moe
|浏览量:

MOE混合专家模型总结

https://zhuanlan.zhihu.com/p/721410980

文章作者: Roger-Lv
文章链接: http://example.com/2026/01/04/2026-01-04-MOE%E6%B7%B7%E5%90%88%E4%B8%93%E5%AE%B6%E6%A8%A1%E5%9E%8B%E6%80%BB%E7%BB%93/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Roger-Lv's space!
llmmoe
cover of previous post
上一篇
Tongyi DeepResearch技术报告解读及源码分析
Tongyi DeepResearch技术报告解读及源码分析 https://github.com/Alibaba-NLP/DeepResearch https://zhuanlan.zhihu.com/p/1966914265899329009
cover of next post
下一篇
OpenSkills深度解析:如何让Claude Code获得超能力
OpenSkills深度解析:如何让Claude Code获得超能力 引言:AI编程助手的新纪元 在AI编程助手日益普及的今天,Claude Code作为Anthropic推出的专业编程助手,其技能系统(Skills System)为用户提供了强大的扩展能力。然而,原生的技能系统存在一些限制:只能从官方市场安装、无法使用私有技能、难以跨项目共享等。 OpenSkills项目应运而生,它完美复刻了Claude Code的技能系统,同时提供了更大的灵活性和控制权。本文将深入解析OpenSkills的技术架构,并详细说明如何让Claude Code使用这个项目作为技能。 一、OpenSkills项目核心价值 1.1 什么是OpenSkills? OpenSkills是一个开源命令行工具,实现了与Claude Code 100%兼容的技能系统。它允许用户: ✅ 从任何GitHub仓库安装技能(不仅仅是官方市场) ✅ 安装本地路径或私有Git仓库的技能 ✅ 跨多个AI代理共享技能 ✅ 在项目中版本控制技能 ✅ 通过符号链接进行本地技能开发 1.2 技术架构概览 graph TB ...
相关推荐
2025-12-09
Agent框架集成多模态能力底层实现
Agent框架集成多模态能力底层实现 该项目处理多模态RAG返回图片的完整流程: 架构概述 该项目采用分层架构处理多模态RAG: 前端接口层:通过schema.py中的ImageContent和ImageUrl模型支持base64和HTTPS两种图片URL格式 RAG核心层:rag.py中的RagClient提供统一的向量检索接口 多模态嵌入层:multi_model.py中的AliyunEmbeddings使用阿里云DashScope的多模态嵌入API 数据存储层:使用Qdrant向量数据库存储图片和文本的嵌入向量 图片处理流程 1. 图片存储阶段 在feishu-crawler子项目中,图片处理流程如下: 图片下载:DownloadImageTransform从飞书下载图片到本地文件系统 图片摘要生成:GenerateImageSummaryTransform使用VLLM模型为图片生成文字描述 多模态嵌入:EmbedImageTransform调用MultiModelEmbedder生成图片+文字的联合嵌入向量 向量存储:将base64编码的图片数据、文字描述和嵌入向量...
2025-12-17
Agent八股
Agent八股 模板1 八股:Encoder与decoder的中Attention区别? 答案:https://zhuanlan.zhihu.com/p/26252050300 https://www.zhihu.com/question/588325646/answer/1981416261771604279 八股:Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的? 你的问题涉及 Transformer 模型中 Attention 机制的三个关键点: Attention 的计算方式 为什么除以 (\sqrt{d_k}) Masked Attention 的实现方式 下面逐一解释: Attention 如何计算?(以 Scaled Dot-Product Attention 为例) 标准的 Scaled Dot-Product Attention 公式如下: \[ \text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V ...
cover
2025-12-18
WebDancer:Towards Autonomous Information Seeking Agency
WebDancer: Towards Autonomous Information Seeking Agency 论文标题:WebDancer: Towards Autonomous Information Seeking Agency 论文链接:https://arxiv.org/pdf/2505.22648 论文代码:https://github.com/Alibaba-NLP/DeepResearch 这篇论文介绍了一个基于ReAct范式的网络智能体——WebDancer,通义团队透过训练赋予其自主寻求信息的能力。通义团队的训练流程主要有四个步骤,构造问答对、获得高质量轨迹、监督微调和强化学习。 问答对构造 不同于之前的简单的2到3步就能解决的问答问题,通义团队这里主要想构造的是那些可以激发模型多步推理、目标分解、交互等能力的问答对数据,因此希望对多跳推理的广度和深度都进行扩展。为此,他们提出了两个问答对数据集——CRAWLQA和E2HQA。 CRAWLQA问答对的获取跟之前WebWalkerQA数据集的构造很类似,都是从一个根网页出发递归浏览其中链接指向的网页,基于收集的...
cover
2025-12-18
TongSearch-QR:Reinforced Query Reasoning for Retrieval
TongSearch-QR: Reinforced Query Reasoning for Retrieval 这篇论文《TongSearch-QR: Reinforced Query Reasoning for Retrieval》提出了一种面向推理密集型检索(reasoning-intensive retrieval)任务的新型查询推理与重写模型家族,旨在解决传统信息检索方法在处理复杂、需要多跳推理的查询时性能不足的问题。 一、问题背景 传统信息检索(IR)方法(如 BM25、稠密向量检索)依赖词法匹配或语义相似度,在一般检索任务上表现良好。但在以下场景中表现不佳: 用户问题隐含深层意图(如“找一个可替代函数 Funca 的函数 Funcb”); 相关文档未显式提及原问题中的关键词; 需要推理链(reasoning chain)才能连接查询与文档。 这类任务被称作 推理密集型检索(reasoning-intensive retrieval),如 BRIGHT 基准测试所定义。 二、现有方法及其局限 1. 大语言模型(LLM)提示工程 使用 GPT-4、LLaMA3-...
cover
2025-12-19
pytorch学习
pytorch学习 简单例子(包含数据集加载、训练、模型保存和测试) 一个基本的例子:https://zhuanlan.zhihu.com/p/508721527 加载数据 12torchvision.datasets.CIFAR10torch.utils.data.DataLoader() 训练网络 12345678910111213141516171819202122232425262728293031import torch.nn as nnimport torch.nn.functional as Fclass Net(nn.Module): def __init__(self): super(Net, self).__init__() # 第一层卷积:输入通道3(RGB图像),输出通道6,卷积核大小5×5 self.conv1 = nn.Conv2d(3, 6, 5) # 池化层:2×2最大池化,步长为2 self.pool = nn.MaxPool2d(2, 2) # 第二层卷积...
cover
2025-12-23
Anthropic skils解读与实践
Anthropic skils解读与实践 https://github.com/anthropics/skills 全流程周期:https://zhuanlan.zhihu.com/p/1984015383276041355 介绍 二者都是扩展LLM能力的一种手段。 Agent Skills 是一种标准化的程序性知识封装格式。如果说 MCP 为智能体提供了"手"来操作工具,那么 Skills 就提供了"操作手册"或"SOP(标准作业程序)",教导智能体如何正确使用这些工具。 这种设计理念源于一个简单但深刻的洞察:连接性(Connectivity)与能力(Capability)应该分离。MCP 专注于前者,Skills 专注于后者。这种职责分离带来了清晰的架构优势: MCP 的职责:提供标准化的访问接口,让智能体能够"够得着"外部世界的数据和工具 Skills 的职责:提供领域专业知识,告诉智能体在特定场景下"如何组合使用这些工具" MCP 在使用上的不同之处在于,MCP的流程是...

评论
avatar
Roger-Lv
Send a flare and light the way.
文章
187
标签
153
分类
52
Follow Me
公告
Welcome!
目录
  1. 1. MOE混合专家模型总结
最新文章
AI Infra相关
AI Infra相关2026-01-20
告别 Device Plugin:深度解析 Kubernetes 下一代异构资源管理利器--DRA
告别 Device Plugin:深度解析 Kubernetes 下一代异构资源管理利器--DRA2026-01-19
万亿参数大模型训练的网络架构革新:Rail-only 旋转星云式拓扑深度解读
万亿参数大模型训练的网络架构革新:Rail-only 旋转星云式拓扑深度解读2026-01-13
MOE混合专家模型总结
MOE混合专家模型总结2026-01-04
Tongyi DeepResearch技术报告解读及源码分析
Tongyi DeepResearch技术报告解读及源码分析2026-01-04
©2024 - 2026 By Roger-Lv
搜索
数据加载中