Roger-Lv's space

发表于2025-06-25|人工智能

KL散度🧩 KL散度公式解析图片中的KL散度公式为：$$D_{KL}(\pi_{\theta}||\pi_{ref})=\sum_{\theta}\pi_{\theta}(y|x)\log\frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} = E_{y\sim \pi_{\theta}(y|x)}\log\frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)}$$ 🔍 关键参数解释 **π_θ 和 π_ref**（核心参数） π_θ: 当前策略模型带参数θ的神经网络（例如PPO正在训练的策略）策略的数学表示：π_θ(y|x) = 在状态x下选择动作y的概率动态更新：通过梯度下降不断优化 π_ref: 参考策略模型通常表示旧的或冻结的策略版本在PPO中，通常指上次参数更新前的策略保持固定：在每次训练迭代中不变物理意义：KL散度衡量的是当前策略(π_θ) 相对于参考策略(π_ref) 的变化程度 **(y|x)**（策略条件） x: 当前状态/观察输入例如：机 ...

TOR Leaf Spine交换机

发表于2025-06-25|计算机网络

TOR Leaf Spine交换机Spine、Leaf、ToR 交换机：数据中心网络的三层核心架构这三种交换机是现代数据中心网络架构（通常称为 Spine-Leaf 架构）的核心组件，主要用于处理东西向流量（服务器之间的流量），替代了传统的三层网络架构（接入层-汇聚层-核心层）。 1. ToR（Top-of-Rack）交换机 - 接入层位置：位于服务器机柜顶部功能：直接连接机柜内的服务器（每个ToR连接12-48台服务器）提供1G/10G/25G端口连接服务器提供40G/100G/400G上行端口连接Leaf层实现机柜内部服务器之间的数据交换特点：端口密度高部署成本低（单机柜部署）易于维护（故障仅影响单个机柜）应用场景： 12345[机柜]|-- ToR 交换机 ├── 服务器1 ├── 服务器2 └── ...（其他服务器） 2. Leaf 交换机 - 汇聚层位置：位于一组机柜的中心汇聚点功能：汇聚多个ToR交换机的流量提供跨机柜通信能力连接所有Spine交换机（全互连 ...

k8s中通过pod获取gpu使用进程到pod的映射关系

发表于2025-02-16|k8s

k8s中通过pod获取gpu使用进程到pod的映射关系背景该任务的pod为daemonset在集群的每一个节点上，controller pod（只有一个）通过grpc的方式进行调用该daemonset pod获取到该节点上gpu的使用进程到pod的映射关系，传递的参数为使用gpu的pod的id。该需求涉及到几个部分内容：如何通过pod id定位到具体的节点通过controller 的cache机制（包含有pod和node cache）获取到daemonset pod id对应的node ip，在daemonset的pod部分新建grpc server端，根据ip:port构建grpc client即可如何获取到节点上的gpu->process的映射关系调用go-nvml即可如何获取到节点上的process->container的映射关系调用taskClient container->pod的映射关系？ controller cache机制获取到对应的node，然后可以获取到该node上的pod和container，做一层映射，随着请求发送给 ...

CUDA容器化&Container runtime相关技术梳理

发表于2024-10-01|CUDA

CUDA容器化&Container runtime相关技术梳理整体结构CUDA API体系 CUDA Driver API：GPU 设备的抽象层，通过一系列 API 直接操作 GPU 设备，性能好，但编程难度高（需要显式进行device初始化以及context管理等）； CUDA Runtime API: 对 CUDA Driver API 进行一定封装，简化编程过程，降低开发难度； CUDA Libraries: 更高层的封装，包含一些成熟的高效函数库。因此要实现 NVIDIA 容器化，也就是要让应用程序可以在容器内调用 CUDA API 来操作 GPU，一般来讲，就要使容器内应用程序内可调用 CUDA Runtime API 和 CUDA Libraries，容器内可使用 CUDA Driver 相关库。 NVIDIA CONTAINER TOOLKIT 具体结构 GPU 容器底层实现 GPU 容器相关概念一些背景知识什么是运行时？什么是高级运行时（high-level runtime）和低级运行时(low-level runtime): 参考：https://blo ...

GPU容器相关概念

发表于2024-09-28|AI Infra

GPU容器相关概念CUDA API 体系：要使编写的 GPU 程序能够正常运行，需要借助 CUDA 直接使用 NVIDIA 的 GPU 来执行通用计算任务，从而使 GPU 能够从图形渲染设备转变为一个通用并行处理器，CUDA API 体系结构图如下： CUDA Driver API：GPU 设备的抽象层，通过一系列 API 直接操作 GPU 设备，性能好，但编程难度高（需要显式进行device初始化以及context管理等）。 CUDA Runtime API: 对 CUDA Driver API 进行一定封装，简化编程过程，降低开发难度。 CUDA Libraries: 更高层的封装，包含一些成熟的高效函数库。因此要实现 CUDA 容器化，就要让应用程序可以在容器内调用 CUDA API 来操作 GPU，一般来讲，就要使容器内程序可调用 CUDA Runtime API 和 CUDA Libraries，容器内可使用 CUDA Driver 相关库。 CUDA 容器化基本思路要将 GPU 设备挂载到容器中，NVIDIA Docker 是通过注入一个 prestart 的 ho ...

GPU 容器底层实现

发表于2024-09-28|AI Infra

GPU 容器底层实现容器使⽤ GPU – 问题提出在容器环境中使⽤ GPU 是⼀件有趣的事情，以 NVIDIA GPU 为例，常⻅的⼀个使⽤ CUDA 的应⽤程序，其结构图如下： CUDA Driver API：GPU 设备的抽象层，通过⼀系列 API 直接操作 GPU 设备，性能好，但编程难度⾼（需要显式进⾏device初始化以及context管理等） CUDA Runtime API: 对 CUDA Driver API 进⾏⼀定封装，简化编程过程，降低开发难度； CUDA Libraries: 更⾼层的封装，包含⼀些成熟的⾼效函数库。因此要实现 NVIDIA 容器化，也就是要让应⽤程序可以在容器内调⽤ CUDA API 来操作 GPU，⼀般来讲，就要使容器内应⽤程序内可调⽤ CUDA Runtime API 和 CUDA Libraries，容器内可使⽤ CUDA Driver 相关库。 NVIDIA CONTAINER TOOLKIT 具体结构曾经 NVIDIA Docker 通过 docker 的 volume ⽅法将 CUDA Driver 挂载到容器⾥，应⽤ ...

NVIDIA device plugin for Kubernetes原理分析

发表于2024-09-28|AI Infra

NVIDIA device plugin for Kubernetes原理分析什么是 Device Plugin K8s 原生并没有支持第三方设备厂商的物理设备资源，因此 Device Plugins 给第三方设备厂商提供了相关接口，可以让他们的物理设备资源以 Extended Resources 提供给底层的容器。当 device plugin 功能启动后，可以令 kubelet 开放 Register 的 gRPC 服务，device plugin 就可以通过这个服务向 kubelet 进行注册，注册成功后 device plugin 就进入了 Serving 模式，提供前面提到的 gRPC 接口调用服务，kubelet 也就可以通过调用 Listandwatch、Allocate 等方法对设备进行操作，可以用下图来描述单一节点上这一过程：下面以 NVIDIA k8s-device-plugin 为例简单讲讲这一过程。注册服务先看 gRPC 注册部分，下面的函数用于启动一个 gRPC 服务器并在 kubelet 中注册 123456789101112131415161718 ...

一种基于经验的动态资源调度：StraightLine:An End-to-End Resource-Aware Scheduler for Machine Learning Application Requests

发表于2024-09-24|AI Infra

StraightLine: An End-to-End Resource-Aware Scheduler for Machine Learning Application Requests 摘要：提出了一个端到端的资源感知调度器，用于在混合基础设施中调度机器学习应用请求的最优资源。关键词：机器学习部署、异构资源、资源放置、容器化、无服务器计算。主要内容： ML应用的生命周期包括模型开发和模型部署两个阶段。传统ML系统通常只关注生命周期中的一个特定阶段或阶段。 StraightLine通过一个基于经验的动态放置算法，根据请求的独特特征（如请求频率、输入数据大小和数据分布）智能地放置请求。包括三个层次：模型开发抽象、多种实现部署、实时资源调度。模型容器化：使用NVIDIA-Docker实现模型开发的容器化。为模型训练构建了强大的NVIDIA-Docker，为模型验证构建了轻量级的NVIDIA-Docker。深度学习docker环境配置之nvidia-docker安装使用_nvidia docker-CSDN博客容器定制：根据不同的压缩ML模型，构建相应的REST ...

自然辩证法课程知识点

发表于2024-09-24|自然辩证法

😀自然辩证法课程知识点总结同步连接：网页版世界科技体制的形成和中国科技体制的变革定义：科技体制：组织结构和运行机制：科技体制是指科学技术的组织设置及其相互之间的组织性制约关系；其机制是指科学技术在内外动力作用下产生动态过程的各相关因素互相制约的一般模式原则：科技体制化是科学技术产物发展的必然产物科技体制的形成与建设过程充分显示了社会对科技发展的或促进或制约的过程中国科技体制是移植国外的，而非内生的其有深刻的历史合理性与必然性 1. 世界科学技术从小科学到大科学哥白尼天体运行论牛顿-自然哲学中的数学原理爱因斯坦-相对论近代科学体系的建立：两个特点：逻辑演绎+实验验证小科学特点：个体行为（个人独立完成，无经费）追求知识（无实际效益）自由探索（兴趣使然，无具体目标）大科学：大目标，大投入，大设备，大协作，大效益曼哈顿就工程（物理），阿波罗计划，国际空间站等中国神六，嫦娥卫星：万人一杆枪中国：从陈景润到王选、袁隆平 2. 世界科技体制的形成古希腊：毕达哥拉斯，“伦理-政治学园” 柏拉图：柏拉图学园： ...

AI Infra基础

发表于2024-09-20|AI Infra

AI Infra基础AI Infra 基础知识 - 一文介绍并行计算、费林分类法和 CUDA 基本概念 - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI