Camel框架
极简 Megatron-LM 模型并行切分介绍
多Agent
ray accelerate trainer lightning pytorch
xpu_timer
Qwen3技术报告解读
大模型蒸馏技术
Qwen2.5大模型微调入门实战
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
Shall We Pretrain Autoregressive Language Models with Retrieval