漫谈 LLM 解码策略-采样策略 贪心解码、随机采样、Top-K 采样、Top-P 采样、核采样 和搜索策略Beam Search
基于 Ray 的分离式架构:veRL、OpenRLHF 工程设计
MCP-Zero:LLM智能体主动工具发现的新范式
Alita:Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution
Faiss入门及应用经验记录
TD lamda和GAE
异步RL框架AReaL
TCP连接中ACK,SEQ变化
github博客换机无缝迁移教程