CNN笔记
CNN笔记 CNN笔记:通俗理解卷积神经网络_cnn卷积神经网络-CSDN博客 Zero Padding(零填充)——在卷积神经网络中的作用?-CSDN博客 一句话CNN:如何理解padding的作用和算法 - 知乎 (zhihu.com) 为什么需要随机裁剪:随机裁剪相当于建立每个因子特征与相应类别的权重关系,减弱背景(或噪音)因子的权重,且使模型面对缺失值不敏感,也就可以产生更好的学习效果,增加模型稳定性。
KL散度详解
KL散度 进阶详解KL散度 - 知乎 (zhihu.com)
RLHF
RLHF 从零实现ChatGPT——RLHF技术笔记 - 知乎 (zhihu.com) 一文读懂「RLHF」基于人类反馈的进行强化学习-CSDN博客 大模型 | 通俗理解RLHF基础知识以及完整流程-CSDN博客
Lora大模型微调
Lora大模型微调 LoRA微调方法详解-CSDN博客 理解Lora微调只需一个公式-CSDN博客 【LLM】金融场景的大模型Lora微调实战_金融微调数据集-CSDN博客 LoRA原理很简单, 代码实现也不复杂。 简单地说,在模型实现上, 要在特定的模块上加一个旁路, 这个旁路就是两个矩阵相乘的形式。这些特定的模块理论上可以是任何模块, 目前作者实现的是在Linear, Embeding, Conv, Attention(只改其中的q和v)这些模块上加。 关键代码: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485class LoRALayer(): def __init__( self, r: int, lora_alpha: int, l...
Seq2Seq
Seq2Seq和Word2Vec Seq2Seq Seq2Seq模型介绍 - 知乎 (zhihu.com) Word2Vec 深入浅出Word2Vec原理解析 - 知乎 (zhihu.com) 一文搞懂One-Hot编码与词嵌入(Embedding)-百度开发者中心 (baidu.com) 如何通俗理解Word2Vec (23年修订版)-CSDN博客 :star: 传统的one-hot 编码仅仅只是将词符号化,不包含任何语义信息。而且词的独热表示(one-hot representation)是高维的,且在高维向量中只有一个维度描述了词的语义 (高到什么程度呢?词典有多大就有多少维,一般至少上万的维度)。所以我们需要解决两个问题: 需要赋予词语义信息 降低维度 Word2Vec:最终词向量的维度(与隐含层结点数一致)一般情况下要远远小于词语总数 的大小,所以 Word2vec 最有价值的是 让不带语义信息的词带上了语义信息 其次把词语从 one-hot encoder 形式的表示降维到 Word2vec 形式的表示 CBOW(通过上下文推断某个词) 将上下文词进行 ...
强化学习笔记
强化学习笔记 强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO-CSDN博客
AlexNet解析
AlexNet解析 卷积神经网络经典回顾之AlexNet - 知乎 (zhihu.com) AlexNet论文逐段精读【论文精读】_哔哩哔哩_bilibili 饱和:saturating 非饱和:non-saturating
饱和(saturating)和非饱和(non-saturating)的激活函数
饱和(saturating)和非饱和(non-saturating)的激活函数 在神经网络中,激活函数是决定网络能否学习复杂模式的关键因素之一。激活函数的选择会影响网络的收敛速度、性能以及最终的泛化能力。激活函数可以根据其输出特性被分为“饱和”(saturating)和“非饱和”(non-saturating)两大类: 饱和激活函数(Saturating Activation Functions) 定义: 饱和激活函数是指当输入值增大或减小时,函数的输出值会达到一个上限或下限,并在该范围内趋于稳定,不再随输入的增加而显著变化。 特点: 输出值存在一个明显的上限和下限。 当输入值增大到一定程度后,输出值不再显著增加(或减少)。 例子: Sigmoid 函数:[ \sigma(x) = \frac{1}{1 + e^{-x}} ] Tanh 函数(双曲正切函数):[ \tanh(x) = \frac{2}{1 + e^{-2x}} - 1 ] ReLU 函数(Rectified Linear Unit)在正区间内是非饱和的,但在负区间内是饱和的。 影响: ...
常用激活函数
常用激活函数 激活函数汇总_高斯激活函数-CSDN博客 常用的激活函数合集(详细版)-CSDN博客 重点关注ReLU(max(0,x)),Sigmoid(0-1),Softmax(0-1概率) 神经网络之softmax(作用,工作原理【示例说明】,损失计算)_softmax层-CSDN博客 预处理直接做原始图片 (224 * 224 * 3)
残差连接(Residual Connection)
残差连接(Residual Connection) 【深度学习 | ResNet核心思想】残差连接 & 跳跃连接:让信息自由流动的神奇之道-CSDN博客 背景: 在深度神经网络中,随着层数的增加,网络的性能在一定程度上会提高(网格退化 Degradation)。然而,深度网络的训练也面临着一些挑战,其中之一是梯度消失或梯度爆炸的问题。当反向传播过程中的梯度变得非常小或非常大时,网络的参数更新会受到影响,导致训练变得困难。 梯度消失和梯度爆炸: 概念: 梯度消失:在深层网络中,梯度需要通过多个层次进行反向传播。根据链式法则,梯度在传播过程中会不断相乘,当层数较多时,梯度值可能会以指数形式衰减并趋近于零,导致梯度消失。 梯度爆炸:深层网络中的梯度在传播过程中也可能因链式法则的连乘效应而迅速增长,甚至呈指数级增长,导致网络参数更新过大,网络不稳定。 为什么会梯度消失: 在使用激活函数为Sigmoid或Tanh等饱和激活函数时,因为这些函数在输入较大或较小的情况下会饱和并导致梯度变得非常小。当输入接近1时,Sigmoid函数的输出值会接近于1,导数趋近于0。于是在反向传播过程中...