昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
前向传播假设待归一化的$m$维向量为$x$,均值和标准差分别是$\mu{(x)}$和$\sigma{(x)}$,LayerNor
2022-05-22