作者:小Reve_942 | 来源:互联网 | 2023-07-09 11:32
参数初始值的选取十分关键,关系到网络的优化效率和泛化能力。基于固定的方差比如均匀分布,高斯分布初始化参数,但是选择方差是比较关键的,如果过小会使得神经元丧失非线性能力,也会带来梯度
参数初始值的选取十分关键,关系到网络的优化效率和泛化能力。
- 基于固定的方差
比如均匀分布,高斯分布初始化参数,但是选择方差是比较关键的,如果过小会使得神经元丧失非线性能力,也会带来梯度消失的问题。为降低固定方差对网络优化效率的影响,基于固定方差的随机初始化方法一般需要配合逐层归一化来使用。 - 基于缩放的方差
尽可能保持每个神经元的输入和输出的方差一致,根据神经元的连接数量进行自适应的调整初始化分布的方差,这类方法称为方差缩放。
对于位于l层的一个神经元来说,若初始化符合均匀分布或高斯分布,其方差的取值可从下列表格上的公式计算而来,使得神经元的输入和输出的方差保持一致,避免梯度消失或爆炸的问题。其中,Ml指的是第l层神经元的数量。
- 正交初始化
正交初始化的具体实现过程可以分为两步:首先,用均值为 0、方差为 1 的高斯分布初始化一个矩阵;其次,将这个矩阵用奇异值分解得到两个正交矩阵,并使用其中之一作为权重矩阵。当在非线性神经网络中应用正交初始化时,通常需要将正交矩阵乘以一个缩放系数p。