note-AlexNet

AlexNet是深度学习的奠基论文,在此之前整个工业/学术界都是在做无监督学习,但是AlexNet结论是即便我们专注于有标号的数据,只要参数足够多,还是能赢无监督学习。

架构

文章说其使用的 ReLU 激活函数比传统的tanh要效果好,训练更快。

模型上,Alex在卷积层做的:

  1. 两个GPU用各自的卷积核扫描分了一半的图片矩阵;
  2. 在第三个卷积层会通讯一次,后续都是各搞各的;

通过卷积层,24*24的图片被压缩成13 13的特征矩阵。

全连接层是将第五个卷积层输出合并起来,最后输出一个4096*4096的特征矩阵。

深度学习网络就是通过模型将信息压缩成机器能够识别的矩阵再进行处理。

这里Alex提出来的切模型的办法在当下一些难训练的模型上也有所使用。

减少过拟合

dropout

模型融合很消耗资源,于是采用了dropout:随机的把一些隐藏层的输出变成用50%的概率设成0(很想NetGAN)。

到现在dropout其实就是正则项。

训练方法

使用SGD的学习算法。