当前位置: 开发笔记 > 编程语言 > 正文

inceptionv4官方实现_【深度学习系列】用Tensorflow实现GoogLeNetInceptionV2/V3/V4

作者：懒羊羊2502880053 | 来源：互联网 | 2023-09-04 17:42

上一篇文章我们引出了GoogLeNetInceptionV1的网络结构，这篇文章中我们会详细讲到InceptionV2V3V4的发展历程以及它们的网络结构和亮点。Go

上一篇文章我们引出了GoogLeNet InceptionV1的网络结构&＃xff0c;这篇文章中我们会详细讲到Inception V2/V3/V4的发展历程以及它们的网络结构和亮点。

GoogLeNet Inception V2

使用较大的学习率而不用特别关心诸如梯度爆炸或消失等优化问题&＃xff1b;

降低了模型效果对初始权重的依赖&＃xff1b;

可以加速收敛&＃xff0c;一定程度上可以不使用Dropout这种降低收敛速度的方法&＃xff0c;但却起到了正则化作用提高了模型泛化性&＃xff1b;

即使不使用ReLU也能缓解激活函数饱和问题&＃xff1b;

能够学习到从当前层到下一层的分布缩放( scaling (方差)&＃xff0c;shift (期望))系数。

在机器学习中&＃xff0c;我们通常会做一种假设&＃xff1a;训练样本独立同分布(iid)且训练样本与测试样本分布一致&＃xff0c;如果真实数据符合这个假设则模型效果可能会不错&＃xff0c;反之亦然&＃xff0c;这个在学术上叫Covariate Shift&＃xff0c;所以从样本(外部)的角度说&＃xff0c;对于神经网络也是一样的道理。从结构(内部)的角度说&＃xff0c;由于神经网络由多层组成&＃xff0c;样本在层与层之间边提特征边往前传播&＃xff0c;如果每层的输入分布不一致&＃xff0c;那么势必造成要么模型效果不好&＃xff0c;要么学习速度较慢&＃xff0c;学术上这个叫InternalCovariate Shift。

假设&＃xff1a;$y$为样本标注&＃xff0c;$X&＃61;\{x_{1},x_{2},x_{3},......\}$为样本$x$通过神经网络若干层后每层的输入&＃xff1b;

理论上&＃xff1a;$p(x,y)$的联合概率分布应该与集合$X$中任意一层输入的联合概率分布一致&＃xff0c;如&＃xff1a;$p(x,y)&＃61;p(x_{1},y)$&＃xff1b;

但是&＃xff1a;$p(x,y)&＃61;p(y|x)·p(x)$,其中条件概率$p(y|x)$是一致的&＃xff0c;即$p(y|x)&＃61;p(y|x_{1})&＃61;p(y|x_{1})&＃61;......$&＃xff0c;但由于神经网络每一层对输入分布的改变&＃xff0c;导致边缘概率是不一致的&＃xff0c;即$p(x)\neq p(x_{1})\neq p(x_{2})......$&＃xff0c;甚至随着网络深度的加深&＃xff0c;前面层微小的变化会导致后面层巨大的变化。

BN整个算法过程如下&＃xff1a;

以batch的方式做训练&＃xff0c;对m个样本求期望和方差后对训练数据做白化&＃xff0c;通过白化操作可以去除特征相关性并把数据缩放在一个球体上&＃xff0c;这么做的好处既可以加快优化算法的优化速度也可能提高优化精度&＃xff0c;一个直观的解释&＃xff1a;

左边是未做白化的原始可行域&＃xff0c;右边是做了白化的可行域&＃xff1b;

当原始输入对模型学习更有利时能够恢复原始输入(和残差网络有点神似)&＃xff1a;

这里的参数$\gamma$和$\sigma$是需要学习的。

卷积神经网络中的BN

卷积网络中采用权重共享策略&＃xff0c;每个feature map只有一对$\gamma$和$\sigma$需要学习。

GoogLeNet Inception V3

GoogLeNet Inception V3在《Rethinking the Inception Architecture for Computer Vision》中提出(注意&＃xff0c;在这篇论文中作者把该网络结构叫做v2版&＃xff0c;我们以最终的v4版论文的划分为标准)&＃xff0c;该论文的亮点在于&＃xff1a;

提出通用的网络结构设计准则

引入卷积分解提高效率

引入高效的feature map降维

网络结构设计的准则

前面也说过&＃xff0c;深度学习网络的探索更多是个实验科学&＃xff0c;在实验中人们总结出一些结构设计准则&＃xff0c;但说实话我觉得不一定都有实操性&＃xff1a;

避免特征表示上的瓶颈&＃xff0c;尤其在神经网络的前若干层

神经网络包含一个自动提取特征的过程&＃xff0c;例如多层卷积&＃xff0c;直观并符合常识的理解&＃xff1a;如果在网络初期特征提取的太粗&＃xff0c;细节已经丢了&＃xff0c;后续即使结构再精细也没法做有效表示了&＃xff1b;举个极端的例子&＃xff1a;在宇宙中辨别一个星球&＃xff0c;正常来说是通过由近及远&＃xff0c;从房屋、树木到海洋、大陆板块再到整个星球之后进入整个宇宙&＃xff0c;如果我们一开始就直接拉远到宇宙&＃xff0c;你会发现所有星球都是球体&＃xff0c;没法区分哪个是地球哪个是水星。所以feature map的大小应该是随着层数的加深逐步变小&＃xff0c;但为了保证特征能得到有效表示和组合其通道数量会逐渐增加。

下图违反了这个原则&＃xff0c;刚开就始直接从35×35×320被抽样降维到了17×17×320&＃xff0c;特征细节被大量丢失&＃xff0c;即使后面有Inception去做各种特征提取和组合也没用。

对于神经网络的某一层&＃xff0c;通过更多的激活输出分支可以产生互相解耦的特征表示&＃xff0c;从而产生高阶稀疏特征&＃xff0c;从而加速收敛&＃xff0c;注意下图的1×3和3×1激活输出&＃xff1a;

合理使用维度缩减不会破坏网络特征表示能力反而能加快收敛速度&＃xff0c;典型的例如通过两个3×3代替一个5×5的降维策略&＃xff0c;不考虑padding&＃xff0c;用两个3×3代替一个5×5能节省1-(3×3&＃43;3×3)/(5×5)&＃61;28%的计算消耗。

以及一个n×n卷积核通过顺序相连的两个1×n和n×1做降维(有点像矩阵分解)&＃xff0c;如果n&＃61;3&＃xff0c;计算性能可以提升1-(3&＃43;3)/9&＃61;33%&＃xff0c;但如果考虑高性能计算性能&＃xff0c;这种分解可能会造成L1 cache miss率上升。

通过合理平衡网络的宽度和深度优化网络计算消耗(这句话尤其不具有实操性)。

抽样降维&＃xff0c;传统抽样方法为pooling&＃43;卷积操作&＃xff0c;为了防止出现特征表示的瓶颈&＃xff0c;往往需要更多的卷积核&＃xff0c;例如输入为n个d×d的feature map&＃xff0c;共有k个卷积核&＃xff0c;pooling时stride&＃61;2&＃xff0c;为不出现特征表示瓶颈&＃xff0c;往往k的取值为2n&＃xff0c;通过引入inception module结构&＃xff0c;即降低计算复杂度&＃xff0c;又不会出现特征表示瓶颈&＃xff0c;实现上有如下两种方式&＃xff1a;

平滑样本标注

对于多分类的样本标注一般是one-hot的&＃xff0c;例如[0,0,0,1]&＃xff0c;使用类似交叉熵的损失函数会使得模型学习中对ground truth标签分配过于置信的概率&＃xff0c;并且由于ground truth标签的logit值与其他标签差距过大导致&＃xff0c;出现过拟合&＃xff0c;导致降低泛化性。一种解决方法是加正则项&＃xff0c;即对样本标签给个概率分布做调节&＃xff0c;使得样本标注变成“soft”的&＃xff0c;例如[0.1,0.2,0.1,0.6]&＃xff0c;这种方式在实验中降低了top-1和top-5的错误率0.2%。

网络结构

GoogLeNet Inception V4

GoogLeNet Inception V4/和ResNet V1/V2这三种结构在《Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning》一文中提出&＃xff0c;论文的亮点是&＃xff1a;提出了效果更好的GoogLeNet Inception v4网络结构&＃xff1b;与残差网络融合&＃xff0c;提出效果不逊于v4但训练速度更快的结构。

GoogLeNet Inception V4网络结构

GoogLeNet Inception ResNet网络结构

代码实践

Tensorflow的代码在slim模块下有完整的实现&＃xff0c;paddlepaddle的可以参考上篇文章中写的inception v1的代码来写。

总结

这篇文章比较偏理论&＃xff0c;主要讲了GoogLeNet的inception模块的发展&＃xff0c;包括在v2中提出的batch normalization&＃xff0c;v3中提出的卷积分级与更通用的网络结构准则&＃xff0c;v4中的与残差网络结合等&＃xff0c;在实际应用过程中可以可以对同一份数据用不同的网络结构跑一跑&＃xff0c;看看结果如何&＃xff0c;实际体验一下不同网络结构的loss下降速率&＃xff0c;对准确率的提升等。

推荐阅读

算法
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
text
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
text
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
bit
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
bit
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
tree
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
function
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
text
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
python
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
web
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
web
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
web
知识图谱表示吱吱了了

知识图谱表示概念：知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说，知识图谱是由一条条知识组成，每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]

蜡笔小新 2023-10-17 17:32:42
web
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
string
Tensorflow 训练自己的cnn模型行人识别

代码如下：#coding:utf-8importstring,os,sysimportnumpyasnpimportmatplotlib.py ... [详细]

蜡笔小新 2023-10-16 16:57:06
string
Two Sigma人均22万英镑~

近期原创文章： ... [详细]

蜡笔小新 2023-10-16 14:54:24

懒羊羊2502880053

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章