当前位置: 开发笔记 > 后端 > 正文

稀疏学习：从人脑得到灵感，让深度学习突破算力限制

作者：Caroline19921009 | 来源：互联网 | 2023-08-31 08:41

大数据文摘出品来源：timdettmers编译：张秋玥、Luciana、钱天培深度学习的重要推动力是计算力的进步。从2010年到2018年，GPU性能提高了97倍。但是，由于我们几

大数据文摘出品

来源：timdettmers

编译：张秋玥、Luciana、钱天培

深度学习的重要推动力是计算力的进步。

从2010年到2018年，GPU性能提高了97倍。但是，由于我们几乎已达到了半导体技术的物理极限，可以预计，在未来5-8年内GPU性能的提升仅会略高于80％。

在无法进一步提高计算能力的情况下，我们还能进行什么样的研究呢？

一种可行的研究方向是，从人脑中寻找灵感。

人类大脑消耗的能量是GPU的十分之一，但强度要高出10 ^ 9倍。是什么让大脑如此高效？

原因有很多，而其中一个就是是稀疏性。

研究已经发现，灵长类生物大脑中的神经元越多，平均下来每个神经元与其他神经元的连接就越少（来自Herculano-Houzel等人的研究，2010）。这与我们设计深度神经网络的方式恰恰相反。深度神经网络更倾向于将每一层中的每个新神经元都与前一层中的所有神经元连接起来。

我们已经知道如何将一个完全训练好的稠密网络压缩到稀疏网络，但是，让一个网络在训练期间始终保持稀疏却很少被研究。

我们如何才能做到这一点的呢？今天，我们就要介绍ELMo作者Luke Zettlemoyer的最新研究，稀疏动量——一种训练稀疏网络的有效方法。

优秀的稀疏学习算法长什么样？

在稀疏学习中，最重要的是尽可能有效地使用神经网络中的每一个权重。如果将“有效性”定义为“减少误差”，那么我们的下一步就很明确了。我们需要找到能够一个指标——它应当能够衡量一个权重减少误差的效果，并删除所有并不能减少误差的权重。一旦移除了权重，就可以在我们认为有望减少未来误差的位置重新生成新的权重。

如果只是关注关于权重的误差梯度，那我们确实有这样的指标。然而，如果我们观察连续梯度，就发现梯度的变化可能会非常的大。例如，加入你有一个神经网络对手写数字0到9进行分类，那么某一权重可能能够很好地检测到顶部的直线——这可能有助于减少数字5和7的错误，但是它可能并无法辨认数字0,1,2,3,6,8,9（或者甚至只会帮倒忙！）。相反，检测右上方曲线图案的重量可能有助于辨认0,2,3,8,9。因此我们可以认为，随着时间的推移，这一权重将比“顶部直线”权重能够能更加一致地减少误差。那么，我们如何自动检测神经网络中这种有用的权重呢？

动量：找到能够始终如一地减少误差的权重

打个比方，如果将北极作为局部最小值并使用罗盘针向局部最小值的渐变，那么您可以通过摇动指南针来旋转罗盘针来模拟随机梯度下降更新。每次针经过正北时，它会逐渐减速，然而，由于旋转，它仍会“超过”该方向。但是，如果你取平均指示 - 一次指针位于北极左侧，另一次指向右侧 - 这些偏差抵消了，你会立即得到一个非常接近的方向真正的北极。

这是动量优化技术背后的主要思想：我们对连续梯度取平均值以更好地估计局部最小值的方向。与罗盘指针在慢下来的时候会逐渐变得越来越准确这一特性类似，我们希望在随机梯度下降中更加高度地加权最近的梯度方向。一种方法是指定一个加权平均值，我们为当前梯度分配一个更大的权重，为前一个梯度分配一个小权重——这称为指数平滑。通过指数平滑权重的梯度，我们得到一个加权梯度矩阵——这个矩阵是动量矩阵（这就是动量优化这一名字的由来）。通过这一指标，我们可以确定哪些权重能够一致地减少误差。

重新分布权重：层平均动量大小

如果一个权重的动量表明它一致地减少了多少误差，那么一个层中所有权重的平均动量大小应该表明每个层平均减少了多少误差。通过获取层的平均动量大小，我们可以轻松地比较每层中平均重量的有效性。这就使我们可以有底气地说，例如，卷积层A中的权重平均只有完全连接层B的1/3，反之亦然。这种方法使我们能够有效地重新分配权重：如果我们发现“无用”权重，现在我们就能够很精确地知道到底把它放在哪一层了。可是这下问题又来了——在这一层中，我们把它具体放哪儿呢？

该删除哪些权重，在何处重新分配权重？

我们可以从以下两个问题着手：哪些是最无用的权重因素？我们应该在哪一层特征中增加权重？第一个问题在神经网络压缩研究中十分常见，我们采取修剪小量级权重的方式，这种方式意义重大。假设所有权重具有相似量级的平均输入，并使用批量归一化方法，那么小量级权重会使神经元产生激活差异最小，因此，删除这些小量级权重对神经网络法预测性能的改变最小。

一旦我们移除了小量级权重，重新分配剩余权重到有效层（由平均动量确定），就需要确定此权重在相应有效层的发展位置。首先思考一个问题：“连接哪些神经元可以协同减少误差？”答案很明显，取决于动量的大小。但无论如何，我们需要先找到缺失或零值权重的动量值（之前我们从训练中排除的那些），在这些缺失权重的位置增加动量值大的权重，这样就完成了稀疏动量算法，此过程如下图所示。

稀疏动量通过查看临近梯度（动量）的加权平均值来确定在稀疏网络中增加新权重的位置，以找到能够一致减少误差的权重和层。（1）我们根据平均动量大小确定每层的重要性。（2）我们删除每一层较小50％的权重。（3）然后，我们根据层的重要性在层之间重新分配权重。在每一层中，我们增加大动量之处的权重。

结果

结果令人振奋！稀疏动量法得出的结果表明，它胜于基于MNIST手写数据集的其他压缩算法。首先，它提供了一种实现方式：从密集网络开始，重复重新训练稀疏网络；其次，可以通过使用20％密集权重（即80％稀疏权重）匹配密集网络的性能。为便于理解此结论，我们同时将稀疏动量法与基于CIFAR-10数据集的单发网络修剪法进行比较，毫无疑问，对比得出稀疏动量法更胜一筹。在基于CIFAR-10数据集的单发网络修剪法中，VGG16-D和WRN16-10模型可以通过使用5％密集权重匹配密集网络的性能，其他模型的密集权重水平与稀疏动量法的密集权重水平近似。此外，通过优化的稀疏卷积算法，使用WRN 16-10模型可以保证在实现相同性能情况下使训练速度提升12倍。

在ImageNet图像识别数据库中，我们无法达到密集性能水平，这表明需要改善稀疏动量的指标。但无论如何，稀疏动量法与其他方法相比，在训练样本过程中实现保持稀疏权重方面，具有明显优势。

加速效果

稀疏学习预示了我们需要加速样本的训练，我们是否已经做到了？似是而非。如果权衡稀疏卷积的加速效果，稀疏动量可以有效地加速训练，但由于稀疏神经网络法近期才用于训练，对于GPU来说尚未建立优化的稀疏卷积算法，目前，至少对于稀疏动量法，细粒度稀疏模式的权重表现如此。

因此，我们将加速效果分为两组：一组假设存在某种稀疏卷积算法来实现加速，另一组使用标准密集卷积算法来实现加速。究竟密集卷积法如何帮助稀疏网络实现加速呢？

当看到神经网络稀疏模式出现卷积通道完全为空的情况，即出现一个全零的卷积滤波器时，我们便可以从计算中删除此通道，同时不改变卷积的结果，从而获得加速效果。

应用最佳稀疏卷积法和朴素密集卷积法所获得加速效果

但是，我们从加速效果中发现，最佳稀疏卷积法和朴素密集卷积法大相径庭，这正好清楚地表明了GPU对的优化稀疏卷积算法的需求。

为什么稀疏学习有效？

我们使用稀疏动量法训练的样本与使用仅有5％权重的密集卷积法的性能水平相当。是什么原因让这5％的权重如此高效，可以与稀疏动量法权重的20倍相匹配呢？

为了研究这个问题，我们对比了稀疏网络法与密集网络法的不同特征，其中低层特征例如边缘检测器，中层特征例如轮子、鼻子、眼睛、爪子，高层特征例如汽车表面，猫脸，冰箱门等。

边缘检测器可以有效减少卷积通道中特征的数量即神经元数量，同时可以确定卷积通道对数据集中数据分类的决定程度。边缘检测器对数据集中所有类型数据都适用，也就是说它的类特化水平较低，像眼睛这样的中级特征对例如猫，狗和人类的数据比较适用，高级特征类特化水平较高，常用来选取特定的类别。

AlexNet模型，VGG16模型和WRN 28-2模型的稀疏动量法和密集网络法的类特化直方图

我们发现，平均而言，稀疏网络学习法的特征可供学习的范围更广，这可以解释为什么稀疏网络法可以与只用5％的权重的密集网络法的性能相匹配。

稀疏学习法的未来

我认为稀疏学习法的前景非常光明，一方面，未来几年内GPU的性能不会有大的变化，另一方面，用于负载稀疏学习法的专用处理器Graphcore（核图形处理器）即将面世：核图形处理器将整个神经网络存储在300 MB缓存空间中，同时将速度提升约100倍。这意味着如果训练样本时我们将神经网络数据压缩到300 MB，训练速度整体将提高100倍。那么使用一个核图形处理器在ImageNet图像识别数据库上训练50个残差样本只需要大约15分钟，当然，通过稀疏学习法，数据可以毫无疑问的地控制在300 MB大小以内。

由此可以预测，第一个能够在核图形处理器上成功训练稀疏神经网络的研究团队，将开启人工智能领域的新世界的大门。除此之外，稀疏学习算法的另一个挑战是将其应用于自然语言处理(NLP)。基于我的实验，毫无疑问，与计算机可视化相比，在使用自然语言进行稀疏学习方面，还需要加强。

推荐阅读

数据库
顶尖AI技术人才稀缺，在校生还能追上这波浪潮吗？

作为机器学习最重要的一个分支，近年来深度学习(DeepLearning)发展势头迅猛，借助庞大的数据 ... [详细]

蜡笔小新 2023-10-12 16:30:34
数据库
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
数据库
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
数据库
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
数据库
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
数据库
基于神经网络的智能对话系统（二）——机器学习背景知识

2.机器学习背景知识本章简要回顾了深度学习和强化学习，这些学习与后续章节中的会话AI最相关。2.1机器学习基础Mitchell（1997）将机器学习广义地定义为包括任何计算机程序， ... [详细]

蜡笔小新 2023-10-14 15:37:52
数据库
分类与聚类

一：分类1：定义分类其实是从特定的数据中挖掘模式，做出判断的过程。分类是在一群已经知道类别标号的样本中，训练一种分类器 ... [详细]

蜡笔小新 2023-10-13 05:29:06
数据库
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
数据库
Android中的assets目录和raw目录的区别和用法

本文介绍了Android中的assets目录和raw目录的共同点和区别，包括获取资源的方法、目录结构的限制以及列出资源的能力。同时，还解释了raw目录中资源文件生成的ID，并说明了这些目录的使用方法。 ... [详细]

蜡笔小新 2023-12-11 12:26:25
数据库
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
数据库
Windows7 安装TensorflowGPU文档

安装Tensorflow-GPU文档第一步：通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]

蜡笔小新 2023-10-17 07:23:13
数据库
打出三张牌的联想Edge AI，正在跨越物联网“J型曲线”拐点

文|曾响铃来源|科技向令说（xiangling0815）在业务加速转型升级下，对于“联想”两个字，近些年业界旧有认知不断 ... [详细]

蜡笔小新 2023-10-13 13:42:56
数据库
脑机接口和卷积神经网络的初学指南(一)

脑机接口和卷积神经网络的初学指南(一) ... [详细]

蜡笔小新 2023-10-13 11:11:52
数据库
李理：详解卷积神经网络

http:geek.csdn.netnewsdetail127365本系列文章面向深度学习研发者，希望通过ImageCaptionGeneration，一个有意思的具体任务，深入浅出地介 ... [详细]

蜡笔小新 2023-10-12 19:53:56
数据库
【机器学习入门】公开课笔记：笔记简介

机器学习毫无争议的是如今学术界和工业界最热的领域，它涵盖计算机视觉(CV)、自然语言处理(NLP)、深度学习(DL)等多种技术，在图像识别、知识图谱以及最近非常火热的无人驾驶等诸多领 ... [详细]

蜡笔小新 2023-10-12 16:49:44

Caroline19921009

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章