训练ViT和MAE减少一半计算量！Sea和北大提出新优化器Adan：深度模型都能用！

作者：半路出家者 | 来源：互联网 | 2023-09-07 11:48

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—CV微信技术交流群转载自：新智元|编辑：LRS

点击下方卡片&＃xff0c;关注“CVer”公众号

AI/CV重磅干货&＃xff0c;第一时间送达

点击进入—> CV 微信技术交流群

转载自&＃xff1a;新智元 | 编辑&＃xff1a;LRS 好困

【导读】换个优化器&＃xff0c;计算量少一半。

自Google提出Vision Transformer(ViT)以来&＃xff0c;ViT渐渐成为许多视觉任务的默认backbone。凭借着ViT结构&＃xff0c;许多视觉任务的SoTA都得到了进一步提升&＃xff0c;包括图像分类、分割、检测、识别等。

然而&＃xff0c;训练ViT并非易事。除了需要较复杂的训练技巧&＃xff0c;模型训练的计算量往往也较之前的CNN大很多。近日&＃xff0c;新加坡Sea AI LAB (SAIL) 和北大ZERO Lab的研究团队共同提出新的深度模型优化器Adan&＃xff0c;该优化器可以仅用一半的计算量就能完成ViT的训练。

Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

论文链接&＃xff1a;https://arxiv.org/abs/2208.06677

代码链接&＃xff1a;https://github.com/sail-sg/Adan

此外&＃xff0c;在计算量一样的情况下&＃xff0c; Adan在多个场景&＃xff08;涉及CV、NLP、RL&＃xff09;、多种训练方式&＃xff08;有监督与自监督&＃xff09;和多种网络结构/算法&＃xff08;Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO算法&＃xff09;上&＃xff0c;均获得了性能提升。

代码、配置文件、训练log均已开源。

深度模型的训练范式与优化器

随着ViT的提出&＃xff0c;深度模型的训练方式变得越来越复杂。常见的训练技巧包括复杂的数据增强&＃xff08;如MixUp、CutMix、AutoRand&＃xff09;、标签的处理&＃xff08;如label smoothing和noise label&＃xff09;、模型参数的移动平均、随机网络深度、dropout等。伴随着这些技巧的混合运用&＃xff0c;模型的泛化性与鲁棒性均得到了提升&＃xff0c;但是随之而来的便是模型训练的计算量变得越来越大。

在ImageNet 1k上&＃xff0c;训练epoch数从ResNet刚提出的90已经增长到了训练ViT常用的300。甚至针对一些自监督学习的模型&＃xff0c;例如MAE、ViT&＃xff0c;预训练的epoch数已经达到了1.6k。训练epoch增加意味着训练时间极大的延长&＃xff0c;急剧增加了学术研究或工业落地的成本。目前一个普遍的解决方案是增大训练的batch size并辅助并行训练以减少训练时间&＃xff0c;但是伴随的问题便是&＃xff0c;大的batch size往往意味着performance的下降&＃xff0c;并且batch size越大&＃xff0c;情况越明显。

这主要是因为模型参数的更新次数随着batch size的增加在急剧减少。当前的优化器并不能在复杂的训练范式下以较少的更新次数实现对模型的快速训练&＃xff0c;这进一步加剧了模型训练epoch数的增长。

因此&＃xff0c;是否存在一种新的优化器能在较少的参数更新次数情况下更快更好地训练深度模型&＃xff1f;在减少训练epoch数的同时&＃xff0c;也能缓解batch size增加带来的负面影响&＃xff1f;

被忽略的冲量

要想加速优化器的收敛速度&＃xff0c;最直接的方法便是引入冲量。近年提出的深度模型优化器均沿用着Adam中使用的冲量范式——重球法&＃xff1a;

其中g_k是随机噪声&＃xff0c;m_k是moment&＃xff0c;eta是学习率。Adam将m_k的更新由累积形式换成了移动平均的形式&＃xff0c;并引入二阶moment&＃xff08;n_k&＃xff09;对学习率进行放缩&＃xff0c;即&＃xff1a;

然而随着Adam训练原始ViT失败&＃xff0c;它的改进版本AdamW渐渐地变成了训练ViT甚至ConvNext的首选。但是AdamW并没有改变Adam中的冲量范式&＃xff0c;因此在当batch size超过4,096的时候&＃xff0c;AdamW训练出的ViT的性能会急剧下降。

在传统凸优化领域&＃xff0c;有一个与重球法齐名的冲量技巧——Nesterov冲量算法&＃xff1a;

Nesterov冲量算法在光滑且一般凸的问题上&＃xff0c;拥有比重球法更快的理论收敛速度&＃xff0c;并且理论上也能承受更大的batch size。同重球法不同的是&＃xff0c;Nesterov算法不在当前点计算梯度&＃xff0c;而是利用冲量找到一个外推点&＃xff0c;在该点算完梯度以后再进行冲量累积。

外推点能帮助Nesterov算法提前感知当前点周围的几何信息。这种特性使得Nesterov冲量更加适合复杂的训练范式和模型结构&＃xff08;如ViT&＃xff09;&＃xff0c;因为它并不是单纯地依靠过去的冲量去绕开尖锐的局部极小点&＃xff0c;而是通过提前观察周围的梯度&＃xff0c;调整更新的方向。

尽管Nesterov冲量算法拥有一定的优势&＃xff0c;但是在深度优化器中&＃xff0c;却鲜有被应用与探索。其中一个主要的原因就是Nesterov算法需要在外推点计算梯度&＃xff0c;在当前点更新&＃xff0c;期间需要多次模型参数重载以及需要人为地在外推点进行back-propagation (BP)。这些不便利性极大地限制了Nesterov冲量算法在深度模型优化器中的应用。

Adan优化器

通过结合改写的Nesterov冲量与自适应优化算法&＃xff0c;并引入解耦的权重衰减&＃xff0c;可以得到最终的Adan优化器。利用外推点&＃xff0c;Adan可以提前感知周围的梯度信息&＃xff0c;从而高效地逃离尖锐的局部极小区域&＃xff0c;以增加模型的泛化性。

1) 自适应的Nesterov冲量

为了解决Nesterov冲量算法中多次模型参数重载的问题&＃xff0c;研究人员首先对Nesterov进行改写&＃xff1a;

可以证明&＃xff0c;改写的Nesterov冲量算法与原算法等价&＃xff0c;两者的迭代点可以相互转化&＃xff0c;且最终的收敛点相同。可以看到&＃xff0c;通过引入梯度的差分项&＃xff0c;已经可以避免手动的参数重载和人为地在外推点进行BP。

将改写的Nesterov冲量算法同自适应类优化器相结合——将m_k的更新由累积形式替换为移动平均形式&＃xff0c;并使用二阶moment对学习率进行放缩&＃xff1a;

至此已经得到了Adan的算法的基础版本。

2) 梯度差分的冲量

可以发现&＃xff0c;m_k的更新将梯度与梯度的差分耦合在一起&＃xff0c;但是在实际场景中&＃xff0c;往往需要对物理意义不同的两项进行单独处理&＃xff0c;因此研究人员引入梯度差分的冲量v_k&＃xff1a;

这里对梯度的冲量和其差分的冲量设置不同的冲量/平均系数。梯度差分项可以在相邻梯度不一致的时候减缓优化器的更新&＃xff0c;反之&＃xff0c;在梯度方向一致时&＃xff0c;加速更新。

3) 解耦的权重衰减

对于带L2权重正则的目标函数&＃xff0c;目前较流行的AdamW优化器通过对L2正则与训练loss解耦&＃xff0c;在ViT和ConvNext上获得了较好的性能。但是AdamW所用的解耦方法偏向于启发式&＃xff0c;目前并不能得到其收敛的理论保证。

基于对L2正则解耦的思想&＃xff0c;也给Adan引入解耦的权重衰减策略。目前Adan的每次迭代可以看成是在最小化优化目标F的某种一阶近似&＃xff1a;

由于F中的L2权重正则过于简单且光滑性很好&＃xff0c;以至于不需要对其进行一阶近似。因此&＃xff0c;可以只对训练loss进行一阶近似而忽略L2权重正则&＃xff0c;那么Adan的最后一步迭代将会变成&＃xff1a;

有趣的是&＃xff0c;可以发现AdamW的更新准则是Adan更新准则在学习率eta接近0时的一阶近似。因此&＃xff0c;可从proximal 算子的角度给Adan甚至AdamW给出合理的解释而不是原来的启发式改进。

4) Adan优化器

将2&＃xff09;和3&＃xff09;两个改进结合进Adan的基础版本&＃xff0c;可以得到如下的Adan优化器。

Adan结合了自适应优化器、Nesterov冲量以及解耦的权重衰减策略的优点&＃xff0c;能承受更大的学习率和batch size&＃xff0c;以及可以实现对模型参数的动态L2正则。

5) 收敛性分析

这里跳过繁复的数学分析过程&＃xff0c;只给出结论&＃xff1a;

定理&＃xff1a;在给定或未给定Hessian-smooth条件的两种情况下&＃xff0c;Adan优化器的收敛速度在非凸随机优化问题上均能达到已知的理论下界&＃xff0c;并且该结论在带有解耦的权重衰减策略时仍然成立。

实验结果

一、CV场景

1&＃xff09;有监督学习——ViT模型

针对ViT模型&＃xff0c;研究人员分别在ViT和Swin结构上&＃xff0c;测试了Adan的性能。

可以看到&＃xff0c;例如在ViT-small、ViT-base、Swin-tiny以及Swin-base上&＃xff0c;Adan仅仅消耗了一半的计算资源就获得了同SoTA优化器接近的结果&＃xff0c;并且在同样的计算量下&＃xff0c;Adan在两种ViT模型上均展现出较大的优势。

此外&＃xff0c;也在大batch size下测试了Adan的性能&＃xff1a;

可以看到&＃xff0c;Adan在各种batch size下都表现得不错&＃xff0c;且相对于专为大batch size设计的优化器&＃xff08;LAMB&＃xff09;也具有一定的优势。

2&＃xff09;有监督学习——CNN模型

除了较难训练的ViT模型&＃xff0c;研究人员也在尖锐局部极小点相对较少的CNN模型上也测试了Adan的性能——包括经典的ResNet与较先进的ConvNext。结果如下&＃xff1a;

可以观察到&＃xff0c;不管是ResNet还是ConvNext&＃xff0c;Adan均能在大约2/3训练epoch以内获得超越SoTA的性能。

3) 无监督学习

在无监督训练框架下&＃xff0c;研究人员在最新提出的MAE上测试了Adan的表现。其结果如下&＃xff1a;

同有监督学习的结论一致&＃xff0c;Adan仅消耗了一半的计算量就追平甚至超过了原来的SoTA优化器&＃xff0c;并且当训练epoch越小&＃xff0c;Adan的优势就越明显。

二、NLP场景

1) 有监督学习

在NLP的有监督学习任务上&＃xff0c;分别在经典的LSTM以及先进的Transformer-XL上观察Adan的表现。

Adan在上述两种网络上&＃xff0c;均表现出一致的优越性。并且对于Transformer-XL&＃xff0c;Adan在一半的训练步数内就追平了默认的Adam优化器。

2) 无监督学习

为了测试Adan在NLP场景下无监督任务上的模型训练情况。研究人员从头开始训练BERT&＃xff1a;在经过1000k的预训练迭代后&＃xff0c;在GLUE数据集的7个子任务上测试经过Adan训练的模型性能&＃xff0c;结果如下&＃xff1a;

Adan在所测试的7个词句分类任务上均展现出较大的优势。值得一提的是&＃xff0c;经过Adan训练的BERT-base模型&＃xff0c;在一些子任务上&＃xff08;例如RTE、CoLA以及SST-2&＃xff09;的结果甚至超过了Adam训练的BERT-large.

三、RL场景

研究人员将RL常用的PPO算法里的优化器替换为了Adan&＃xff0c;并在MuJoCo引擎中的4个游戏上测试了Adan的性能。在4个游戏中&＃xff0c;用Adan作为网络优化器的PPO算法&＃xff0c;总能获得较高的reward。

Adan在RL的网络训练中&＃xff0c;也表现出较大的潜力。

结论与展望

Adan优化器为目前的深度模型优化器引入了新的冲量范式。在复杂的训练范式下以较少的更新次数实现对模型的快速训练。

实验显示&＃xff0c;Adan仅需1/2-2/3的计算量就能追平现有的SoTA优化器。

Adan在多个场景&＃xff08;涉及CV、NLP、RL&＃xff09;、多个训练方式&＃xff08;有监督与自监督&＃xff09;和多种网络结构&＃xff08;ViT、CNN、LSTM、Transformer等&＃xff09;上&＃xff0c;均展现出较大的性能优势。此外&＃xff0c;Adan优化器的收敛速度在非凸随机优化上也已经达到了理论下界。

Adan 论文和代码下载

后台回复&＃xff1a;Adan&＃xff0c;即可下载上面论文和代码

CVPR/ECCV 2022论文和代码下载

后台回复&＃xff1a;CVPR2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;ECCV2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;Transformer综述&＃xff0c;即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立扫描下方二维码&＃xff0c;或者添加微信&＃xff1a;CVer222&＃xff0c;即可添加CVer小助手微信&＃xff0c;便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖&＃xff1a;目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称&＃xff08;如目标检测或者Transformer&＃43;上海&＃43;上交&＃43;卡卡&＃xff09;&＃xff0c;根据格式备注&＃xff0c;可更快被通过且邀请进群▲扫码或加微信号: CVer222&＃xff0c;进交流群 CVer学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;▲扫码进群 ▲点击上方卡片&＃xff0c;关注CVer公众号

整理不易&＃xff0c;请点赞和在看

推荐阅读

search
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
php
2016 linux发行版排行_灵越7590 安装 linux (manjarognome)

RT之前做了一次灵越7590黑苹果炒作业的文章，希望能够分享给更多不想折腾的人。kawauso：教你如何给灵越7590黑苹果抄作业zhuanlan.z ... [详细]

蜡笔小新 2023-12-10 19:11:07
go
像跟踪分布式服务调用那样跟踪Go函数调用链 | Gopher Daily (2020.12.07) ʕ◔ϖ◔ʔ

每日一谚：“Acacheisjustamemoryleakyouhaven’tmetyet.”—Mr.RogersGo技术专栏“改善Go语⾔编程质量的50个有效实践” ... [详细]

蜡笔小新 2023-10-17 19:23:45
php
微信商户扫码支付 java开发 [从零开发]

这个教程可以用作了解扫码支付的整体运行过程，已经实现了前端扫码，记录订单，回调等一套完整的微信扫码支付。相关链接：微信支 ... [详细]

蜡笔小新 2023-10-17 18:23:14
go
最新Shader组件已经上传Github，再盘点一下Creator星球上的几大开源工具包

晓衡开始写公众号，最早是从上架Cocos商店的pbkiller插件开始的，到今天有2年了。在这期间，又陆续在公众号上分享了多个实用工具包& ... [详细]

蜡笔小新 2023-10-16 19:47:48
go
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
format
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
string
Linux Shell中的括号和整数扩展使用方法

本文介绍了Linux Shell中括号和整数扩展的使用方法，包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行，括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则，可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]

蜡笔小新 2023-12-12 20:48:58
string
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
string
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
install
负载均衡_Nginx反向代理动静分离负载均衡及rewrite隐藏路径详解（Nginx Apache MySQL Redis）–第二部分

nginx反向代理、动静分离、负载均衡及rewrite隐藏路径详解 ... [详细]

蜡笔小新 2023-10-17 21:34:48
install
智慧博物馆信息系统建设方案

3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]

蜡笔小新 2023-10-17 10:14:54
install
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
install
S3D算法详解

S3D论文详解论文地址：RethinkingSpatiotemporalFeatureLearning:Speed-AccuracyTrade-offsinVide ... [详细]

蜡笔小新 2023-10-16 17:45:39
search
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07

半路出家者

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章