热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

拯救万千学子于水深火热之中!Facebook开源无梯度优化工具

乾明发自凹非寺量子位出品|公众号QbitAI机器学习啥最苦?十有八九找参数!不少研究生,都被卡在这个环节上,久久不能毕业。现
乾明 发自 凹非寺
量子位 出品 | 公众号 QbitAI

机器学习啥最苦?十有八九找参数!

不少研究生,都被卡在这个环节上,久久不能毕业。

现在,圣诞节前,有了一个好消息!

Facebook宣布,开源自家一直在使用的无梯度优化工具:Nevergrad

640?wx_fmt=gif

并“信誓旦旦”表示,这能让调整模型参数和超参数的过程变得更快、更容易。

但在Twitter上,仿佛起到了相反的效果。

有人看到这个消息之后,立马“梗”上心头:

NeverGraduate吗?

也有人调侃称,这绝对是那些博士读了6年的人心中的噩梦。

640?wx_fmt=png

不过,调侃归调侃,人家可是货真价实的NeverGradient。

大多数人还是用转发、点赞表达了自己的态度。

640?wx_fmt=png

这是个什么东东?

简单来说, 这是一个Python 3库,里面有很多不需要进行梯度计算的算法。这些算法有:

  • 差分进化

  • 序列二次规划

  • FastGA

  • 协方差矩阵自适应

  • 用于噪声管理的种群控制方法

  • 粒子群优化

  • ……

它们都呈现在了一个标准的ask-and-tell Python框架中,同时,Facebook还配备了相关的测试和评估工具。

有没有一种热泪盈眶的感觉?

640?wx_fmt=png

先别急……来看看效果怎么样。

拿起来就能用

就先从上面提到的算法来说吧。之前这些算法都是定制的,想要比较一个任务中各种算法的性能?要么行不通,要么得花大力气。

Facebook表示,有了Nevergrad,这些都不是问题。只要有用得着它的地方,拿起来就能用。

不仅能够比较不同方法的性能,还能与那些常用基准上的最先进水平进行比较,以及帮你为特定的用例找最好的优化方法。

640?wx_fmt=jpeg

应用场景很感人

先说Facebook的情况。博文中说,自家的研究团队已经在强化学习、图像生成以及各种各样的项目中使用Nevergrad了。

而且,Nevergrad的无梯度优化,还能广泛运用于各种机器学习问题。比如:

  • 多模态问题,比如有几个最小值的问题。 (例如,语言建模深度学习的超参数化。)

  • 病态问题,在试图优化几个具有非常不同动态的变量时,通常会出现这种问题。(例如,没有针对具体问题重新标定dropout和学习率。)

  • 可分离或旋转的问题,包括部分旋转的问题。

  • 部分可分离问题,可以考虑通过几个变量块来解决。 例子包括对深度学习或其他形式设计的架构搜索,以及多任务网络的参数化。

  • 离散、连续或混合的问题。这些任务需要同时选择每层的学习速率、每层的权重衰减以及每层的非线性类型。

  • 有噪声的问题,当使用完全相同的参数调用函数时,函数可以返回不同的结果,例如强化学习中的独立事件。

来,总结一下。

在机器学习中,Nevergrad可来调整超参数,如学习速率、动量、权重衰减(可能是每层)、 dropout和深层网络的每一部分的层参数等。

但从无梯度方法的角度来说,它也可以应用到电网管理、航空、镜头设计以及许多其他科学和工程中。

为了证明Nevergrad的能力。Facebook的团队使用 Nevergrad 实现了几个基准测试。

硬核示例:用Nevergrad生成算法基准

不同的例子对应于不同的设置(是否多模态,是否有噪声,是否离散,是否病态) ,并展示了如何使用Nevergrad确定最佳优化算法。

在每个基准测试中,他们对不同的x值进行了独立的实验。这确保了方法之间在几个x值上的一致排名具有统计学意义。

640?wx_fmt=png

噪声最优化示例

这个示例显示,使用pcCMSA - ES的噪声管理方法的TBPSA优于其他几种替代方案。

具体怎么比较的,Facebook在GitHub上开源了,传送门在文末。

Nevergrad也可以处理离散的目标函数,在许多机器学习案例中都会遇到这个问题。

例如,在有限的选项集(如神经网络中的激活函数)之间进行选择,以及在不同类型的层之间进行选择(例如,决定在网络中的某个位置是否需要跳过连接)。

现有的一些工具,比如Bbob和Cutest不包含任何离散的基准测试。但Nevergrad可以处理离散域。

方法有两个,一是通过softmax函数(将离散问题转化为有噪声的连续问题),二是通过连续变量的离散化。

Facebook还专门做了一个测试。

640?wx_fmt=png

如上图,测试中FastGA在这种情况下表现最好。有一点,DoubleFastGA对应于1/dim和( dim - 1 ) / dim之间的突变率,而不是1/dim和1/2。这是因为,原始范围对应的是一个二进制域,而在这里,Facebook考虑的是任意域。

好,到此,该说的都说了。

请收好传送门吧~

传送门

Nevergrad项目地址:

https://github.com/facebookresearch/nevergrad

博客地址:

https://code.fb.com/ai-research/nevergrad/

噪声最优化示例项目地址:

https://github.com/facebookresearch/nevergrad/blob/master/docs/benchmarks.md

作者系网易新闻·网易号“各有态度”签约作者


加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


640?wx_fmt=gif

 好看吗?↘↘↘



推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • Word2vec,Fasttext,Glove,Elmo,Bert,Flairpre-trainWordEmbedding源码数据Github网址:词向量预训练实现Githubf ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 论文阅读:《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》
    基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来,挑战性长尾分布上的视觉识别技术取得了很大的进展,主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
author-avatar
前世梦0708
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有