热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hinton最新演讲!一种新神经网络:前向前向FF算法,论文已公开!

点击下方卡片,关注“CVer”公众号AICV重磅干货,第一时间送达点击进入—CV微信技术交流群转载自:机器之心|编辑:杜伟

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:机器之心 | 编辑:杜伟、蛋酱

在 NeurIPS 2022 会议的一场特邀演讲中,图灵奖得主、深度学习先驱 Hinton 在关于深度学习影响计算机构建方式、神经网络算法等方面分享了他的最新观点。

NeurIPS 2022 会议正在如火如荼地进行之中,各路专家学者围绕着深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域展开交流与探讨。

会上,图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲,以表彰他十年前与其研究生 Alex Krizhevsky 和 Ilya Sutskever 共同撰写的论文《ImageNet Classification with Deep Convolutional Neural Networks》,该论文因对该领域的「巨大影响」而被授予时间检验奖。这项工作发表于 2012 年,是卷积神经网络首次在 ImageNet 图像识别竞赛中表现人类水平的能力,它是启动第三次人工智能浪潮的关键事件。

dcaf37307858a4a1053fc6d393bb16b1.png

Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中,Geoffrey Hinton 表示,「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器学习形式将引发计算机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。

他继续说到,「我认为我们将看到一种完全不同的计算机,虽然几年内无法实现。但我们有充分的理由来研究这种完全不同的计算机。」

984d3b5b9ec40b84d9fa7b66c251e74f.png

构建完全不同的新型计算机

迄今为止,所有的数字计算机都被构建为「不朽」(immortal),其中硬件设计非常可靠,以便相同的软件可以在任何地方运行。「我们可以在不同的物理硬件上运行相同的程序,知识是不朽的。」

Hinton 表示,这种设计要求意味着数字计算机已经错过了「硬件的各种可变、随机、不稳定、模拟和不可靠特性」,而这些特性可能对我们非常有用。

在 Hinton 看来,未来的计算机系统将采取不同的方式:它们将是「神经形态的」,并且是普通的(mortal)。这意味着每台计算机都将是神经网络软件与杂乱无章硬件的紧密结合,在具有模拟而非数字元件的意义上,它可以包含不确定性因素并随时间推移而发展。

e667567ae48c8817cf678afeb53b7abb.png

Hinton 解释到,「现在的替代方案是我们将放弃硬件与软件的分离,但计算机科学家真的不喜欢这种做法,因为攻击到了他们的基本原则之一。」

所谓的普通计算(mortal computation),就是系统学习到的知识和硬件是密不可分的。这些普通计算机可以「成长」,摆脱造价高昂的芯片制造厂。

Hinton 指出,如果我们这样做了,就可以使用功耗极低的模拟计算,还能使用忆阻器权重来进行万亿次并行处理。这里指的是一种基于非线性电路元件、拥有数十年历史的实验芯片。此外我们还可以在不了解不同位硬件的精确行为的精准质量时发展硬件。

但是,Hinton 也表示,新的普通计算机并不会取代传统的数字计算机,「它不是掌控你的银行账户的计算机,也不会确切知道你有多少钱。」

这种计算机用于放置(即处理)其他东西,比如它可以使用一美元将 GPT-3 之类的东西「放入你的烤面包机中」,这样只需几瓦的功率,就可以与自己的烤面包机对话。

908e4c501511c4d16cb31f994e9f0bba.png

适合普通计算硬件的 FF 网络

在这次演讲中,Hinton 花了大部分时间谈论一种新的神经网络方法,他称之为 Forward-Forward(FF)网络,它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出,通过去除反向传播,前向网络可能更合理地接近现实生活中在大脑中发生的情况。

这篇论文草稿被张贴在多伦多大学的 Hinton 主页上:

39d28f62eb99fbcc31ab3b0af90009bf.png

论文链接:https://www.cs.toronto.edu/~hinton/FFA13.pdf

Hinton 表示,FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的学习程序,必须要学习利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」

他说,建造新的模拟计算机的一个障碍是,人们对在数百万台设备上运行一个软件的可靠性很重视。「这些手机中的每一部都必须从一个婴儿手机开始取代,而且它必须学习如何成为一部手机,」Hinton 说。「而这是非常痛苦的。」

即使是最擅长相关技术的工程师,也会因为担心不确定性,而迟迟不能放弃完美的、相同的不朽计算机的范式。

Hinton 说:「在对模拟计算感兴趣的人中,仍有极少数人愿意放弃不朽。这是因为对一致性、可预测性的依恋。但如果你希望模拟硬件每次都做同样的事情,你迟早因为这些杂乱的东西遇到真正的问题。」

论文内容

在论文中,Hinton 介绍了一种新的神经网络学习程序,并通过实验证明它在一些小问题上的效果足够好。具体内容如下:

反向传播有什么问题?

过去十年,深度学习的成功确立了在大量参数和大量数据的情况下执行随机梯度下降的有效性。梯度通常是通过反向传播来计算的,这导致人们对大脑是否实现了反向传播或是否有其他方式来获得调整连接权重所需的梯度产生了兴趣。

作为大脑皮层如何学习的模型,反向传播仍然是不可信的,尽管人们做出了相当大的努力来让它像真实的神经元一样实施。目前没有令人信服的证据表明大脑皮层明确地传播误差导数或储存神经活动,以便在随后的反向传播中使用。从一个皮层区域到视觉通路中较早的区域的自上而下的连接并不像预期的那样,即如果在视觉系统中使用反向传播,就会出现自下而上的连接。相反,它们形成了循环,其中神经活动经过两个区域的大约半打皮质层,然后回到它开始的地方。

通过时间的反向传播作为学习序列的一种方式是特别不靠谱的。为了处理感官输入流而不频繁超时,大脑需要通过感官处理的不同阶段对感官数据进行 pipeline 处理,它需要一个能「在飞行中」学习的学习程序。Pipeline 后期阶段的表征可能提供自上而下的信息,在后续的时间步中影响 pipeline 早期阶段的表征,但感知系统需要实时地进行推理和学习,而不需要停止执行反向传播。

反向传播的另一个严重限制是,它需要完全了解在前向传递中进行的计算,以便计算出正确的导数。如果我们在前向传递中插入一个黑匣子,那么就不可能再进行反向传播,除非我们学习了黑匣子的可微分模型。正如我们将看到的,黑匣子根本不会改变 FF 算法的学习程序,因为不需要通过它进行反向传播。

在没有完美的前向传递模型的情况下,或许能求助于许多形式的强化学习之一。这个想法是对权重或神经活动进行随机扰动,并将这些扰动与收益函数的变化联系起来。但强化学习程序存在高变异性:当许多其他变量同时被扰动时,很难看到扰动一个变量的效果。为了平均化所有其他扰动造成的噪音,学习率需要与被扰动的变量数量成反比,这意味着强化学习的规模很差,对于包含数百万或数十亿参数的大型网络,无法与反向传播竞争。

这篇论文的主要观点是,含有未知非线性的神经网络不需要借助于强化学习。FF 算法的速度与反向传播相当,但它的优点是可以在正向计算的精确细节未知时使用。它的优势还在于可以在通过神经网络对顺序数据进行流水作业时进行学习,而不需要储存神经活动或停止传播误差导数。

总体来说,FF 算法比反向传播要慢一些,而且在本文研究的几个 toy problem 上,它的归纳性也不太理想,所以在功率不太受限的应用中,它不太可能取代反向传播。对于在非常大的数据集上训练的非常大的模型,这类探索将继续使用反向传播。FF 算法在两个方面可能优于反向传播,一是作为大脑皮层的学习模型,二是作为使用非常低功率的模拟硬件而不需要借助于强化学习。

FF 算法

Forward-Forward 算法是一种贪婪的多层学习程序,其灵感来自玻尔兹曼机和噪声对比估计。思路是用两个前向传递代替反向传播的前向和后向传递,这两个前向传递又以完全相同的方式彼此运算,但在不同的数据上,目标也相反。其中,positive 传递在真实数据上运算,并调整权重以增加每个隐藏层的优点(goodness);negative 传递在 negative 数据上运算,并调整权重以减少每个隐藏层中的优点。

在论文中,Hinton 通过在 CIFAR-10 上的实验展示了 FF 算法的性能。

CIFAR-10 有 50000 幅训练图像,这些图像为 32 x 32 像素大小,每个像素有三个颜色通道。因此,每幅图像有 3072 个维度。这些图像的背景很复杂,变化很大,在如此有限的训练数据下无法很好地建模。一般来说,有两到三个隐藏层的全连接网络在用反向传播法训练时,除非隐藏层非常小,否则过拟合效果很差,所以几乎所有的报告结果都是卷积网络。

由于 FF 的目的是用于权重共享不可行的网络,所以将它与反向传播网络进行了比较,后者使用局部感受野来限制权重的数量,而不过于限制隐藏单元的数量。其目的只是为了表明,在有大量隐藏单元的情况下,对于包含高度可变背景的图像,FF 的性能与反向传播相当。

表 1 显示了用反向传播和 FF 训练网络的测试性能,这两种方法都使用了权重衰减来减少过拟合。

8ed760016eaa2a2d1cc1c205ef97f676.png

更多研究细节,可参考原论文。

参考链接:

https://www.zdnet.com/article/we-will-see-a-completely-new-type-of-computer-says-ai-pioneer-geoff-hinton-mortal-computation/

"Mortal computation" means analog computers marrying AI closely to hardware will put GPT-3 in your toaster for $1 running on a few watts of power.

点击进入—> CV 微信技术交流群

FF 论文PDF下载

后台回复:FF,即可下载上面论文

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看


推荐阅读
  • 鄂维南:从数学角度,理解机器学习的「黑魔法」,并应用于更广泛的科学问题...
    作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30,鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 手把手教你使用GraphPad Prism和Excel绘制回归分析结果的森林图
    本文介绍了使用GraphPad Prism和Excel绘制回归分析结果的森林图的方法。通过展示森林图,可以更加直观地将回归分析结果可视化。GraphPad Prism是一款专门为医学专业人士设计的绘图软件,同时也兼顾统计分析的功能,操作便捷,可以帮助科研人员轻松绘制出高质量的专业图形。文章以一篇发表在JACC杂志上的研究为例,利用其中的多因素回归分析结果来绘制森林图。通过本文的指导,读者可以学会如何使用GraphPad Prism和Excel绘制回归分析结果的森林图。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • HTML学习02 图像标签的使用和属性
    本文介绍了HTML中图像标签的使用和属性,包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项,帮助读者更好地理解和应用图像标签。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • Windows7企业版怎样存储安全新功能详解
    本文介绍了电脑公司发布的GHOST WIN7 SP1 X64 通用特别版 V2019.12,软件大小为5.71 GB,支持简体中文,属于国产软件,免费使用。文章还提到了用户评分和软件分类为Win7系统,运行环境为Windows。同时,文章还介绍了平台检测结果,无插件,通过了360、腾讯、金山和瑞星的检测。此外,文章还提到了本地下载文件大小为5.71 GB,需要先下载高速下载器才能进行高速下载。最后,文章详细解释了Windows7企业版的存储安全新功能。 ... [详细]
  • 读手语图像识别论文笔记2
    文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)一、前言一句:“做完了&#x ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 关于extjs开发实战pdf的信息
    本文目录一览:1、extjs实用开发指南2、本 ... [详细]
  • 动态多点××× 单云双HUB
    动态多点是一个高扩展的IPSEC解决方案传统的ipsecS2S有如下劣势1.中心站点配置量大,无论是采用经典ipsec***还是采用greoveripsec多一个分支 ... [详细]
  • css div中文字位置_超赞的 CSS 阴影技巧与细节
    本文的题目是CSS阴影技巧与细节。CSS阴影,却不一定是box-shadow与filter:drop-shadow,为啥?因为使用其他属性 ... [详细]
  • 基于深度学习的遥感应用
    文章目录深度学习的发展过程深度学习在遥感中的应用基于深度学习的遥感样例库建设基于深度学习的遥感影像目标及场景检索基于深度学习的建筑物提取基于深度学习的密集建筑物自动检测基于深度学习 ... [详细]
author-avatar
My_Qzj
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有