鄂维南：从数学角度，理解机器学习的「黑魔法」，并应用于更广泛的科学问题...

作者：mis安小米 | 来源：互联网 | 2023-10-15 23:41

作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30，鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今

作者 | Hertz

来源 | 科学智能AISI

北京时间2022年7月8日晚上22:30&＃xff0c;鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenary talk)。今天我们带来鄂老师演讲内容的分享。鄂老师首先分享了他对机器学习数学本质的理解&＃xff08;函数逼近、概率分布的逼近与采样、Bellman方程的求解&＃xff09;&＃xff1b;然后介绍了机器学习模型的逼近误差、泛化性质以及训练等方面的数学理论&＃xff1b;最后介绍如何利用机器学习来求解困难的科学计算和科学问题&＃xff0c;即AI for science。

机器学习问题的数学本质

众所周知&＃xff0c;机器学习的发展&＃xff0c;已经彻底改变了人们对人工智能的认识。机器学习有很多令人叹为观止的成就&＃xff0c;例如&＃xff1a;

· 比人类更准确地识别图片&＃xff1a;利用一组有标记的图片&＃xff0c;机器学习算法可以准确地识别图片的类别&＃xff1a;

Cifar-10 问题&＃xff1a;把图片分成十个类别

来源&＃xff1a;https://www.cs.toronto.edu/~kriz/cifar.html

· Alphago下围棋打败人类&＃xff1a;完全由机器学习实现下围棋的算法&＃xff1a;

参考&＃xff1a;https://www.bbc.com/news/technology-35761246

· 产生人脸图片&＃xff0c;达到以假乱真的效果&＃xff1a;

参考&＃xff1a;https://arxiv.org/pdf/1710.10196v3.pdf

机器学习还有很多其他的应用。在日常生活中&＃xff0c;人们甚至常常使用了机器学习所提供的服务而不自知&＃xff0c;例如&＃xff1a;我们的邮件系统里的垃圾邮件过滤、我们的车和手机里的语音识别、我们手机里的指纹解锁……

所有这些了不起的成就&＃xff0c;本质上&＃xff0c;却是成功求解了一些经典的数学问题。

❖

对于图像分类问题&＃xff0c;我们感兴趣的其实是函数&＃xff1a;

: 图像→类别

函数把图像映射到该图像所属的类别。我们知道在训练集上的取值&＃xff0c;想由此找到对函数的一个足够好的逼近。

一般而言&＃xff0c;监督学习(supervised learning)问题&＃xff0c;本质都是想基于一个有限的训练集S&＃xff0c;给出目标函数的一个高效逼近。

❖

对于人脸生成问题&＃xff0c;其本质是逼近并采样一个未知的概率分布。在这一问题中&＃xff0c;“人脸”是随机变量&＃xff0c;而我们不知道它的概率分布。然而&＃xff0c;我们有“人脸”的样本&＃xff1a;数量巨大的人脸照片。我们便利用这些样本&＃xff0c;近似得到“人脸”的概率分布&＃xff0c;并由此产生新的样本&＃xff08;即生成人脸&＃xff09;。

一般而言&＃xff0c;无监督学习本质就是利用有限样本&＃xff0c;逼近并采样问题背后未知的概率分布。

❖

对于下围棋的Alphago来说&＃xff0c;如果给定了对手的策略&＃xff0c;围棋的动力学是一个动态规划问题的解。其最优策略满足Bellman方程。因而Alphago的本质便是求解Bellman方程。

一般而言&＃xff0c;强化学习本质上就是求解马尔可夫过程的最优策略。

然而&＃xff0c;这些问题都是计算数学领域的经典问题&＃xff01;&＃xff01;毕竟&＃xff0c;函数逼近、概率分布的逼近与采样&＃xff0c;以及微分方程和差分方程的数值求解&＃xff0c;都是计算数学领域极其经典的问题。那么&＃xff0c;这些问题在机器学习的语境下&＃xff0c;到底和在经典的计算数学里有什么区别呢&＃xff1f;答案便是&＃xff1a;

维度&＃xff08;dimensionality&＃xff09;

例如&＃xff0c;在图像识别问题中&＃xff0c;输入的维度为。而对于经典的数值逼近方法&＃xff0c;对于维问题&＃xff0c;含个参数的模型的逼近误差. 换言之&＃xff0c;如果想将误差缩小10倍&＃xff0c;参数个数需要增加. 当维数增加时&＃xff0c;计算代价呈指数级增长。这种现象通常被称为&＃xff1a;

维度灾难&＃xff08;curse of dimensionality&＃xff09;

所有的经典算法&＃xff0c;例如多项式逼近、小波逼近&＃xff0c;都饱受维度灾难之害。很明显&＃xff0c;机器学习的成功告诉我们&＃xff0c;在高维问题中&＃xff0c;深度神经网络的表现比经典算法好很多。然而&＃xff0c;这种“成功”是怎么做到的呢&＃xff1f;为什么在高维问题中&＃xff0c;其他方法都不行&＃xff0c;但深度神经网络取得了前所未有的成功呢&＃xff1f;

从数学出发&＃xff0c;理解机器学习的“黑魔法”&＃xff1a;监督学习的数学理论

2.1 记号与设定

神经网络是一类特殊的函数。比如&＃xff0c;两层神经网络是&＃xff1a;

其中有两组参数&＃xff0c;和。是激活函数&＃xff0c;可以是&＃xff1a;

· &＃xff0c;ReLU函数&＃xff1b;

· &＃xff0c;Sigmoid函数。

而神经网络的基本组成部分即为&＃xff1a;线性变换与一维非线性变换。深度神经网络&＃xff0c;一般就是如下结构的复合&＃xff1a;

为了简便&＃xff0c;我们在此省略掉所有的bias项。是权重矩阵&＃xff0c;激活函数作用在每一个分量上。

我们将要在训练集S上逼近目标函数

不妨假设的定义域为。令为的分布。那么我们的目标便是&＃xff1a;最小化测试误差(testing error&＃xff0c;也称为population risk或generalization error)&＃xff1a;

2.2 监督学习的误差

监督学习一般有如下的步骤&＃xff1a;

❖

第一步&＃xff1a;选取一个假设空间&＃xff08;测试函数的一个集合&＃xff09;&＃xff08;m正比于测试空间的维数&＃xff09;&＃xff1b;

❖

第二步&＃xff1a;选取一个损失函数进行优化。通常&＃xff0c;我们会选择经验误差(empirical risk)来拟合数据&＃xff1a;

有时&＃xff0c;我们还会加上其他的惩罚项。

❖

第三步&＃xff1a;求解优化问题&＃xff0c;如&＃xff1a;

· 梯度下降&＃xff1a;

· 随机梯度下降&＃xff1a;

是从1,…n中随机选取的。

如果把机器学习输出的结果记&＃xff0c;那么总误差便是。我们再定义&＃xff1a;

❖

是在假设空间里最好的逼近&＃xff1b;

❖

是在假设空间里&＃xff0c;基于数据集S最好的逼近。

由此&＃xff0c;我们便可以把误差分解成三部分&＃xff1a;

❖

是逼近误差(approximation error)&＃xff1a;完全由假设空间的选取所决定&＃xff1b;

❖

是估计误差(estimation error)&＃xff1a;由于数据集大小有限而带来的额外的误差&＃xff1b;

❖

是优化误差(optimization error)&＃xff1a;由训练&＃xff08;优化&＃xff09;带来的额外的误差。

2.3 逼近误差

我们下面集中讨论逼近误差(approximation error)。

我们先用传统方法傅立叶变换做一个对比&＃xff1a;

如果我们用离散的傅立叶变换来逼近&＃xff1a;

其误差便是正比于&＃xff0c;毫无疑问地受到维度灾难的影响。

而如果一个函数可以表示成期望的形式&＃xff1a;

令是测度的独立同分布样本&＃xff0c;我们有&＃xff1a;

那么此时的误差是&＃xff1a;

可以看到&＃xff0c;这是与维数无关的&＃xff01;

如果让激活函数为&＃xff0c;那么就是以为激活函数的两层神经网络。此结果意味着&＃xff1a;这一类&＃xff08;可以表示成期望&＃xff09;的函数&＃xff0c;都可以由两层神经网络逼近&＃xff0c;且逼近误差的速率与维数无关&＃xff01;

对于一般的双层神经网络&＃xff0c;我们可以得到一系列类似的逼近结果。其中关键的问题是&＃xff1a;到底什么样的函数可以被双层神经网络逼近&＃xff1f;为此&＃xff0c;我们引入Barron空间的定义&＃xff1a;

Barron空间的定义

参考&＃xff1a;E, Chao Ma, Lei Wu (2019)

对于任意的Barron函数&＃xff0c;存在一个两层神经网络&＃xff0c;其逼近误差满足&＃xff1a;

可以看到这一逼近误差与维数无关&＃xff01;&＃xff08;关于这部分理论的细节&＃xff0c;可以参考&＃xff1a;E, Ma and Wu (2018, 2019), E and Wojtowytsch (2020)。其他的关于Barron space的分类理论&＃xff0c;可以参考Kurkova (2001), Bach (2017),Siegel and Xu (2021)&＃xff09;

类似的理论可以推广到残差神经网络(residual neural network)。在残差神经网络中&＃xff0c;我们可以用流-诱导函数空间&＃xff08;flow-induced function space&＃xff09;替代Barron空间。

2.4 泛化性&＃xff1a;训练误差与测试误差的差别

人们一般会期待&＃xff0c;训练误差与测试误差的差别会正比于&＃xff08;n是样本数量&＃xff09;。然而&＃xff0c;我们训练好的机器学习模型和训练数据是强相关的&＃xff0c;这导致这样子的Monte-Carlo速率不一定成立。为此&＃xff0c;我们给出了如下的泛化性理论&＃xff1a;

简言之&＃xff0c;我们用Rademacher复杂度来刻画一个空间在数据集上拟合随机噪声的能力。Rademacher复杂度的定义为&＃xff1a;

其中是取值为1或-1的独立同分布的随机变量。

当是李朴西斯空间中的单位球时&＃xff0c;其Rademacher复杂度正比于。

当d增加时&＃xff0c;可以看到拟合需要的样本大小指数上升。这其实是另一种形式的维度灾难。

2.5 训练过程的数学理解

关于神经网络的训练&＃xff0c;有两个基本的问题&＃xff1a;

❖

梯度下降方法到底能不能快速收敛&＃xff1f;

❖

训练得到的结果&＃xff0c;是否有比较好的泛化性&＃xff1f;

对于第一个问题&＃xff0c;答案恐怕是悲观的。Shamir(2018)中的引理告诉我们&＃xff0c;基于梯度的训练方法&＃xff0c;其收敛速率也受维度灾难的影响。而前文提到的Barron space&＃xff0c;虽然是建立逼近理论的好手段&＃xff0c;但对于理解神经网络的训练却是一个过大的空间。

特别地&＃xff0c;这样子的负面结果可以在高度超参数(highly over-parameterized regime)的情形&＃xff08;即m>>n&＃xff09;下得到具体刻画。在此情形下&＃xff0c;参数的动力学出现了尺度分离的现象&＃xff1a;对于如下的两层神经网络&＃xff1a;

在训练过程中&＃xff0c;的动力学分别为&＃xff1a;

由此可以看到尺度分离的现象&＃xff1a;当m很大的时候&＃xff0c;的动力学几乎被冻结住。

这种情形下&＃xff0c;好消息是我们有了指数收敛&＃xff08;Du et al, 2018&＃xff09;&＃xff1b;坏消息却是这时候&＃xff0c;神经网络表现得并不比从random feature model模型好。

我们也可以从平均场的角度理解梯度下降方法。令&＃xff1a;&＃xff0c;并令&＃xff1a;

则是下列梯度下降问题的解&＃xff1a;

当且仅当是下面方程的解&＃xff08;参考&＃xff1a;Chizat and Bach (2018), Mei, Montanari and Nguyen (2018), Rotsko and Vanden-Eijnden (2018), Sirignano and Spiliopoulos (2018)&＃xff09;&＃xff1a;

这一平均场动力学&＃xff0c;实际上是在Wassenstein度量意义下的梯度动力学。人们证明了&＃xff1a;如果其初始值的支集为全空间&＃xff0c;且梯度下降的确收敛&＃xff0c;那么其收敛结果必然是全局最优&＃xff08;参考&＃xff1a;Chizat and Bach (2018,2020), Wojtowytsch (2020)&＃xff09;。

机器学习的应用

3.1 解决高维科学计算问题

既然机器学习是处理高维问题的有效工具&＃xff0c;我们便可运用机器学习解决传统计算数学方法难以处理的问题。

第一个例子便是随机控制问题。传统方法求解随机控制问题需要求解一个极其高维的Bellman方程。运用机器学习方法&＃xff0c;可以有效求解随机控制问题。其思路与残差神经网络颇为类似&＃xff08;参考Jiequn Han and E (2016)&＃xff09;&＃xff1a;

第二个例子便是求解非线性抛物方程。非线性抛物方程可以被改写成一个随机控制问题&＃xff0c;其极小点是唯一的&＃xff0c;对应着非线性抛物方程的解。

3.2 AI for science

利用机器学习处理高维问题的能力&＃xff0c;我们可以解决更多科学上的难题。这里我们举两个例子。第一个例子是Alphafold。

参考&＃xff1a;J. Jumper et al. (2021)

第二个例子&＃xff0c;便是我们自己的工作&＃xff1a;深度势能分子动力学(DeePMD)。这是能达到从头计算精度的分子动力学。我们所使用的新的模拟“范式”便是&＃xff1a;

❖

利用量子力学第一性原理计算提供数据&＃xff1b;

❖

利用神经网络&＃xff0c;给出势能面准确的拟合&＃xff08;参考&＃xff1a;Behler and Parrinello (2007), Jiequn Han et al (2017), Linfeng Zhang et al (2018)&＃xff09;。

运用DeePMD&＃xff0c;我们能够模拟一系列材料和分子&＃xff0c;可以达到第一性层面的计算精度&＃xff1a;

我们还实现了一亿原子的第一性原理精度的模拟&＃xff0c;获得了2020年的戈登贝尔奖&＃xff1a;

参考&＃xff1a;Weile Jia, et al, SC20, 2020 ACM Gordon Bell Prize

我们给出了水的相图&＃xff1a;

参考&＃xff1a;Linfeng Zhang, Han Wang, et al. (2021)

而事实上&＃xff0c;物理建模横跨多个尺度&＃xff1a;宏观、介观、微观&＃xff0c;而机器学习恰好提供了跨尺度建模的工具。

AI for science&＃xff0c;即用机器学习解决科学问题&＃xff0c;已经有了一系列重要的突破&＃xff0c;如&＃xff1a;

❖

量子多体问题&＃xff1a;RBM (2017), DeePWF (2018), FermiNet (2019),PauliNet (2019),…&＃xff1b;

❖

密度泛函理论: DeePKS (2020), NeuralXC (2020), DM21 (2021), …&＃xff1b;

❖

分子动力学: DeePMD (2018), DeePCG (2019), …;

❖

动理学方程: 机器学习矩封闭 (Han et al. 2019);

❖

连续介质动力学: (2020)

在未来五到十年&＃xff0c;我们有可能做到&＃xff1a;跨越所有物理尺度进行建模和计算。这将彻底改变我们如何解决现实问题&＃xff1a;如药物设计、材料、燃烧发动机、催化……

总结

机器学习根本上是高维中的数学问题。神经网络是高维函数逼近的有效手段&＃xff1b;这便为人工智能领域、科学以及技术领域提供了众多新的可能性。

这也开创了数学领域的一个新主题&＃xff1a;高维的分析学。简而言之&＃xff0c;可以总结如下&＃xff1a;

❖

监督学习&＃xff1a;高维函数理论&＃xff1b;

❖

无监督学习&＃xff1a;高维概率分布理论&＃xff1b;

❖

强化学习&＃xff1a;高维Bellman方程&＃xff1b;

❖

时间序列学习&＃xff1a;高维动力系统。

关于AISI

北京科学智能研究院&＃xff08;AI for Science Institute, 以下简称AISI&＃xff09;成立于2021年9月&＃xff0c;由鄂维南院士领衔&＃xff0c;致力于将人工智能技术与科学研究相结合&＃xff0c;加速不同科学领域的发展和突破&＃xff0c;推动科学研究范式的革新&＃xff0c;建设引领世界的「AI for Science」基础设施体系。

AISI的研究人员来自国内外顶尖高校、科研机构和科技企业&＃xff0c;共同聚焦物理建模、数值算法、人工智能、高性能计算等交叉领域的核心问题。

AISI致力于创造思想碰撞的学术环境&＃xff0c;鼓励自由探索和跨界合作&＃xff0c;共同探索人工智能与科学研究结合的新可能。

——The End——

在看

推荐阅读

jsp
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
process
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
process
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
bit
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
import
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
merge
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
text
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
text
花瓣|目标值_Compose 动画边学边做夏日彩虹

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Compose动画边学边做-夏日彩虹相关的知识，希望对你有一定的参考价值。引言Comp ... [详细]

蜡笔小新 2023-10-17 21:58:22
text
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
const
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
const
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
text
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
text
基于深度学习的遥感应用

文章目录深度学习的发展过程深度学习在遥感中的应用基于深度学习的遥感样例库建设基于深度学习的遥感影像目标及场景检索基于深度学习的建筑物提取基于深度学习的密集建筑物自动检测基于深度学习 ... [详细]

蜡笔小新 2023-10-15 18:33:51
text
老电影和图片变清晰的秘密！分辨率提升400%的AI算法

老电影和图片变清晰的秘密！分辨率提升400%的AI算法-如上图，从100x133pix→400x532pix，除了肉眼可见的清晰，拥有可以将分辨率提升400%的技术到底意味着什么 ... [详细]

蜡笔小新 2023-10-13 13:06:20

mis安小米

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章