![99a6911385d66aa73677bb00ff54fb22.png](https://img5.php1.cn/3cdc5/9453/978/e4c509a5e3e06919.png)
当前强化学习已在许多应用中取得了巨大成功。但样本效率仍是强化学习中一个重大挑战,重要的方法需要数百万(甚至数十亿)的环境步骤来训练。虽然,当前在基于图像的样本高效RL算法方面取得了重大进展;但是,在Atari游戏基准上,要达到与人类水平相一致,仍然是一个难以实现的目标。
智源社区特邀请了清华大学交叉信息研究院助理教授高阳博士分享其团队的新研究《使用有限数据掌控Atari游戏》( Mastering Atari Games with Limited Data)。
![dded199d542fa2a5017c5b1338c95784.png](https://img5.php1.cn/3cdc5/9453/978/ced8f3ce39a1697d.png)
论文链接:https://arxiv.org/abs/2111.00210#
![3873310bb559700055ed5d092cbf3619.png](https://img5.php1.cn/3cdc5/9453/978/ae4df201ee525ff8.png)
主讲人:高阳,博士,清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校,本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。
个人主页:http://people.iiis.tsinghua.edu.cn/~gaoyang/
主题:使用有限的数据掌握Atari游戏
时间:2021年11月23日(周二)19:00~20:00
形式:线上
入会方式:
腾讯会议-ID:976 455 019
直播地址一:
https://event.baai.ac.cn/activities/191
直播地址二:
http://live.bilibili.com/21484823
报告简介:
近期,清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌握Atari游戏》( Mastering Atari Games with Limited Data)提出了EfficientZero算法。基于该算法可实现,通过少量的数据学习就能让RL智能体获得超越人类的性能,这使得通用强化学习更加接近真实场景。此项重大的研究在学术界引起了大范围的关注和热议。
![42b63243e613952847d9aa50b7e0c467.png](https://img5.php1.cn/3cdc5/9453/978/c3d6c6ed687d8123.png)
![5fad2213b59153c587f1d6e0404e5316.png](https://img5.php1.cn/3cdc5/9453/978/fb7dde69697a7e32.png)
这是一种基于MuZero的基于模型的视觉RL算法,在贴近现实复杂情况的Atari(雅达利)游戏中,它从零开始仅用两个小时的训练数据,就能超过相同条件下人类的平均水平。这是第一次一个算法在Atari游戏中用如此少的数据达到超人的表现。
![db73629a531a357dd5b6d942fa3c2c56.png](https://img5.php1.cn/3cdc5/9453/978/685ca46225a49388.png)
EfficientZero的性能也接近DQN在2亿帧时的性能,而其的数据消耗量却减少了500倍。EfficientZero的低样本复杂度和高性能可以使RL在现实世界中更具适用性。
扫描下面二维码报名参加活动
![3b749577327b0d971d5e41f782eca73c.png](https://img5.php1.cn/3cdc5/9453/978/0983c24597b27251.png)
了解更多信息请加入「强化学习」交流群
![6e8dc9f616159c968d54d19d44bc8275.png](https://img5.php1.cn/3cdc5/9453/978/e875c5102307eec9.png)