热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

从信息流推荐到控制领域百度PaddlePaddle技术能力再升级

人工智能技术越来越广泛的应用于各行各业,而这一切都离不开底层深度学习框架的支持。近日,百度深度学习P

人工智能技术越来越广泛的应用于各行各业,而这一切都离不开底层深度学习框架的支持。近日,百度深度学习PaddlePaddle 正式发布了强化学习框架 PARL,同时开源了基于该框架,在 NeurIPS 2018强化学习赛事中夺冠的模型完整训练代码,再次向业界展示了百度在深度学习领域的技术能力。

PARL 的效果如何?

PARL 是基于百度PaddlePaddle 打造的深度强化学习框架,覆盖了 DQN、DDQN、Dueling DQN、DDPG、PPO 等主流强化学习算法。在 PARL 1.0 的发布中,基于 PARL 实现的 DDPG,DQN, PPO 等算法均有覆盖,在一些经典测试问题中,如 Atari Game, Mujoco 等,均取得了 state-of-the-art 的成绩。性能相比其他平台也毫不示弱。

从信息流推荐到控制领域 百度PaddlePaddle技术能力再升级

此外,PARL 框架支持百亿级别数据或特征的训练,基于 PARL 可同时通过 8 块 GPU 拉动近 20000 个 CPU 节点运算。在 NeurIPS 2018 赛事中将需要近 5 个小时迭代一轮的 PPO 算法加速到不到 1 分钟,相对单机运算加速比高达几百倍。与现有开源强化学习 工具 和平台相比,PARL 框架具有更高的可扩展性、可复现性和可复用性,支持大规模并行和稀疏特征,能够快速完成对工业级应用案例的验证。

在 NeurIPS 2018强化学习赛事中 PRAL 的使用脱颖而出,击败了 400 多支来自全球各个研究机构的参赛队伍,获得冠军的最关键因素是,PARL 框架在算法上采用了独特的网络结构,特征处理、奖励值工程、探索策略以及学习方法。其中比较重要一点是用了课程学习(Curriculum Learning)来学习一个比较好的初始步态。而在架构方面,受到 GA3C 启发,所设计的 DDPG 并行结构直接达到了单机性能的几百倍,使得深度强化学习框架 PARL 的调研效率大大提升。

PARL 在哪些前沿应用发挥作用?

新闻和信息推荐

近年来,信息流在研究上出现两个难点和热点,一个是列表页内的组合优化,另一个是列表页间的兴趣转移。传统推荐往往都是基于用户和单点内容之间的喜好程度来预估。现代信息推荐系统注重列表内的组合,以及列表页间的转移变化。而这两个点,都是强化学习适合的重要场景。

列表页内的优化主要是内容之间的组合,现代信息流推荐系统并不是一次只推荐一个内容,而是一次推荐多个内容。由于列表多个内容之间的相互关联会影响到用户体验,但对于具体如何关联,却没有办法确定。虽然大家都知道多样性比较重要,但为什么重要,以及多样性到底怎么量化,目前依旧缺乏统一的认识。而列表页间的优化,针对的是用户行为的序列。用户浏览完一个列表,重新刷新,再看第二个列表,这个过程中兴趣有没有发生转移?有没有新的兴趣被激发?这两个点都涉及到长期收益问题。也就是说,不能再仅仅用当前内容的用户反馈来学习,而是得用比较长时间的收益来学习。

从信息流推荐到控制领域 百度PaddlePaddle技术能力再升级

在列表页内组合上,PARL 所提出的序列框架统一了学术界对列表页框架认识的一些模糊。根据百度发布的文章,多样性一个概念远不足以反映列表页内的关联关系。内容之间既有相互重叠,又有相互关联和促进。以往的多样性建模往往比较片面。而基于序列优化的建模方式,能够处理内容之间所有可能关联。强化学习在这中间,起到了关键的序列全局优化的作用。而百度内部在 2017 年底就 Launch 了序列优化框架,据了解,这个框架至今已经取得了不少收益。而 PARL 在其中充分发挥了其在大规模训练中性能的优势。

从信息流推荐到控制领域 百度PaddlePaddle技术能力再升级

序列生成网络 – 指针网络

而在列表页之间的转移方面,百度内部也早已已经开展了探索。对于信息流推荐这类产品的列表间优化,强化学习面临一个难题是 Variance 过大,可能导致准确率下降。学术界有不少针对这个问题的工作,但提出的方法都相对偏理想化,鲜有方法能够真正用到线上并产生收益。开发者正在基于 PARL 创新「Credit Assignment」这类新的算法,以更好地更接地气地解决这些问题,据悉目前已有一些进展,不远将来可能发布这些成果。

从信息流推荐到控制领域 百度PaddlePaddle技术能力再升级

序列生成 – 评估框架

自动导航和控制

PARL 框架也将强化学习用在无人机和无人车的自动导航和避障领域。控制问题是一个经典的 Delayed Reward 问题,强化学习最开始也是在控制领域应用最广的。因为如果发生碰撞或者控制不好,一定不是当前一个时间步的问题,而是多个时间步的连续问题。传统的强化学习研究,都不关注成本和风险,认为灾害事件(如碰撞)可以无成本获得。但真实场景,比如无人车、无人机,则不允许有那么多的碰撞。

从信息流推荐到控制领域 百度PaddlePaddle技术能力再升级

无人机导航强化学习

开发者利用很多无人车、无人机测试过程中的「安全员」这一角色,不仅为了在测试中可以保障安全,还将这些夹杂了安全员干预的、不符合传统强化学习路径的数据收集起来,作为信号来学习。该算法叫干预辅助强化学习(Intervention Aided Reinforcement Learning)(http://proceedings.mlr.press/v87/wang18a.html),它可以通过学习带干预的路径,来强化策略,使得干预可以直接被降低。基于这套算法,百度成功使得一个端到端(end-to-end)的复杂神经网络模型,能够被用于直接控制飞行器的避障,在障碍物比较密集的环境中平稳飞行。这不仅证明了强化学习被用在自动导航问题上的可能性,也为无人车的强化学习训练探索了一种方法。该方法也会在短期内开源到 PARL 里面,方便用户使用。

总结

在强化学习方面,百度内早在 2012 年就将在 multi-armed bandit 问题上的研究成果部署到了推荐系统中,应用于搜索、对话、推荐等产品,通过点击反馈结合在线训练的方式,动态调整探索和收益的平衡点,在降低探索风险的同时最大化推荐收益。随着 PaddlePaddle 在工业界的影响不断深入,未来基于 PaddlePaddle深度学习框架 PARL 将对工业界,以及学术界的深度强化学习应用和研究起到长远的促进作用,来满足业界日趋发展旺盛的深度强化学习应用的需求,做到真正源于产业实践的深度学习框架。


以上所述就是小编给大家介绍的《从信息流推荐到控制领域 百度PaddlePaddle技术能力再升级》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 我们 的支持!


推荐阅读
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 本文由编程笔记#小编整理,主要介绍了关于数论相关的知识,包括数论的算法和百度百科的链接。文章还介绍了欧几里得算法、辗转相除法、gcd、lcm和扩展欧几里得算法的使用方法。此外,文章还提到了数论在求解不定方程、模线性方程和乘法逆元方面的应用。摘要长度:184字。 ... [详细]
  • Java和JavaScript是什么关系?java跟javaScript都是编程语言,只是java跟javaScript没有什么太大关系,一个是脚本语言(前端语言),一个是面向对象 ... [详细]
  • Android源码中的Builder模式及其作用
    本文主要解释了什么是Builder模式以及其作用,并结合Android源码来分析Builder模式的实现。Builder模式是将产品的设计、表示和构建进行分离,通过引入建造者角色,简化了构建复杂产品的流程,并且使得产品的构建可以灵活适应变化。使用Builder模式可以解决开发者需要关注产品表示和构建步骤的问题,并且当构建流程发生变化时,无需修改代码即可适配新的构建流程。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • 项目运行环境配置及可行性分析
    本文介绍了项目运行环境配置的要求,包括Jdk1.8、Tomcat7.0、Mysql、HBuilderX等工具的使用。同时对项目的技术可行性、操作可行性、经济可行性、时间可行性和法律可行性进行了分析。通过对数据库的设计和功能模块的设计,确保系统的完整性和安全性。在系统登录、系统功能模块、管理员功能模块等方面进行了详细的介绍和展示。最后提供了JAVA毕设帮助、指导、源码分享和调试部署的服务。 ... [详细]
author-avatar
拍友2502881913
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有