热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

keras用cpu加速_NVIDIA发布《2020推荐系统加速框架白皮书》

这是一个全民互联网消费的时代,而消费互联网的本质是个人虚拟化,增强个人消费体验。今年,天猫“双11”的成交额突破了4982亿元࿰

这是一个全民互联网消费的时代,而消费互联网的本质是个人虚拟化,增强个人消费体验。今年,天猫“双11”的成交额突破了 4982 亿元,它的推荐系统实现了首页商品的个性化推荐,目标是提高转化率和点击率。如果推荐系统整体的转化率提高 1%,那么增加的成交额大约就是 49.82 亿。可以说,推荐系统的转化力就是消费互联网的生产力。

推荐系统在经历了 20 世纪末本世纪初“从 0 到 1”的基础构建后,现正朝“从 1 到 100 ”的应用优化方向不断创新。

在今天与 GTC 中国站同步上线的《2020 推荐系统加速框架白皮书》中,CCID 深入浅出地介绍了基于深度学习的推荐系统的应用,阐述了当前国内的推荐系统市场行情及发展趋势,并分析了用于构建大规模深度学习推荐系统的开放框架 NVIDIA Merlin。

4f6536244135b0e0de0ba7ebddd96c02.png

什么是基于深度学习的推荐系统?

推荐系统(Recommender System)是向用户建议有用物品(“物品”指系统向用户推荐内容的总称)的软件工具和技术。它可以通过向用户建议有用的物品,帮助用户决策,如购买什么物品、听什么音乐、在网上浏览什么新闻等。

近年来,深度学习在图像处理、自然语言理解和语音识别等领域取得了突破性进展,也为推荐系统的研究带来了新的机遇。基于深度学习的推荐系统通常将各类用户和项目相关的数据作为输入,利用深度学习模型挖掘用户和项目的隐表示,并基于这种隐含关系为用户产生项目推荐。

基于深度学习的推荐系统具有以下方面的优势:

  1. 能够直接从内容中提取特征,表征能力强
  2. 容易对噪声数据进行处理,抗噪能力强
  3. 可以使用循环神经网络对动态或者序列数据进行建模
  4. 可以更加准确地学习用户与物品的特征

尽管深度学习推荐模型得到了广泛的应用,却也带来了庞大的计算需求。考虑到海量的待处理数据以及到推荐系统训练时的模型并行性和数据并行性问题,我们需要端到端 GPU 上推荐程序框架用以提供快速功能工程和高培训吞吐量。

为什么需要推荐系统加速框架?

推荐系统加速框架是面向推荐系统的端到端解决方案。主流的推荐系统加速框架一般为针对深度学习推荐系统的端到端解决方案,能够优化深度学习推荐算法,将加速推荐算法的训练、部署等过程。

根据推荐系统加速框架对推荐系统的专用性,可将推荐系统加速框架分为通用型推荐系统加速框架与专用型推荐系统加速框架。

通用型推荐系统加速框架支持包括推荐算法在内的多种深度学习算法,未能针对深度学习推荐算法进行优化,典型框架有 TensorFlow、PyTorch、Keras 等。专用型推荐系统加速框架仅支持学习推荐算法,面向深度学习推荐算法同时针对硬件系统及软件进行了优化,并包含数据预处理、模型训练、推理及交互等完整的推荐系统结构,其典型框架是 NVIDIA Merlin。

推荐系统加速框架产业格局

推荐系统加速框架目前的格局中,以互联网公司自主研发为主。互联网头部企业由于本身体量较大,有能力自主研发推荐系统及推荐系统框架。而绝大多数互联网公司会采用主流的深度学习框架搭建系统,如采用 TensorFlow、PyTorch 等。

目前推荐系统加速框架以优化运行在 CPU 为核心的服务器为主,也支持优化以 GPU 为算力核心的服务器。NVIDIA Merlin 是专用于推荐系统的深度学习加速框架,并且仅用于优化运行在以GPU为算力核心的服务器上的推荐系统,随着 AI 对 GPU的需求逐渐提升,以 GPU 为基础算力的推荐系统将呈现快速增长趋势,NVIDIA Merlin 的竞争力也将不断加强。

中国推荐系统加速框架产业发展现状

现阶段中国互联网企业不再依靠人口红利快速扩张,而是依靠对用户精准的把握进行消费互联网布局。因而推荐系统加速框架产业市场规模呈现逐年增长的趋势,2019年中国推荐系统加速框架产业市场规模达 2.16 万亿人民币,预计到 2024 年中国推荐系统加速框架产业市场规模将超过 7.7 万亿人民币。

5aab94635153014b4b531f561599a5de.png

CCID:中国推荐系统框架市场规模

Merlin框架简介

NVIDIA Merlin 是 NVIDIA 推出的基于 GPU 的用于构建大规模深度学习推荐系统的开放框架,它提供的工具可以使开发者更加自主地构建深度学习推荐系统,从而获得比传统推荐方法更准确的预测以提高用户的点击率。Merlin 为用户提供了一个全链路解决方案,用于为推荐系统提供 GPU 加速的数据提取、模型训练和模型部署。Merlin 链路的每个环节经过优化后可支持数百 TB 的数据,所有数据都可通过易于使用的 API 访问。它可以利用基于 NVIDIA Ampere 架构的全 NVIDIA A100 GPU,帮助企业构建推荐系统。

Merlin框架优势与前景

尽管常用的深度学习框架均支持在 GPU 中训练推荐算法,但目前推荐算法仍多数运行在 CPU 上,Merlin 致力于解决 GPU 相比 CPU 加速不够显著的问题。首先 Merilin 依托 GPU 算力,可使推荐算法性能显著提升。其次,用户既可以使用 NVIDIA 提供的推荐系统,也可以自主开发推荐系统。灵活的使用方式大大降低了基于 GPU 的深度学习推荐系统开发门槛。此外使用 CUDA 编程语言的 Merilin 保证了向后兼容,这也为产品的快速迭代升级提供了保障。最后,Merlin 具有强大的生态扩展性。NVIDIA 十分重视 Merlin 体系的建设,投入了大量的研究人员持续到 Merlin 的研发、运营、产品迭代中,致力于 GPU 加速的推荐算法体系的建设,努力赋能 Merlin 框架下的推荐系统生态的建设。

Merlin 框架是当前市场上仅存的针对于深度学习推荐算法的推荐系统框架,也是当前市场上仅存的专门针对于 NVIDIA GPU 的推荐系统框架。Merlin 框架大大降低了基于 GPU 的深度学习推荐系统开发门槛,为基于 GPU 加速的推荐算法体系生态建设赋能。

点击下方"了解更多"浏览完整报告。



推荐阅读
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • 本文介绍了Windows操作系统的版本及其特点,包括Windows 7系统的6个版本:Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统,具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本,缺乏Aero特效功能,没有64位支持,最初设计不能同时运行三个以上应用程序。 ... [详细]
  • 恶意软件分析的最佳编程语言及其应用
    本文介绍了学习恶意软件分析和逆向工程领域时最适合的编程语言,并重点讨论了Python的优点。Python是一种解释型、多用途的语言,具有可读性高、可快速开发、易于学习的特点。作者分享了在本地恶意软件分析中使用Python的经验,包括快速复制恶意软件组件以更好地理解其工作。此外,作者还提到了Python的跨平台优势,使得在不同操作系统上运行代码变得更加方便。 ... [详细]
  • 通过Anaconda安装tensorflow,并安装运行spyder编译器的完整教程
    本文提供了一个完整的教程,介绍了如何通过Anaconda安装tensorflow,并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统,并提供了相关的网址供参考。通过本教程,读者可以轻松地安装和配置tensorflow环境,以及运行spyder编译器进行开发。 ... [详细]
  • Android图形架构学习笔记(待修改)
    以下简单总结来自Android官网,稍作总结:https:source.android.google.cndevicesgraphics概览Andr ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 开发笔记:计网局域网:NAT 是如何工作的?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了计网-局域网:NAT是如何工作的?相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 利用Visual Basic开发SAP接口程序初探的方法与原理
    本文介绍了利用Visual Basic开发SAP接口程序的方法与原理,以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图,在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型,并强调本文主要不讨论SAP R/3函数的开发,而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • 本文介绍了腾讯最近开源的BERT推理模型TurboTransformers,该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想,通过简化问题和加速开发,实现了快速推理能力。同时,文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题,并提出了合并计算的解决方案。 ... [详细]
  • 技嘉秀高端B450主板:不再支持第七代APU,性价比高且兼容锐龙一代和二代
    在台北电脑展上,技嘉展示了一款高端的B450主板,型号为“b450 aorus pro wi-fi”。该主板具有10+1相供电、散热片覆盖的供电区域和芯片组,以及两个m.2插槽和背部IO挡板。虽然不支持第七代APU bristol ridge,但它兼容锐龙一代和二代,且具有较高的性价比。该主板还配备了音频声卡、Wi-Fi无线网卡等功能,是一款性能出色且设计精良的主板。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
author-avatar
谢海武181_160
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有