当前位置: 开发笔记 > 后端 > 正文

keras用cpu加速_NVIDIA发布《2020推荐系统加速框架白皮书》

作者：谢海武181_160 | 来源：互联网 | 2023-05-27 20:43

这是一个全民互联网消费的时代，而消费互联网的本质是个人虚拟化，增强个人消费体验。今年，天猫“双11”的成交额突破了4982亿元࿰

这是一个全民互联网消费的时代&＃xff0c;而消费互联网的本质是个人虚拟化&＃xff0c;增强个人消费体验。今年&＃xff0c;天猫“双11”的成交额突破了 4982 亿元&＃xff0c;它的推荐系统实现了首页商品的个性化推荐&＃xff0c;目标是提高转化率和点击率。如果推荐系统整体的转化率提高 1%&＃xff0c;那么增加的成交额大约就是 49.82 亿。可以说&＃xff0c;推荐系统的转化力就是消费互联网的生产力。

推荐系统在经历了 20 世纪末本世纪初“从 0 到 1”的基础构建后&＃xff0c;现正朝“从 1 到 100 ”的应用优化方向不断创新。

在今天与 GTC 中国站同步上线的《2020 推荐系统加速框架白皮书》中&＃xff0c;CCID 深入浅出地介绍了基于深度学习的推荐系统的应用&＃xff0c;阐述了当前国内的推荐系统市场行情及发展趋势&＃xff0c;并分析了用于构建大规模深度学习推荐系统的开放框架 NVIDIA Merlin。

什么是基于深度学习的推荐系统&＃xff1f;
推荐系统(Recommender System)是向用户建议有用物品(“物品”指系统向用户推荐内容的总称)的软件工具和技术。它可以通过向用户建议有用的物品&＃xff0c;帮助用户决策&＃xff0c;如购买什么物品、听什么音乐、在网上浏览什么新闻等。
近年来&＃xff0c;深度学习在图像处理、自然语言理解和语音识别等领域取得了突破性进展&＃xff0c;也为推荐系统的研究带来了新的机遇。基于深度学习的推荐系统通常将各类用户和项目相关的数据作为输入&＃xff0c;利用深度学习模型挖掘用户和项目的隐表示&＃xff0c;并基于这种隐含关系为用户产生项目推荐。
基于深度学习的推荐系统具有以下方面的优势&＃xff1a;
能够直接从内容中提取特征&＃xff0c;表征能力强
容易对噪声数据进行处理&＃xff0c;抗噪能力强
可以使用循环神经网络对动态或者序列数据进行建模
可以更加准确地学习用户与物品的特征
尽管深度学习推荐模型得到了广泛的应用&＃xff0c;却也带来了庞大的计算需求。考虑到海量的待处理数据以及到推荐系统训练时的模型并行性和数据并行性问题&＃xff0c;我们需要端到端 GPU 上推荐程序框架用以提供快速功能工程和高培训吞吐量。

为什么需要推荐系统加速框架&＃xff1f;
推荐系统加速框架是面向推荐系统的端到端解决方案。主流的推荐系统加速框架一般为针对深度学习推荐系统的端到端解决方案&＃xff0c;能够优化深度学习推荐算法&＃xff0c;将加速推荐算法的训练、部署等过程。
根据推荐系统加速框架对推荐系统的专用性&＃xff0c;可将推荐系统加速框架分为通用型推荐系统加速框架与专用型推荐系统加速框架。
通用型推荐系统加速框架支持包括推荐算法在内的多种深度学习算法&＃xff0c;未能针对深度学习推荐算法进行优化&＃xff0c;典型框架有 TensorFlow、PyTorch、Keras 等。专用型推荐系统加速框架仅支持学习推荐算法&＃xff0c;面向深度学习推荐算法同时针对硬件系统及软件进行了优化&＃xff0c;并包含数据预处理、模型训练、推理及交互等完整的推荐系统结构&＃xff0c;其典型框架是 NVIDIA Merlin。

推荐系统加速框架产业格局
推荐系统加速框架目前的格局中&＃xff0c;以互联网公司自主研发为主。互联网头部企业由于本身体量较大&＃xff0c;有能力自主研发推荐系统及推荐系统框架。而绝大多数互联网公司会采用主流的深度学习框架搭建系统&＃xff0c;如采用 TensorFlow、PyTorch 等。
目前推荐系统加速框架以优化运行在 CPU 为核心的服务器为主&＃xff0c;也支持优化以 GPU 为算力核心的服务器。NVIDIA Merlin 是专用于推荐系统的深度学习加速框架&＃xff0c;并且仅用于优化运行在以GPU为算力核心的服务器上的推荐系统&＃xff0c;随着 AI 对 GPU的需求逐渐提升&＃xff0c;以 GPU 为基础算力的推荐系统将呈现快速增长趋势&＃xff0c;NVIDIA Merlin 的竞争力也将不断加强。

中国推荐系统加速框架产业发展现状
现阶段中国互联网企业不再依靠人口红利快速扩张&＃xff0c;而是依靠对用户精准的把握进行消费互联网布局。因而推荐系统加速框架产业市场规模呈现逐年增长的趋势&＃xff0c;2019年中国推荐系统加速框架产业市场规模达 2.16 万亿人民币&＃xff0c;预计到 2024 年中国推荐系统加速框架产业市场规模将超过 7.7 万亿人民币。
CCID&＃xff1a;中国推荐系统框架市场规模

Merlin框架简介
NVIDIA Merlin 是 NVIDIA 推出的基于 GPU 的用于构建大规模深度学习推荐系统的开放框架&＃xff0c;它提供的工具可以使开发者更加自主地构建深度学习推荐系统&＃xff0c;从而获得比传统推荐方法更准确的预测以提高用户的点击率。Merlin 为用户提供了一个全链路解决方案&＃xff0c;用于为推荐系统提供 GPU 加速的数据提取、模型训练和模型部署。Merlin 链路的每个环节经过优化后可支持数百 TB 的数据&＃xff0c;所有数据都可通过易于使用的 API 访问。它可以利用基于 NVIDIA Ampere 架构的全 NVIDIA A100 GPU&＃xff0c;帮助企业构建推荐系统。

Merlin框架优势与前景
尽管常用的深度学习框架均支持在 GPU 中训练推荐算法&＃xff0c;但目前推荐算法仍多数运行在 CPU 上&＃xff0c;Merlin 致力于解决 GPU 相比 CPU 加速不够显著的问题。首先 Merilin 依托 GPU 算力&＃xff0c;可使推荐算法性能显著提升。其次&＃xff0c;用户既可以使用 NVIDIA 提供的推荐系统&＃xff0c;也可以自主开发推荐系统。灵活的使用方式大大降低了基于 GPU 的深度学习推荐系统开发门槛。此外使用 CUDA 编程语言的 Merilin 保证了向后兼容&＃xff0c;这也为产品的快速迭代升级提供了保障。最后&＃xff0c;Merlin 具有强大的生态扩展性。NVIDIA 十分重视 Merlin 体系的建设&＃xff0c;投入了大量的研究人员持续到 Merlin 的研发、运营、产品迭代中&＃xff0c;致力于 GPU 加速的推荐算法体系的建设&＃xff0c;努力赋能 Merlin 框架下的推荐系统生态的建设。
Merlin 框架是当前市场上仅存的针对于深度学习推荐算法的推荐系统框架&＃xff0c;也是当前市场上仅存的专门针对于 NVIDIA GPU 的推荐系统框架。Merlin 框架大大降低了基于 GPU 的深度学习推荐系统开发门槛&＃xff0c;为基于 GPU 加速的推荐算法体系生态建设赋能。
点击下方"了解更多"浏览完整报告。

推荐阅读

x86
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
x86
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
x86
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
x86
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
x86
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
x86
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
x86
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
x86
基于TensorFlow的Keras高级API实现手写体数字识别

前言这个项目的话我也是偶然在B站看到一个阿婆主（SvePana）在讲解这个，跟着他的视频敲的代码并学习起来的。并写在自己这里做个笔记也为 ... [详细]

蜡笔小新 2023-10-15 08:10:04
x86
云服务器API接口的入门使用及功能解析

本文详细介绍了云服务器API接口的概念和作用，以及如何使用API接口管理云上资源和开发应用程序。通过创建实例API、调整实例配置API、关闭实例API和退还实例API等功能，可以实现云服务器的创建、配置修改和销毁等操作。对于想要学习云服务器API接口的人来说，本文提供了详细的入门指南和使用方法。如果想进一步了解相关知识或阅读更多相关文章，请关注编程笔记行业资讯频道。 ... [详细]

蜡笔小新 2023-12-14 12:43:39
x86
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
爬虫
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
爬虫
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
爬虫
2017亚马逊人工智能奖公布：他们的AI有什么不同？

事实上，在我们周围，“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊，我们的世界正在变成一个机器 ... [详细]

蜡笔小新 2023-10-16 19:50:15
爬虫
程序分析与优化9附录XLA的缓冲区指派

本章是系列文章的案例学习，不属于正篇，主要介绍了TensorFlow引入的XLA的优化算法。XLA也有很多局限性，XLA更多的是进行合并，但有时候如果参数特别多的场景下，也需要进行 ... [详细]

蜡笔小新 2023-10-16 16:17:29
爬虫
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07

谢海武181_160

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章