当前位置: 开发笔记 > 开放平台 > 正文

腾讯数十亿广告的秘密武器：利用大数据实时精准推荐

作者：重庆制造漫画社 | 来源：互联网 | 2018-06-07 07:48

在过去几年，你在腾讯做了什么来推动大数据的应用？过去三年，我一直在坚持一件事：推动大数据的实时应用。现在从国外数据中心的数据，一秒钟可以达到深圳数据中心，这就是腾讯具备的数据能力。有了这个能力，就可以做很多商业化行为的模式。目前腾讯收集

在过去几年，你在腾讯做了什么来推动大数据的应用？

过去三年，我一直在坚持一件事：推动大数据的实时应用。现在从国外数据中心的数据，一秒钟可以达到深圳数据中心，这就是腾讯具备的数据能力。有了这个能力，就可以做很多商业化行为的模式。

腾讯数十亿广告的秘密武器：实时精准推荐

目前腾讯收集的数据已经超过了1万亿条，计算机规模已经超过了8千8百台。这么庞大的数据如果能实时处理，就能发挥出巨大的商业价&＃20540;。这个商业价&＃20540;就是精准推荐。

每年腾讯几十亿的广告，其基础来自于数据的精准推荐。实时数据推荐还可以用于视频的推荐，腾讯音乐推荐，新闻客户端的推荐，游戏道具的推荐，等等。

目前我们做到从数据进来到投放数据，延时不会超过50毫秒。有这个技术基础，腾讯的精准推荐才有了基础。

从内部管理而言，实时也降低了成本。因为实时数据处理可以用足“每一秒”。传统的数据仓库一般从晚上零点到第二天早上八点，做数据截断、抽取和处理，因为早上九点老板就要看数据报告了。数据处理的时间只有一天之中的三分之一，其他时间都是空闲的。

当我们把数据做到实时处理的事后，实际意义是将分析时间成本分摊到全天，成本更低。同时这也有利于控制风险，因为只要一出错马上可以监控，迅速回滚。

腾讯数十亿广告的秘密武器：实时精准推荐

所以你将大部分精力放在了“实时”上，你为什么认定“实时”会为腾讯增加更多的商业价&＃20540;？

数据首先是有时效性的，一秒钟前的行为和一秒钟后的行为有着天差地别。

以往我们通过统计数据，得出规律，找到用户喜好。而现在实时变得更为重要。前一秒你看了母婴内容，那么几秒内就应该推送相关广告，转化率会比较高。如果你还在推送几天前，这个用户看足球的数据信息，这个生意就很难做下去了。

在腾讯，我们分三个领域各自研究精准推荐：数据整理、实时计算、算法研究。我深知，实时计算是关键核心。

在我的脑海中，一切数据必须以消息为中心，实时处理、提炼瓜分。实在解决不了的数据，再做离线分析。

比如一张照片，在数据处理端口肯定首先被实时过滤，这张照片是在哪里拍的？其中几个人，通过什么方式拍摄的？在所有数据收集处理完之后，我可能还需要找这张图片与其他图片的关联关系，这时才会做离线处理。

腾讯基本上90%以上的数据都是在线实时处理。我一直在坚持将腾讯的数据集中起来，放在一个平台体系之下，这其实是来自阿里巴巴的教训。（蒋杰原来在支付宝数据部门工作）阿里巴巴的数据直到今天还是四分五裂。

其实，我对于数据的实时经验也是在支付宝时期积累的。当时我学到的一点是，如果没有搜索引擎的支撑，就根本无法做数据分析。当时很多人都说，没有办法让数据在6秒内被搜索出来，而我坚持认为可以达到。

实际上，现在在腾讯，一万五千个字段，在3秒之内所有的数据交叉都可以实现。这是一个做技术的本分。

在实时这个领域，技术上的难点是什么？

我一直在慢慢弱化数据仓库，逐步走向实时数据仓库。其中最大的问题是，如何实现数据实时获取？

数据实时处理的前提，首先是实时采集。我的办法是一方面和业务部门谈好，另一方面我将数据采集文件部署到所有的机器里，从安装操作系统的时候就写入数据采集文件。这样，腾讯所有40万台机器都可以协同操作。

过去两年，腾讯从原来的一小时响应，到现在一秒钟精准推送，CTR （点击率）能提升20%。规模越大效果越明显。

精准推荐有三大要素，第一是数据，第二是实时，第三是算法。

首先要有强大的数据，如果数据缺失什么都干不了；第二，效果明显的是实时，第三才是优化算法。这是整个精准推荐体系的核心。实时在其中排在第二，我们的实践证明，在什么都没变的情况下，频率改变带来了整体收入的提升。

腾讯数十亿广告的秘密武器：实时精准推荐

在解决了获取数据之后，数据底层所遭遇的最大困难是什么？

&＃30524;下的挑战在于深度学习。大数据时代，腾讯有200PB的图片数据，如何去挖掘图片数据的价&＃20540;？如何去挖掘语音数据的价&＃20540;？

我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提炼商业价&＃20540;？这包括了深度学习的DNN和CNN技术，包括如何做文本之间相&＃20284;度的关系。这都是需要突破的点。

微信所有的语音训练都是深度学习的办法来处理。比如，每当你在用微信放语音的时候，机器自动翻译成文字，就是靠深度学习网络来训练的。但目前，计算能力依然是一个门槛，这个能力并非我们想象这么轻松，需要更多计算技术来改进。

未来数据处理会有剧烈的改变么？

硬件决定了数据的能效。数据规模越大，数据展现的方式会越多，未来实时计算的处理需求会越来越旺盛。相信未来，能贴合更多应用场景的高效计算引擎会出现，这是我对未来的判断。

很明显的是，如果当前一秒的数据没有处理完整，提炼清楚，随后的分析成本就会越来越高，而数据的价&＃20540;则越来越低。所以，在未来，高效计算引擎和存储引擎的出现，会对大数据发展有突飞猛进的效用。

后记：

在蒋杰看来，没什么比实时更重要。在腾讯，他敏感意识到实时数据对于广告的价&＃20540;，所以把大部分精力放到实时处理数据以及如何优化广告投放上。

今天很多公司的数据仓库是离线的，也因此数据距离实际业务很遥远，这个距离不仅仅是无法实时反应，更多在于无法保证数据的稳定和质量。

以此而言，数据实时化是业务与数据的结合的关键。

但实时数据并非终点。

每秒都在生产新数据，新数据与既有数据之间的关系如何梳理？假如我们一直通过数据收集、分析得知，电脑前坐着的是一只狗，但假如某天的数据收集显示，它会猫叫。那么我们能判断电脑前的其实是一只猫么？

这不仅仅是数据更新变化这么简单，而关系到我们如何判断和分析。

所以，此时，延时判断变得很重要。

如何在庞大数据面前，做出延时判断？尽管你有实时数据分析的能力。

这可能是下一个更有趣的话题。

推荐阅读

微信
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
微信
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
微信
Go语言实现堆排序的详细教程

本文主要介绍了Go语言实现堆排序的详细教程，包括大根堆的定义和完全二叉树的概念。通过图解和算法描述，详细介绍了堆排序的实现过程。堆排序是一种效率很高的排序算法，时间复杂度为O(nlgn)。阅读本文大约需要15分钟。 ... [详细]

蜡笔小新 2023-12-12 16:23:00
微信
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
微信
前端人员必须知道的三个问题及其发展阶段

本文介绍了前端人员必须知道的三个问题，即前端都做哪些事、前端都需要哪些技术，以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外，还介绍了一些后端服务，如Node.js。 ... [详细]

蜡笔小新 2023-12-12 12:45:59
微信
小程序获取用户信息按钮返回中文地址

1.我是根据官方文档中描述去写的按钮可以看到button中加了zh_CNopen-typegetUserInfobindgetuserinfogetU ... [详细]

蜡笔小新 2023-12-12 02:53:11
微信
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
微信
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
微信
Android源码中的Builder模式及其作用

本文主要解释了什么是Builder模式以及其作用，并结合Android源码来分析Builder模式的实现。Builder模式是将产品的设计、表示和构建进行分离，通过引入建造者角色，简化了构建复杂产品的流程，并且使得产品的构建可以灵活适应变化。使用Builder模式可以解决开发者需要关注产品表示和构建步骤的问题，并且当构建流程发生变化时，无需修改代码即可适配新的构建流程。 ... [详细]

蜡笔小新 2023-12-09 20:35:28
微信
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
微信
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
微信
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
微信
知识图谱表示吱吱了了

知识图谱表示概念：知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说，知识图谱是由一条条知识组成，每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]

蜡笔小新 2023-10-17 17:32:42
facebook
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
facebook
当写稿机器人真有了观点和感情，我们是该高兴还是恐惧？

目前，写稿机器人多是撰写以数据为主的稿件，当它们能够为文章注入观点之时，这些观点真的是其所“想”吗？最近，《南 ... [详细]

蜡笔小新 2023-10-17 15:17:11

重庆制造漫画社

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章