热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

每天被今日头条推送文章背后的算法技术是什么?

1月11日,北京今日头条总部,一场问诊算法、建言算法的“让算法公开透明”分享会正在进行,雷锋网(公众号:雷锋网)观察到,包括BAT等在内的诸多科技公司算法工程师、产品经理等100多人参

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

1月11日,北京今日头条总部,一场问诊算法、建言算法的“让算法公开透明”分享会正在进行,雷锋网(公众号:雷锋网)观察到,包括BAT等在内的诸多科技公司算法工程师、产品经理等100多人参与现场讨论。资深算法架构师、中国科学技术大学曹欢欢博士于现场介绍了今日头条的推荐算法原理。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

曹欢欢表示,今日头条资讯推荐系统本质上要解决用户、环境和资讯的匹配,要达到这一效果,其算法推荐系统输入三个维度变量:

  • 一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;

  • 二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣;

  • 三是环境特征,不同的时间不同的地点不同的场景(工作/通勤/旅游等),用户对信息的偏好有所不同。

结合这三方面维度,今日头条的推荐模型做预估,这个内容在这个场景下对这个用户是否合适。

算法推荐要达到不错的效果,需要解决好这四类特征:

  • 相关性特征,解决内容和用户的匹配;

  • 环境特征,解决基础特征和匹配;

  • 热度特征,在冷启动上很有效;

  • 协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

但是,曹欢欢表示,点击率、阅读时间、点赞、评论、转发,这些都是可以量化的,但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据以外的要素也很重要。有些算法可以完成,有些算法还做不到、做的不好,这就需要内容干预。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

总之,没有一套通用的模型架构适用所有的推荐场景,头条仍需要一个非常灵活的算法实验平台,这个算法不行,马上试另一个算法,实际上是各种算法的一个复杂组合。据雷锋网了解,西瓜视频、火山小视频、抖音短视频、悟空问答,都在用头条这一套推荐系统,但具体到每套系统,架构都不一样,需要不断去试。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

正在基于上文所述反复训练推荐的需要,今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

但是,完全依赖模型推荐成本过高,因此,今日头条也有简化策略的召回模型——基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

曹欢欢表示,在今日头条工作前三年,收到用户反馈最大的一个问题就是——“怎么老给我推重复的?”

曹欢欢解释称,每个人对重复的定义不一样。有人昨天看到一篇讲巴萨的文章,今天又看到两篇,可能就觉得烦了。但对于一个重度球迷来讲,比如巴萨球迷,可能恨不得所有报道都看一遍。要解决这个问题,就需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等。而文本特征对于推荐的独特价值就在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

而语义标签的效果是检查一个公司NLP(自然语言处理)的试金石。

频道、兴趣表达等重要产品功能,需要一个有明确定义、容易被理解的文本标签体系。在隐式语义特征已经可以很好地帮助推荐、做好语义标签需要投入远大于隐式语义特征的情况下,仍需要做好语义标签。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

除了用户的自然标签,推荐还需要考虑很多复杂的情况:

  • 1)过滤噪声:过滤停留时间短的点击,打击标题党;

  • 2)惩罚热点:用户在热门文章上的动作做降权处理;

  • 3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;

  • 4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;

  • 5)考虑全局背景:考虑给定特征的人均点击比例。

现实中,影响推荐效果的因素有很多,需要完备的评估体系,不能只看单一指标,如点击率、留存、收入或是互动,需要看很多指标综合评估:兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时候需要做彻底的统计隔离等。

那么,所有这些指标可以合成唯一的一个公式吗?“我们苦苦探索了几年,目前还没有做到。”曹欢欢表示。

技术帖:每天被今日头条推送文章 背后的算法技术是什么?

并且,曹欢欢称,目前很多公司算法做得不好,不是人的问题,而是实验平台的问题。例如A/B Test每次数据都是错的,总上不了线,这个事最后就废了。而一个强大的实验平台,可以实现每天数百个实验同时在线,高效管理和分配实验流量,降低实验分析成本,提高算法迭代效率。

据雷锋网了解,头条现在拥有健全的内容安全机制,除了人工审核团队,还有技术识别,包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术,曹欢欢强调。


转载:https://www.leiphone.com/news/201801/tmdOPwKhgfe3heN0.html


推荐阅读
  • 【跨越鸿沟】学术界与工业界的GAP有多大?
    来自:美团技术团队2020年7月31日,由中国图象图形学学会主办、视觉大数据专委会承办,北京智源人工智能研究院和美团协办的ECCV2020 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了互联网思维中的三个段子,涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例,探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验,三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 作为机器学习最重要的一个分支,近年来深度学习(DeepLearning)发展势头迅猛,借助庞大的数据 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • SAP羞辱国产软件商:技术停在10年前
    SAP中国研究院总裁芮祥麟表示,国产软件厂商过于热衷概念炒作,技术水平停留在10年前的客户端架构水平。他认为,国内厂商推出基于SOA的产品或转型SAAS模式是不可能的,研发新架构需要时间。当前最热门的概念是云计算,芮祥麟呼吁国产厂商应该潜心研发底层架构。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • Itwasworkingcorrectly,butyesterdayitstartedgiving401.IhavetriedwithGooglecontactsAPI ... [详细]
  • 早晨七点半。北京初秋的凉风叫醒了住在望京西的你,睁开眼睛,一想到又要为人类的信息化事业贡献满满的正能量,你不禁哼唱起那句“早晨起来 ... [详细]
  • 武汉市正式发布促进元宇宙创新发展实施方案
    武汉市正式发布促进元宇宙创新发展实施方案 ... [详细]
author-avatar
蜜小嘟_546
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有