统一_统一预估引擎的设计与实现

作者：用巛户khm8pcnjp9 | 来源：互联网 | 2023-08-26 12:50

篇首语：本文由编程笔记#小编为大家整理，主要介绍了统一预估引擎的设计与实现相关的知识，希望对你有一定的参考价值。

1. 背景

随着互联网的快速发展，互联网上出现了各种海量的信息。怎么样为用户推荐感兴趣的信息是个很大的挑战？各种各样的推荐算法、系统都涌现出来。而预估引擎可以说是推荐系统中比较重要的一环，预估引擎效果的好坏严重影响了算法效果。结合oppo的业务场景，我们的预估引擎需要解决几个问题：

（1）通用性：oppo的推荐业务场景非常多，包括信息流、商店、短视频、联盟、锁屏杂志、音乐等业务，预估引擎要支持这么多的场景，框架一定要通用。

（2）多模型预估：在广告场景中，需要支持ocpx，需要一次请求同时预估ctr和cvr，可能是多个不同的转化模型（例如下载、付费等）。

（3）模型的动态更新：有些模型是小时更新、有些模型是天级更新，需要做到能够无感的动态更新。

（4）扩展性：各个业务用到的特征、字典、模型类型都可能不一样，要做到比较容易扩展。

2. 定位与技术选型

考虑到各个业务的业务特征差异比较大，统一预估引擎如果要支持各个业务的策略实验和分流实验，会让预估引擎模块非常臃肿，没法维护。所以最终决定预估引擎只做预估相关的事情。
从原始数据到得到预估ctr结果，需要经过特征提取，提取特征之后的结果再进行模型预估。考虑到特征提取结果比较大，一次预估需要用的特征结果大约有2M，这么大的数据如果通过网络来传输，耗时太长。所以预估引擎总体的流程包括了两部分：特征提取和模型预估。

3. Predictor的设计与实现

3.1 Predictor模块在整个推荐系统中的位置

以oppo手机应用市场为类来说明predictor模块在整个系统中的位置， ranker模块负责排序，包括各种分流实验和各种运营策略等。它通过grpc框架与predictor模块进行通信。

3.2 Predictor模块的主体流程

图中示意了两个请求的处理流程，图中提特征包括多个特征conf，每个样本、每个特征配置提取一次。预估也会是多个模型，每个样本、每个conf、每个模型会预估多次。特征提取依赖外部字典，预估依赖外部的模型文件，外部字典的更新、双buf切换都是通过字典管理模块来完成的。下面分别就字典管理模块、分task, 提特征，预估，merge进行详细说明。

3.3 字典管理模块

如下图所示：conf1, conf2, lr_model_x0等表示磁盘上的文件，每个文件名都是通过不同的字典解析类来解析，这个字典解析类负责管理这个文件的加载，双buf切换。例如：FeatureConfDict负责解析conf1，它内部保存两个FeatureConfList类型的buf，当conf1文件发生更新时，就用备的FeatureConfList 进行加载，加载完成后，在加载过程中，服务使用主的FeatureConfList指针。加载完成后，进行主从切换，待没有请求使用老的buf，就释放到老的buf内存。

3.4 分task逻辑

接收到一个请求，这个请求指定了多conf多模型来预估。如下图所示：

上图表示一共有8条样本，分别用两个conf：conf0, conf1来提取特征，其中conf0的结果由model0，model1来预估，conf1由model2，model3来预估。按照2个样本一个task，拆分完task之后会得到4个task，如下图所示：

按照样本维度进行拆分成4个task，丢到线程池去执行。

3.5 Merge流程

在预估完成之后，需要按照conf/model这个维度进行组织预估结果给ranker，最终的response如下图右子图所示。

3.6 特征提取框架的设计

特征提取框架线上、线下都会用到，这样比较好保证线上线下的一致性。所以设计的时候要同时考虑到线上线下的业务场景。

线上是将请求带来的数据与字典数据拼成一条条样本，进行特征提取的。而线下是编译so，通过mapreduce来调用，样本是通过反序列化hdfs的一条条文本得到的。

3.6.1 特征配置文件格式

特征配置文件包括两部分: schema部分，特征算子部分。

3.6.2 schema部分

上图中有5个 schema配置

user_schema：表示当前的用户相关信息，只在在线方式使用，由上游请求带过来。

item_schema：表示推荐的item相关信息，只在在线方式使用，一部分由请求带过来，一部分由字典文件中获取。

context_schema：表示推荐的上下文相关信息，只在在线方式使用，由上游戏请求带过来。例如：当前网络状态是wifi还是4G。

all_schema: 表示最终的样本的schema信息。在线模式是将user_schema, item_schema，context_schema的各个字段放在all_schema的对应位置，离线模块是将hdfs的一行行文本，按照all_schema_type指定的类型进行反序列化生成的。不管是在线还是离线，特征框架的样本最终的字段顺序都是按照all_schema顺序存放的

all_schema_type: 离线模式才会用到，指定了各个schema的类型，这些类型名都是事先定义好的，在离线模式下，根据schema类型来反序列化各个字段。

3.6.3 特征算子配置部分

每个特征包括下面这些字段：

Name: 特征名字

Class：表示这个特征用的哪个特征算子类，对应代码里类名

Slot: 唯一标识一个特征

Depend: 表示该特征依赖哪些字段, 这个字段在上述all_schema中必须存在

Args: 表示传给特征算子的参数, 框架会转成float传给算子

Str_args: 传给特征算子的参数，以字符串的形式传递。

3.6.4 特征分group（common和uncommon）

一次预估请求里面，所有样本的用户和context信息是一样的，考虑到有些特征只依赖用户和context信息，这部分特征只需要提取一次，所有样本共用。

特征配置里面一部分特征会依赖其他的特征（例如组合特征、 cvm特征），所以需要对特征的依赖进行分析，用来判断一个特征最终依赖的字段信息。

i_id特征依赖item字段的item_id，所以它是uncommon特征

u_a/net特征只依赖user_schema或者context字段, 不依赖item字段，所以它是common特征
u_a-i_id组合特征依赖i_id特征，间隔依赖item_id，所以它是uncommon特征，

u_a-net组合特征只依赖u_a和network字段，所以它是common特征，在特征提取的时候，一次请求只算一次。

注意：这里特征分group是异步字典更新线程来负责计算好的，不是请求来了现算的。

3.7 预估部分

前面提到了，一个请求里面指定了用哪个特征配置文件来提取特征，用哪个模型来预估。所有的模型都是有异步字典更新线程来负责更新。目前支持了LR, FM, DSSM， Deep&Wide等模型的预估，并且比较容易扩展。下面大概介绍下两个根据业务场景做了深度优化的模型：

3.7.1 FM模型预估（LR类似）

其中

考虑到业务场景，多个样本的user/context信息是一样的，那么线上FM的预估可以写成这个形式：

标红部分所有样本都是一样的，一个请求只用计算一次。

3.7.2 DSSM（双塔）模型

双塔模型的网络结构如下图所示：

实际上一共有三个塔，C（context信息），U（user信息）, I（item信息）， user与item子塔得到的向量经过点积，再与C进行求和。

3.7.3 在线serving部分

考虑一些场景的item的信息变化比较慢，一般离线将item的子塔先计算好，得到向量，通过字典的方式动态加载。

在线的时候只用计算c塔，u塔, 一个请求只有一条样本需要计算；I塔部分由查字典得到向量。计算量相比全连接，大幅度减少。性能有大幅度的提升，但是由于user信息与item只有一层点积相乘，相比全连接，离线auc会下降1%，所以比较适合召回或者粗排等对准确度要求不高的场景。在信息流广告、联盟广告业务替换原来的统计 ctr粗排，综合指标提升5、6个百分点。

3.8 性能优化

预估引擎模块对时延要求很高，但是为了达到比较好的算法效果，特征规模又在不断的增加，所以在设计预估引擎的时候，做了很多性能优化的考量。主要包括以下几个方面：

（1）通过对象池来减少内存分配，提高性能。

（2）特征字段的依赖都事先转化成下标，在提取特征的时候，就直接使用下标来取对应的字段，减少计算量。

（3）有些特征依赖其他特征结果，会频繁按照slot去查询对应结果，考虑到slot数据有限，采用数组来代替。

4. 总结

目前predictor模块支持了大多数推荐场景，包括信息流内容、信息流广告、应用市场、联盟、搜索、短视频、oppo锁屏杂志、音乐等场景，部署在近2000台机器上，说明这套设计还比较稳定、扩展性比较好。目前支持业务平滑的切换到dnn模型，各个业务场景都取得一定的收益。

作者简介

Chao 高级数据挖掘工程师

10+年的广告系统工程落地经验，在oppo主要负责模型的特征提取、推理的工程落地工作。

更多精彩内容，请扫码关注【OPPO互联网技术】公众号

推荐阅读

mapreduce
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
search
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
main
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
get
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
search
Excel数据处理中的七个查询匹配函数详解

本文介绍了Excel数据处理中的七个查询匹配函数，以vlookup函数为例进行了详细讲解。通过示例和语法解释，说明了vlookup函数的用法和参数的含义，帮助读者更好地理解和运用查询匹配函数进行数据处理。 ... [详细]

蜡笔小新 2023-12-14 10:15:09
search
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
search
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
search
热血合击脚本辅助工具及随机数生成器源码分享

本文分享了一个热血合击脚本辅助工具及随机数生成器源码。游戏脚本能够实现类似真实玩家的操作，但信息量有限且操作不可控。热血合击脚本辅助工具可以帮助玩家自动刷图、换图拉怪等操作，并提供了雷电云手机的扩展服务。此外，还介绍了使用mt_rand函数作为随机数生成器的代码示例。 ... [详细]

蜡笔小新 2023-12-13 12:50:33
main
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
select
关于Linq to sql 实现模糊查询 string数组

前景：当UI一个查询条件为多项选择，或录入多个条件的时候，比如查询所有名称里面包含以下动态条件，需要模糊查询里面每一项时比如是这样一个数组条件：newstring[]{兴业银行, ... [详细]

蜡笔小新 2023-12-13 09:34:59
select
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
select
数据结构与算法的重要性及基本概念、存储结构和算法分析

数据结构与算法在编程领域中的重要性不可忽视，无论从事何种岗位，都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外，还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]

蜡笔小新 2023-12-09 10:17:45
select
SmartMining

应用场景当遇到数据分类，聚类，预测等场景问题，普通的SQL方法无法解决，需要借助算法这件武器，比如聚类算法，分类算法，预测算法等等，但是手动去研究一个算法比较吃力，有没有那种工具， ... [详细]

蜡笔小新 2023-10-17 15:45:01
select
一份来自清华的数据分析笔记，请查收！

之前发过很多数据分析的文章，收到不少好评，但也有一些困惑：入门数据分析该学哪些知识点？该看哪些书？是从Pyth ... [详细]

蜡笔小新 2023-10-16 12:27:43
select
NLPIR语义智能平台指引未来文本挖掘的发展方向

　　数据挖掘作为近年来新兴的一门计算机边缘学科，其在国内外引起了越来越多的关注。并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善，数据挖掘必将在各行各业中得到广泛的应用。　　 ... [详细]

蜡笔小新 2023-10-15 21:37:37

用巛户khm8pcnjp9

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章