特征建模之FiBiNet

作者：手机用户2602925995 | 来源：互联网 | 2023-07-14 12:59

FiBiNet:CombineFeatureimportancea

FiBiNet: Combine Feature importance and Bilinear feature Interaction for Click-Through Rate Prediction https://arxiv.org/abs/1905.0943

一、特征建模的重要性

推荐领域的深度CTR模型中的参数主要由两部分构成&＃xff1a;特征Embedding参数和MLP层参数&＃xff0c;假设模型中有1亿个特征&＃xff0c;Embedding的维度是10维&＃xff0c;MLP包括三层FC&＃xff0c;神经元个数是1024/512/256&＃xff0c;那么我们可以算出两部分的参数量分别是&＃xff1a;

特征Embedding参数: 1亿*10 &＃61; 10亿
MLP的参数: 1024*512*256 &＃61; 1.3亿

可以看出特征Embeding参数占比达到90%&＃43;&＃xff0c;巨大的特征参数量是导致CTR模型容易过拟合的主要原因。同时值得考虑的是&＃xff0c;这10亿个参数都是有用的么&＃xff1f;不同的特征Embedding的重要程度一样么&＃xff1f;如果答案是否定的&＃xff0c;那应该如何入筛选对模型更有益的特征&＃xff0c;如何度量每个特征的重要程度&＃xff1f;

微博提出的FiBiNet系列模型就给出了解决上述问题的一种可行方案。

二、FiBiNet理论

为了解决业界现有模型存在的两个问题(一是没有度量CTR模型中特征的重要性&＃xff0c;二是简单的使用inner product 或者 Hadamard product 无法很好的进行特征交叉)&＃xff0c;FiBiNet中设计了两个子网络&＃xff0c;分别是建模特征重要性的SENet模块和建模特征交叉的Bilinear-Interaction Layer。

(一)、SENet

SENet: Squeeze-and-Excitation Networks &＃xff0c;https://arxiv.org/abs/1709.01507

SENet最初是在CV领域被提出&＃xff0c;因其轻量化且具备显著的有效性被广泛应用。该模块重点关注了不同channel之间的关系&＃xff0c;学习不同channel对最终预测的重要程度&＃xff0c;对于CNN网络过程中的特征图U&＃xff0c;SENet模块主要进行以下三步操作&＃xff1a;

Squeeze: 输入通道数为C的U&＃xff0c;对每个cnannel 进行max pooling&＃xff0c;选取最大值这一统计特征表征一个channel, 最终输出1 X 1 X C的张量。
Excitation: 类似门控机制&＃xff0c;使用两个FC层学习通道级别的权重&＃xff0c;每个weight的含义可以理解维对应通道在最终预测时的重要度。
Re-scale: 将求解的权重与最初的输入U相乘&＃xff0c;得到加权后的输出。

借鉴该模块的设计思想&＃xff0c;在推荐任务中考虑引入一个类似的门控系统&＃xff0c;能够实现"系统预测不重要的特征的权重趋近于0&＃xff0c;预测重要特征的权重越大越好"&＃xff0c;通过这种方式对特征重要性建模&＃xff0c;使模型可以忽略掉低频特征、不重要特征的负面影响&＃xff0c;对高频特征进行更好的建模。

下图是FiBiNet中的SENet模块&＃xff0c;模块输入是所有的特征embedding [e1 e2 ... ef]&＃xff0c;输出是乘以特征权重后的weighted embeding [v1 v2 ... vf]&＃xff0c;具体过程为:

Squeeze: 这一步的目的是得到每个特征embedding的统计值特征。采用mean pooling的方式选取每个特征的统计值特征zi&＃xff0c;假设输入有f个slot&＃xff0c;那么这一步输出shape为1 X f的张量。
Excitation&＃xff1a;这一步的目的是学习每个特征的权重。通过双层MLP网络对第一步输出的张量进行变换&＃xff0c;将其映射到最终的权重特征空间&＃xff0c;为了避免过拟合&＃xff0c;往往会通过超参数r将第一个FC层设计为窄网络&＃xff0c;将第二个FC设计为宽网络。同时采用ReLU激活函数打压不重要的特征&＃xff0c;最终输出权重张量 [w1 w2 ... wf] 。

$A&＃61;F_{ex}(z)&＃61;\sigma_{2}(W_{2}(\sigma_{1}(W_{1}))) \newline ~~~~~~~~~~~~~~~W_{1}\in R^{f\times \frac{f}{r}} \newline ~~~~~~~~~~~~~~~W_{2}\in R^{\frac{f}{r} \times f}$

根据上述原理可以看出&＃xff0c;推荐系统中SENet的本质是对离散特征做field-wise加权。

(二)、Bilinear-Interaction Layer

为了更好的建模特征交叉&＃xff0c;FiBiNet在任意两个特征进行交互时引入一个新的参数矩阵W&＃xff0c;通过这个参数矩阵更精细地表征交互过程。具体来说&＃xff0c;先计算特征vi和W的内积得到中间结果z&＃xff0c;然后计算z与vj的哈达玛乘积(逐元素相乘)得到双线性交叉的结果。

假设有f个slot/field, 特征embedding的维度是k, 实现Bilinear-Interaction Layer时有三种不同形式。

1.Field-All Type

$P_{ij}&＃61;V_i\cdot W\odot V_j$
借用王树森老师的图总结一下FiBiNet的设计&＃xff1a;
1. RecSys中&＃xff0c;首先将离散特征embed化&＃xff0c;每个离散特征对应一个K维的embedding向量&＃xff0c;得到embeding矩阵M&＃xff1b;
2. 在原有DNN结构基础上&＃xff0c;FiBiNet新增了红框中的子网络结构&＃xff1a;
a. 直接把M所有的特征Embeding拼接&＃xff0c;产出张量A;
b. 对M中所有特征进行Bilinear运算&＃xff0c;产出张量B;
c. 先将M中所有特征进行SENet运算&＃xff0c;然后再通过Bilinear运算&＃xff0c;产出张量C。
3. 将A、B、C与连续特征拼接到一起&＃xff0c;作为上层网络的输入。
三、FiBiNet实践

基于paddle框架实现了FiBiNet&＃xff0c;这里主要给出SENet和Bilinear interaction Layer两个模块的的实现代码。
(一)、SENet

def _senet(self, all_emb, reduction_ratio&＃61;3):"""Func:implementation of senetArgs:all_emb: a lod tensor, shape is (-1 slot_nums, embed_dim)reduction_ratio: integer, the ratio of fcOutput:a lod tensor, shape is (-1 slot_nums, embed_dim)"""slot_nums &＃61; all_emb.shape[1] # 获取特征个数fc_unit &＃61; max(1, slot_nums // reduction_ratio) # 计算FC层的神经元个数################## squeeze ##################squeeze_emb &＃61; layers.reduce_mean(all_emb, dim&＃61;-1) # (-1, slot_nums, 1)falten_emb &＃61; layers.flatten(squeeze_emb) # (-1, slot_nums) print(&＃39;feature nums is &＃39; &＃43; str(slot_nums))print(&＃39;falten_emb shape is:&＃39; &＃43; str(falten_emb.shape))################## excitation ##################weight &＃61; layers.fc(input&＃61;falten_emb, size&＃61;fc_unit, act&＃61;&＃39;relu&＃39;,param_attr &＃61;fluid.ParamAttr(learning_rate&＃61;1.0,initializer&＃61;fluid.initializer.NormalInitializer(loc&＃61;0.0, scale&＃61;self._init_range / (slot_nums ** 0.5)),name&＃61;"se_w_1"),bias_attr &＃61;fluid.ParamAttr(learning_rate&＃61;1.0,initializer&＃61;fluid.initializer.NormalInitializer(loc&＃61;0.0, scale&＃61;self._init_range / (slot_nums ** 0.5)),name&＃61;"se_b_1")) # (-1, fc_unit)weight &＃61; layers.fc(input&＃61;weight, size&＃61;slot_nums, act&＃61;&＃39;relu&＃39;,param_attr &＃61;fluid.ParamAttr(learning_rate&＃61;1.0,initializer&＃61;fluid.initializer.NormalInitializer(loc&＃61;0.0, scale&＃61;self._init_range / (fc_unit ** 0.5)),name&＃61;"se_w_2"),bias_attr &＃61;fluid.ParamAttr(learning_rate&＃61;1.0,initializer&＃61;fluid.initializer.NormalInitializer(loc&＃61;0.0, scale&＃61;self._init_range / (fc_unit ** 0.5)),name&＃61;"se_b_2")) # (-1, slot_nums)################## re_weight ##################out &＃61; layers.elementwise_mul(all_emb, layers.unsqueeze(weight, axes&＃61;[2])) # (-1, slot_nums, embed_dim) * (-1, slot_nums, 1)print(&＃39;senet out shape is: &＃39; &＃43; str(out.shape)) # (-1 slot_nums embed_dim)return out
(二)、Bilinear Interaction Layer

def _bilinear_interaction_layer(self, all_emb, mode):"""Func:implementation of bilinear interaction layerArgs:all_emb: an embedding which has concated all embed , shape is (-1, slot_nums, embed_dim)"""slot_nums &＃61; all_emb.shape[1]embed_dim &＃61; all_emb.shape[2]emb_list &＃61; layers.split(all_emb, num_or_sections&＃61;slot_nums, dim&＃61;1)emb_list &＃61; [layers.squeeze(emb, axes&＃61;[1]) for emb in emb_list] # list, ele shape is (-1 embed_dim)if mode &＃61;&＃61; "field_all":# 构建一个共享的参数矩阵W &＃61; layers.create_parameter(shape&＃61;[embed_dim, embed_dim], dtype&＃61;&＃39;float32&＃39;)# 先计算点积vidots &＃61; [layers.matmul(emb, W) for emb in emb_list] # (-1 embed_dim)# 计算Hadamard Productp_ij &＃61; [fluid.layers.elementwise_mul(vidots[i], emb_list[j])for i, j in itertools.combinations(range(slot_nums), 2)] # (-1 embed_dim)output &＃61; layers.concat(p_ij, axis&＃61;-1) # (-1 embed_dim * slot_nums)return outputelif mode &＃61;&＃61; "field_each":# 构建参数矩阵&＃xff0c;数量与slot_nums保持一致W_list &＃61; [layers.create_parameter(shape&＃61;[embed_dim, embed_dim], dtype&＃61;&＃39;float32&＃39;) for _ in range(slot_nums)]# 计算点积vidots &＃61; [layers.matmul(emb_list[1], W_list[i]) for i in range(slot_nums)]# 计算 Hadamard productp_ij &＃61; [layers.elementwise_mul(vidots[i], emb_list[j])for i, j in itertools.combinations(range(slot_nums), 2)] # (-1 embed_dim)output &＃61; layers.concat(p_ij, axis&＃61;-1) # (-1 embed_dim * slot_nums)return outputelif mode &＃61;&＃61; "field_interaction":W_list &＃61; [layers.create_parameter(shape&＃61;[embed_dim, embed_dim], dtype&＃61;&＃39;float32&＃39;) for _, _ in itertools.combinations(range(slot_nums), 2)]p_ij &＃61; [layers.elementwise_mul(layers.matmul(v[0], w), v[1])for v, w in zip(itertools.combinations(emb_list, 2), self.W_list)]else:raise NotImplementedError
三、FiBiNet存在的问题

原文中把所有的特征embedding都进行双线性特征交叉&＃xff0c;这一部分会带来巨大的参数量&＃xff0c;也导致线上推理时长和内存存储的增加&＃xff0c;因此在实现时&＃xff0c;可以根据具体业务&＃xff0c;选择出必要的特征进行交叉。

推荐阅读

int
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
int
python人物抠图算法_比PS还好用！Python 20行代码批量抠图

抠图前vsPython自动抠图后在日常的工作和生活中，我们经常会遇到需要抠图的场景，即便是只有一张图片需要抠，也会抠得我们不耐烦ÿ ... [详细]

蜡笔小新 2023-10-12 18:22:39
int
世界人工智能大赛OCR赛题方案！

Datawhale干货作者：阿水，北京航空航天大学，Datawhale成员本文以世界人工智能创新大赛（AIWIN）手写体OCR识别竞赛为实践背景，给出了OCR实践的常见思路和流 ... [详细]

蜡笔小新 2023-10-11 18:31:00
php
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
import
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
import
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
main
判断两个数组是否包含相同元素的Python函数

本文介绍了一个Python函数same_set，用于判断两个相等长度的数组是否包含相同的元素。函数会忽略元素的顺序和重复次数，如果两个数组包含相同的元素，则返回1，否则返回0。文章还提供了函数的具体实现代码和样例输入输出。 ... [详细]

蜡笔小新 2023-12-10 11:48:02
main
如何优化Webpack打包后的代码分割

本文介绍了如何通过优化Webpack的代码分割来减小打包后的文件大小。主要包括拆分业务逻辑代码和引入第三方包的代码、配置Webpack插件、异步代码的处理、代码分割重命名、配置vendors和cacheGroups等方面的内容。通过合理配置和优化，可以有效减小打包后的文件大小，提高应用的加载速度。 ... [详细]

蜡笔小新 2023-12-09 08:10:47
command
tcpdump 4.5.1 crash 深入分析

tcpdump 4.5.1 crash 深入分析 ... [详细]

蜡笔小新 2023-12-09 07:11:34
main
颜色迁移（reinhard VS welsh）

不要谈什么天分，运气，你需要的是一个截稿日，以及一个不交稿就能打爆你狗头的人，然后你就会被自己的才华吓到。------ ... [详细]

蜡笔小新 2023-10-17 21:20:36
int
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
jar
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
int
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
tree
mapbox矢量切片标准_下载python3中的mapbox向量切片,矢量

python3下载mapbox矢量切片通过观察mapbox的页面开发者工具里的network可以发现，打开矢量切片和字体切片pbf和prite图标的链接， ... [详细]

蜡笔小新 2023-10-16 21:46:42
tree
Jupyter 使用Anaconda 虚拟环境内核

Anaconda虚拟环境中使用JupyterNotebook安装好Anaconda之后，进入AnacondaPrompt，创建虚拟环境， ... [详细]

蜡笔小新 2023-10-12 18:48:11