Airbnb深度学习搜索引擎实践－模型发展历程

作者：宇宇宇你同行 | 来源：互联网 | 2023-09-18 19:42

http://www.semocean.com/airbnb%e6%b7%b1%e5%ba%a6%e5%ad%a6%e4%b9%a0%e6%90%9c%e7%b4%a2%e5%bc%95%e6%93%8e%e5%ae%9e%e8%b7%b5%ef%bc%8d%e6%a8%a1%e5%9e%8b%e5%8f%91%e5%b1%95%e5%8e%86%e7%a8%8b/

Applying Deep Learning for Airbnb Search engine

该文章是KDD 2019上发表的Airbnb的搜索引擎主要算法的文章，主要介绍了Airbnb算法的演进历程。还是Airbnb一贯的朴实无华的风格：不在乎有多少创新，更多是工业界结合业务上的算法工程，该文章很难的是文章中不仅介绍了Airbnb的算法，以及使用该算法的出发点和考虑，同时还记录了中间的各种坑，甚至一些失败的实验，真的是经验的无私分享，写作手法更像各大厂内网的技术总结分享文章。对于广大研发有较强的借鉴作用。
再具体到技术细节，Airbnb的场景是低频，且作为平台需要同时考虑需求侧（用户/网民）同时还要考虑供给侧（Airbnb中是民宿），另外民宿预订有很强的地理位置属性，所以文中的算法对于低频场景，LBS场景的搜索推荐都有较强的借鉴意义。低频场景例如飞猪，携程，马蜂窝的酒店，旅游预订；LBS属性例如Google Map，百度地图，高德地图等场景。

Abstract

搜索引擎一直都是airbnb成功的重要的因素，之前的实现主要是使用树模型来实现核心的算法，但是出现了瓶颈，所以后来airbnb就使用深度学习来优化其搜索引擎。
本文不会针对深度学习的算法进行创新，更多的是在使用深度学习的构建核心引擎中的一些细节的探讨。bon voyage

Introduction

搜索场景是airbnb的重要的场景，最开始系统使用的是人工的打分函数。之后使用gbdt进行特征的组合，这是一个比较大的进步，并且经过了比较多的迭代。现在开始转移到深度学习。

Airbnb深度学习搜索引擎实践－模型发展历程

图：搜索session示例
典型的搜索引擎，在用户看了一系列的listing(相当于其它文章中的item)之后，完成了booked的工作。
系统运行中间的日志都被记录下来，之后使用离线的方式训练新的模型模型，尽量的将booked的listing的排序排到最靠前。之后在线上使用ab test的方式进行验证。
本文叙述的方式是从feature engineering和system engineering的方式进行的介绍。最后再对内容进行回顾。

Model Evolution

模型的迭代也是一步接一步的。深度学习是顶峰的表现，是最终逐步迭代后的结果，过程中也走了很多弯路。
图：展示了在各个模型迭代上离线ndcg的提升幅度:

Airbnb深度学习搜索引擎实践－模型发展历程

图：展示了各个模型在线转化的相对提升幅度:

Airbnb深度学习搜索引擎实践－模型发展历程

Dustinsea: 可以看到，在全面DeepNN前，就已经拿到了比较多的受益，DeepNN让效果更上一层楼

第一阶段:SIMPLE NN

论文12提到don’t be a hero，但是我们一开始就从复杂的nn模型出发，到最后只是得到了复杂结构，还有花时间的循环。
在nn上也也花了比较多的时间，gbdt模型输出作为nn模型的输入。该过程最重要的贡献，就是把特征的pipeline给建立起来。

第二阶段:LAMBDARANK NN

使用lambda rank，直接对离线的ndcg进行优化。

第三阶段:GBDT/FM NN

gbdt作为另外一条线，在进行优化中间发现一个有意思的现象:从指标上gbdt的效果和nn的效果比较类似，但是他们排序出来的结果是不一样的。受这一现象的启发，将gbdt/fm和nn的架构进行了融合，FM的最终输出直接作为nn的特征，同时树模型的节点index作为nn的特征输入（和2014年facebook发表论文中gbdt+lr的思路异曲同工）。模型结构图如下:

Airbnb深度学习搜索引擎实践－模型发展历程

图：NN和GBDT模型融合方法示例

第四阶段:DEEP NN

模型
最终使用具有两个隐藏层的nn。配置如下:

特征
大部分的特征都直接进行输入，没有进行太多的feature enginering，少部分的特征作为其他模型的输出，会进行特殊的处理。
price特征:使用模型进行处理。
similarity features:使用功现的embedding进行处理。
使用17亿样本进行训练，以ndcg作为评估指标的情况下，能够达到收敛的效果。

Airbnb深度学习搜索引擎实践－模型发展历程

在评估过程中一个非常困难的点就是我们如何评判模型的结果和人的认知评判的结果的效果的对比。在图像中人是可以作为一个评判标准的绝对增值进行评价的，但是在我们的数据里边却看不出来绝对的增值，因为这些绝对的因素都是隐藏的比较深的。这和video或者audio领域不一样。

失败的模型

一般大家在叙事的时候都是在讲成功的案例，但这其实只是整个过程的很少的一部分，下面就向大家介绍一下失败的尝试，因为失败的尝试比较多，所以这个地方挑了两个模型。

Airbnb深度学习搜索引擎实践－模型发展历程

第一种失败尝试:直接使用listing ids embedding

在nlp中或者电商视频推荐中，对于item的embedding使用是比较成熟的，并且证明效果比较好。但在airbnb的环境中，因为数据量比较稀少，就算最火的民宿一年也只能有365个预定，更多的民宿数据都是非常少的，所以很难学出稳定的embedding，基本上都是Over fitting，所以listing ids使用会失败。
Dustinsea:所以Airbnb进行embedding的时候，更多是对人群/POI群进行embedding，而非用户/单个POI进行embedding.

Airbnb深度学习搜索引擎实践－模型发展历程

图：增加listing id embedding后，over fitting问题明显严重

第二种:multi-task learning

多任务是现在很多推荐搜索场景中常用的技术，多任务是现在比较fancy的技术，听起来也是make sense的。Airbnb也进行了尝试。
进一步讲，在文中尝试的方向:是认为浏览时间比较长的listing应该会和booked行为有比较强的相关性。所以进行了多任务的学习，在学习的过程当中有两个子任务，一个是booked的子任务，另外一个是预估用户浏览时长的子任务。
多任务模型在低层共用embedding，在上层分成两个任务，并且在loss function中将booked的样本进行加权。线上使用的时候只使用booked子任务进行预估。
但最终线上的结果是用户的浏览是浏览市场的确变长，但是预定基本上没有什么变化，经过分析可能的原因如下
第一是推荐出来的内容描述会比较长，或者描述中带有一些比较独特的东西，或者甚至是比较搞笑，这样用户浏览的时间就变成了，但是并不会影响到对应的预定。
第2个可能的原因，是模型倾向于推荐价格比较高的listing，这样用户会进行浏览，但是最后也没有预定。所以多任务是一个比较有挑战的方向，需要继续进行研究。

Dustinsea: multi-task learning是大趋势，从理论上也是符合逻辑的，但真正应用的时候，需要的投入也比较多，包括对于问题的细致分析，所以可以作为系统成熟阶段需要突破的手段，但在系统的拓荒阶段，不一定是很好的选择。

Airbnb深度学习搜索引擎实践－模型发展历程

图：下单率分布

特征工程
传统的feature engineering需要很多的时间以及经验，并且中间有很多的tricks才能提升目前的效果，但是这些经验和方法不一定还适用于最新的变化的数据（因为用户的行为是动态变化的，之前人工feature engineering的人工经验知识可能已经迁移）
nn的一个优势就是它能对特征进行***的组合，不过我们还是需要一部分的特征工程，只是我们的特种工程不再聚焦在我们选择以及如何进行特征变化，更多的是对数据进行统一的预处理，这样nn能够更正确的对特征进行转换和组合。
feature nomalization
gbdt值和特征的相对顺序有关，但是nn会和特征的值有关，所以进行特征的规范化。

Airbnb深度学习搜索引擎实践－模型发展历程

图：特征归一化方法
第1种相对进行z score的处理
第2种，如果分布符合指数分布，则进行log的处理
feature distribution

从特征的角度保证特征是平滑的，是比较重要的。因为如果一般特征不平衡，都是存在问题。检查特征是否平滑，有以下好处:
检查数据种是否有bugs
检查如何进行特征变换，例如文中将lng/lat转变为用户和listing的distance

图：经纬度特征分布

超参数

dropout: 一般dropout在nn中都是防止过你和的标配，但在该场景中效果不佳，文中给出的解释是dropout比较像数据增强，相当于引入噪音。文中后续引入了人工构造的噪音，线下ndcg有1%提升，但线上无变化
initialization:使用xavier initialization方法，比参数默认置0好
Optimizer：文中最后使用的是LazyAdamOptimizer，因为实验中使用Adam发现效果很难再优化
文中最后还是推荐dnn是一个方向，因为能够让大家很大程度上摆脱特征工程，而站到更高的角度上去考虑优化目标的问题。但是整个过程也是比较耗时的，作者认为他们DNN的工作也才刚刚开始。

Airbnb深度学习搜索引擎实践－模型发展历程

图：发展历程

推荐阅读

process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
match
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
match
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
数组
C#之数据集：DataSet对象的使用及相关方法详解

本文介绍了C#中数据集DataSet对象的使用及相关方法详解，包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成，以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读，读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]

蜡笔小新 2023-12-14 12:09:13
process
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
process
CentOS 7部署KVM虚拟化环境之一架构介绍

本文介绍了CentOS 7部署KVM虚拟化环境的架构，详细解释了虚拟化技术的概念和原理，包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]

蜡笔小新 2023-12-12 21:38:57
process
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
process
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
audio
如何用GStreamer删除H264格式的中间部分视频

本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分，而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路，并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案，希望能够得到更好的思路。 ... [详细]

蜡笔小新 2023-12-10 08:46:57
install
Python 中的 PyInputPlus 模块

Python中的PyInputPlus模块原文:https ... [详细]

蜡笔小新 2023-10-17 20:32:43
install
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
random
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
const
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
const
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
install
协程greenletyieldasyncioasync / await协程意义异步编程事件循环快速上手awaitTask对象

本文介绍了协程的概念和意义，以及使用greenlet、yield、asyncio、async/await等技术实现协程编程的方法。同时还介绍了事件循环的作用和使用方法，以及如何使用await关键字和Task对象来实现异步编程。最后还提供了一些快速上手的示例代码。 ... [详细]

蜡笔小新 2023-12-09 01:35:03

宇宇宇你同行

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章