热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

夸克搜索是阿里巴巴(阿里软件有哪些)

导读:旅行类商品(如机票、火车票、汽车票相对实物电商更加标品,用户决策因素更加单一,而行业内大多基于简单规则排序,如时间、价格或业务逻辑加权,难以满足用户的个性化出行需求。飞猪


导语:旅游产品(如机票、火车票、公交车票)比实体电商更规范,用户的决策因素更单一。但大部分行业都是基于时间、价格或业务逻辑权重等简单规则进行排序,难以满足用户的个性化出行需求。在过去的一段时间里,朱非一直在不断探索个性化的流量搜索排序技术。本次,阿里飞珠的首席老师将围绕智能交通导购,详细分享个性化交通搜索分拣技术的实践与创新。主要内容包括:


背景:交通业务介绍挑战:交通出行业务特殊性解决方案:从业务规则到个性化排序模型效果:模型优化迭代结果总结:进一步优化方向01背景:交通业务介绍




1.运输行业自身的痛点


从交通行业本身来看,目前交通排序策略比较简单,大多基于简单的规则。这种单一的规则排序无法高效匹配用户需求,难以满足用户多样化、个性化的出行需求。这是行业的一大痛点。


2.相比实体电商的不足。


与实体电商相比,运输的商品决策信息非常有限,商品高度标准化,如出行时间、价格等因素。在我们的搜索列表页面中,关键决策信息已清晰地显示给用户。不同于传统电商,即实物电商产品的一些决策信息比较大,而运输产品的信息决策只能展现一些决策因素,所以需要进入详情页才能看到真正的关键决策因素。在流量场景中,这个决策因素明显不同于实体电商。


3.相关理论研究


2018年之前,行业内有一些理论研究,主要集中在学术界,而相关的行业应用相对较少,多基于传统的线性模型和机器学习模型来做流量类别的搜索和排名。2018年,Amadeus发表了论文《Deep Choice Model Using Pointer Networks for Airline Itinerary Prediction》,利用深度序列模型对机票进行排序,在离线数据集上取得了很好的效果。


02挑战:运输业务的特殊性


1.挑战:基于领域、商品、人的用户性质差异。




首先,用户行为极其稀疏,用户出行的频率相对较低,比如一年三五次;其次,用户在出行时更注重服务体验;而且决策因素过于单一,决策过程复杂,决策周期很长。从商品角度看,商品是实时动态的,库存价格是实时动态变化的,运输资源也是实时动态约束的。此外,商品高度标准化,我们可以发现用户在不同场景下的需求差异很大,比如支付宝APP或者淘宝。他们的用户在三个终端上的属性差异很大,即使在同一个终端的不同入口、不同交通场景下,用户的属性也有很大的不同。如何满足这种差异,做到个性化?


2.挑战:与实体电子商务相比:信息孤岛




此外,在交通场景和物理电子商务场景中,搜索被排序。从技术对比来看,首先我们可以看到召回方面的明显差异。传统的实体电商很容易构建U-Q-I的网络结构,因为在同一个Q下,可以召回N个产品,通过查询连接工作产品,从而生成一个网络结构。然而,在交通场景中,这种网络结构是分离的,信息是一个接一个形成的。比如从杭州到新加坡的搜索,一个出发地,一个目的地,可以召回目的地下方的CA767,但不能召回VS251,只能通过上海到伦敦的一条路线召回。这样,很难通过查询将两个产品与用户联系起来。这给商品表示和用户表示带来了很大的困难。


03解决方案:从业务规则到个性化排序模型


1.排名系统架构




如何解决以上困难?这是一个整体在线系统架构图。底层是日志收集和数据预处理,进一步处理数据


2.深度列表模式





什么要使用DLM模型呢,DLM模型具有以下几个优点:

交通排序结果多样性模拟用户决策过程工程打分延时低

Amadeus在论文中提到他们的方法获得了很好的优化效果,包括top N准确率有大幅提升。其核心思想是基于Pointer Net网络结构,对航班序列listwise打分。Pointer Net是在2015年NIPS上发表的一篇文章,2018年他们就把文章的核心思想引入到机票排序排序中。

3. DCM:Deep Choice Model

在Encoder阶段,使用的是RNN网络,比如说我们实验了LSTM、biLSTM以及transformer三个子网络,离线实验效果表现都比较接近,没有明显的差异性。第三个阶段是Decoder阶段,它类似于大意的小蝴蝶的角色,包含了上述序列的所有输入,Decoder输出信息可以看作是一个用户浏览完所有航班,然后对航班进行选择决策的过程。Attention阶段,本质上是计算Decoder和Encoder向量之间的相似度,等同于用户选择更合适的一个航班,α是Attention的权重,即航班序列打分结果。Online实验来看,总体转化率有一定提升,但提升幅度不是特别大。

4. PFRN:Personalized Flight Ranking Network

DCM第一版模型的效果对我们有很大启发,基于这一版模型的探索,我们进一步优化提出了PFRN模型,这篇论文已公开发表在CIKM’20。模型本身是经典的双塔结构,左边是航班序列的表征,右边是用户行为序列表征,上层对两个序列做Attention,表示用户对航班序列的偏好或者是感兴趣程度。我们提出了LFE序列编码结构,编码结构是一个比较大的创新点。

① PFRN:Listwise Feature Encoding ( LFE )

② PFRN:如何缓解用户行为的稀疏性

模型要解决第二个问题是如何缓解用户行为的稀疏性,我们目前的工作相对来说还比较简单:基于用户人群划分(基于业务规则),人群被划分为六大类,每一个用户又会映射到其中一类,在做用户行为表征的时候,除了用户个体的行为,还会把群体的行为引进来。例如,如果用户是旅行/出差意图用户,用户群体购买行为可以融合到现有的当前用户的行为中去,这种融合通过实验发现对整体的排序效果带来很大提升。

04效果:模型优化迭代结果

第一类模型:基于规则的Cheapest,按低价排序;第二类模型:传统机器学习模型;第三类模型:近几年一些搜索排序相关论文工作比较。Online实验效果,整体转化率提升接近4%。

05总结:进一步优化方向

当前的工作来看,初步建立了交通搜索排序算法体系,取得了一定的业务效果。在用户表征上面,除了用户的长短期行为以外,也引入了用户群体行为做数据增强,缓解个体行为稀疏性。

未来可能有三个方面工作:

出行意图的深入理解,比如对群体用户行为的划分,用户分群这一块工作要进一步完善;用户行为稀疏性建模,这块工作对整体排序效果提升有很大的影响;整体排序策略上,自然召回商品量有限,通过增加更多推荐坑位,同时内容运营把丰富的交通相关内容引进来,新的产品样式形态,多源信息的混排对我们也是比较大的挑战。

今天的分享就到这里,谢谢大家。

分享嘉宾:

素数

阿里飞猪 | 导购算法团队

2016年加入飞猪技术部,深度参与飞猪全局搜索项目用户意图预测、query推荐、个性化排序等工作,目前专注于智能交通的导购算法体系建设。

分享嘉宾:素数 阿里飞猪

编辑整理:眼睛大的时光

出品平台:DataFunTalk


推荐阅读
  • 本文介绍了H5游戏性能优化和调试技巧,包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说,解决游戏性能问题是一个关键的任务,本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • Android JSON基础,音视频开发进阶指南目录
    Array里面的对象数据是有序的,json字符串最外层是方括号的,方括号:[]解析jsonArray代码try{json字符串最外层是 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 深入解析Linux下的I/O多路转接epoll技术
    本文深入解析了Linux下的I/O多路转接epoll技术,介绍了select和poll函数的问题,以及epoll函数的设计和优点。同时讲解了epoll函数的使用方法,包括epoll_create和epoll_ctl两个系统调用。 ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • JVM:33 如何查看JVM的Full GC日志
    1.示例代码packagecom.webcode;publicclassDemo4{publicstaticvoidmain(String[]args){byte[]arr ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 1关于字符串相邻的两个或多个字符串字面值(引号引起来的字符)将会自动连接到一起:str_catpython!str_cat输出:python!把很长 ... [详细]
  • 用ESP32与Python实现物联网(IoT)火焰检测报警系统
    下图是本案例除硬件连线外的3步导学开发过程,每个步骤中实现的功能请参考图中的说明。在硬件连线完成之后我们建议您先使用“一分钟上云体验”功能预先体验本案例的实际运行效果 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了10分钟了解Android的事件分发相关的知识,希望对你有一定的参考价值。什么是事件分发?大家 ... [详细]
  • 语义分割系列3SegNet(pytorch实现)
    SegNet手稿最早是在2015年12月投出,和FCN属于同时期作品。稍晚于FCN,既然属于后来者,又是与FCN同属于语义分割网络 ... [详细]
author-avatar
blue秋夜听雨321
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有