当前位置: 开发笔记 > 运维 > 正文

国际搜索离线系统优化之一全局排序优化

作者：子幽 | 来源：互联网 | 2018-06-11 15:34

总觉得阶段性的总结是个好习惯，很多自己做的事情，如果不及时总结一下，过一段时间就忘记了，当要用到时，又需要花费较多的时间去重新熟悉。于是决定抽点时间总结一下以前对国际搜索离线系统做的一些优化（这里说的国际搜索，主要指AE、SC和SC店铺，AE即Ali

总觉得阶段性的总结是个好习惯，很多自己做的事情，如果不及时总结一下，过一段时间就忘记了，当要用到时，又需要花费较多的时间去重新熟悉。于是决定抽点时间总结一下以前对国际搜索离线系统做的一些优化（这里说的国际搜索，主要指AE、SC和SC店铺，AE即AliExpress，SC即Sourcing，这些优化对这几个应用都是通用的），不仅起到一个备忘的作用，如果能给读者带来一些启发，想必也是极好的。

既然是搜索离线系统相关，我们就先看一下国际搜索全量流程的几个主要环节，如图1所示。

图1. 全量流程

1）dump，将数据从数据库读出来，写入hbase，只有做大全量的时候才会全量dump数据库，一般情况下每天只需跑一次小全量，数据库中数据的更新会以增量的方式更新hbase。

2）join，读取hbase，做多表join，生成一条条doc，一条doc包含了一条产品的全部字段。

3）global sort，即全局排序，按产品全局分global_score对产品进行全局排序，生成的单个文件内部并不要求有序。

4）abuild，读取全局排序后生成的文件，构建索引，生成的索引会存储在HDFS上。

5）dispatch，将索引从HDFS上分发到对应的search机器上。

6）switch，切换索引、程序、配置和算法词典，新索引上线，对外提供服务。

这次先总结一下全局排序优化，任何项目或需求都有相应的背景，我们的离线计算中为何要做全局排序？

说到这个，又引出了分层检索，早些时候，国际站搜索引擎对外提供服务时，在处理每个搜索请求时，都会查询所有的segment，但其实对于每个请求，都只需返回一定数量的结果集，因此，查询所有的segment并非必要，只会带来性能上的损失。于是，分层检索就在千呼万唤中出来了。

何谓分层检索，顾名思义，就是只查询一定数量的segment，当结果集够了就不再继续查询，这对搜索引擎查询性能的优化是显而易见的。

但这里存在一个问题，就是对于卖家发布的产品，质量是良莠不齐的，我们需要把质量好的优先搜索出来，所以前面segment的产品质量要高于后面的segment，否则一些质量高的展品就没有展示机会了。比如，我们有3个segment，seg_1, seg_2, seg_3，那么seg_1中的产品质量就要比seg_2中的产品质量高，seg_2中的产品质量要比seg_3中的产品质量高，在每个segment内部并不做要求。

判断产品质量好坏的标准是什么呢？我们引入了一个全局分global_score，每条产品的global_score都是离线计算好的，以此作为分层检索的依据。

如图1所示，在搜索引擎的离线计算中，有个多表join的环节，在多表join的过程中会有一些业务逻辑的计算，global_score就是在这个阶段计算出来的。有了global_score，我们就可以对产品做全局排序了。假如排序之后我们生成3个文件，part_1, part_2, part_3，就要求part_1中每条doc的global_score要高于part_2中的每条doc，part_2之于part_3亦如此，但每个part内部并不要求有序。在后面建索引的过程中，会有一个保序逻辑，以此保证多个segment之间的有序。

全局排序怎么做呢？由于数据量大，我们各个应用的离线计算任务基本上都是运行在hadoop集群上的，全局排序亦如此。要达到上述的效果，即各个partition之间是按global_score有序的，我们采用的方案是：首先对数据进行采样，按global_score进行分区，将定义分区的键写入_partitions文件，再实现自定义的TotalOrderPartitioner（这里实现自定义的TotalOrderPartitioner是为了在输出的单个文件内部将同一家公司的产品聚合在一起，即按company_id聚合，从而大大提高输出文件的压缩比，显著缩短了后面abuild构建索引的运行时间），进行全局排序。采样的核心思想是只查看一小部分键，获得键的近似分布，并由此构建分区。

这里有必要先提一下列的概念，由于单台search能承载的索引量有限，所以数据量大时，需要对数据进行分列，使所有数据尽量均匀分布到不同的列上。比如SC有19列，采用的做法就是根据product_id % 19将全部数据分布到19列上。在做多表join的之后，数据的分列就已经做好了。因此全局排序是对多列的数据分别进行全局排序。

在分层检索项目上线到SC BT集群（预发布环境）时，全局排序需要80min才能运行完成，经分析，大部分的时间耗在采样上面。看了代码，发现每列的全局排序都对应一个job，SC有19列数据，就跑19个job分别对每列数据进行全局排序。排序之前先采样，采样器是在客户端运行的，因此，限制分片的下载数量以加速采样器的运行就显得尤为重要。在优化之前的代码实现中，每个job都是读取对应列的数据，自己独立采样的，而且多个job是串行采样。因此，一个可行的优化方案就是多个job并行采样，但由于我们的产品数据是分列存储的，每一列的数据量也足够大。比如SC现在3.6亿的数据量，单列的数据就接近2千万，因此其实每一列产品global_score的分布是基本一致的，所以，我们是否可以只对一列数据进行采样，然后所有job都共享这一个样本呢？这样就不仅能大大缩短采样时间，而且也不会引入并行的复杂性。答案是可行的。

简单的说，全局排序优化的基本思想，就是根据数据的分布特点，使多列数据的多个全局排序job共享同一个样本。

下面我们来看一下优化后的代码实现：

Vector vecRunningJob = new Vector(build_num);
Vector vecJobClient = new Vector(build_num);
for (int j = 0; j 
其中build_num表示列数，从上面的代码可以看出，对每列数据都会调用makeJob方法，然后提交任务进行全局排序。注意这里调用makeJob方法和提交任务是串行的，不过任务提交后是并行跑的。
?我们再看一下makeJob方法的实现：
private static JobConf makeJob(JobConf basejob, String inputPath,
        Vector vecInPutFile, String outPutPath, String aggregateField) throws Exception {
    JobConf cOnf= new JobConf(basejob);
    conf.setJarByClass(DCSortMain.class);
    for (int i = 0; i 
可见，在做好相关设置后，makeJob中会调用sample方法进行采样，也就是说，其实针对每一列的makeJob都会调用sample方法。
再来看看sample方法的实现：
private static void sample(JobConf conf, String inputPath) throws IOException, URISyntaxException {
    int jobIndex = 0;
    Path partitiOnFile= new Path(inputPath, jobIndex + "_partitions");
    conf.setPartitionerClass(MyTotalOrderPartitioner.class);
    conf.set("total.order.partitioner.natural.order", "false");
    MyTotalOrderPartitioner.setPartitionFile(conf, partitionFile);
    if (!sampleDone) {
        LOG.info("sample start ...");
        MyInputSampler.Sampler sampler =
            new MyInputSampler.RandomSampler(1, 20000, 10);
        MyInputSampler.writePartitionFile(conf, sampler);
        LOG.info("sample end ...");
        sampleDOne= true;
    }
    // Add to DistributedCache
    URI partitiOnUri= new URI(partitionFile.toString() + "#" + jobIndex + "_partitions");
    DistributedCache.addCacheFile(partitionUri, conf);
    DistributedCache.createSymlink(conf);
} 
可以看出，我们引入了一个布尔变量sampleDone对采样进行了控制，只在第1次调用makeJob方法时才执行采样操作，后面的创建的job都不再进行采样，而是与第1个job共享同一个_partitions文件，载入到自己使用的分布式缓存中，供后面的全局排序使用。sampleDone定义如下：
private static boolean sampleDOne= false; 
顺便提一下采样操作，hadoop内置的采样器有3个：
1）RandomSampler，以指定的采样率均匀地从一个数据集中选择样本；
2）SplitSampler，只采样一个分片中的前n个记录；
3）IntervalSampler，以一定的间隔定期从划分中选择键，对于已排好序的数据来说是一个更好的选择。
RandomSampler是优秀的通用采样器，我们最终也是选择RandomSampler，因为虽然使用另外两个采用器，采样时间更短，但最终数据分布却很不均匀，只有RandomSampler才能达到预期效果。同时，我们将采样率设置为1，最大样本数设置为20000，最大分区设置为10。最大样本数和最大分区只需满足其一，即停止采样。可以通过调整RandomSampler的这些参数达到不同的采样效果。
优化版本上线SC BT之后，全局排序的运行时间从80min降到了30min，缩短了50min。正式环境由于hadoop集群更加强大，全局排序的运行时间更短。

    
        原文地址：国际搜索离线系统优化之一 —— 全局排序优化, 感谢原作者分享。

推荐阅读

服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
apache
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
apache
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
debian
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
debian
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
linux
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
linux
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
负载均衡
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
apache
java filesystem 追加_Java DistributedFileSystem.append方法代码示例

importorg.apache.hadoop.hdfs.DistributedFileSystem;导入方法依赖的package包类privatevoidtestHSyncOpe ... [详细]

蜡笔小新 2023-10-17 17:01:46
apache
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
linux
LVS-DR直接路由实现负载均衡示例

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 10:27:04
apache
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
linux
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50
服务器
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
linux
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11

子幽

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章