开发笔记:用hadoop实现SimRank++算法权值转移矩阵的计算

作者：KisS汐唲 | 来源：互联网 | 2023-10-12 10:23

篇首语：本文由编程笔记#小编为大家整理，主要介绍了用hadoop实现SimRank++算法----权值转移矩阵的计算相关的知识，希望对你有一定的参考价值。

本文主要针对广告检索领域的查询重写应用，依据查询-广告点击二部图，在MapReduce框架上实现SimRank++算法。关于SimRank++算法的背景和原理请參看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。

SimRank++的矩阵形式的计算公式为：
技术分享
算法主要过程例如以下：
Step1: 计算权值矩阵。并获取最大Query编号和最大广告编号。
Step2: 以Step1的输出作为输入，迭代计算SimRank相似度。
Step3: 计算证据矩阵。并用计算结果修正Step2的输出，计算出终于的经过归一化的相似度分数。
Step4: 把Step3的输出转化为固定的格式，得到终于的相似度分数结果。
当中Step2迭代计算SimRank相似度分数比較复杂。由一系列的MapReduce作业组成。

本文主要关注Step1。即计算权值矩阵的计算。Step2~4将在兴许的文章中给出。

1.输入文件的格式

为了简单起见，在我们的实现中。用点击次数作为边的权值。

一个更好的选择是用广告点击率(Click Through Rate, CTR)作为权值。理由例如以下：某个广告在q1下展示10000次。点击100次（CTR为0.01）。在q2下展示1000次，点击90次（CTR为0.09）；在q3下展示1000次。点击100次（CTR为0.1）；显然q3和q2的相似度要比q3和q1的相似度要高，然而假设仅仅考虑点击次数，那么算法会觉得q3和q1的相似度比q3和q2的高。

期待的输入数据的文件格式：
1. Query和广告的点击关系数据文件（下面记为qas文件）的每一行的格式例如以下：
qas ^A queryid { ^A adid ^B clicknum}
当中。{ }表示内部的内容能够反复1次或多次，但至少一次；“qas”的标识字符串；‘^A’是ASCII码为1的不可见字符。‘^B’是ASCII码为2的不可见字符。
2. 广告和Query的点击关系数据文件（下面记为aqs文件）的每一行的格式例如以下：
aqs ^A adid { ^A queryid ^B clicknum}
当中，{ }表示内部的内容能够反复1次或多次，但至少一次。“aqs”的标识字符串；‘^A’是ASCII码为1的不可见字符；‘^B’是ASCII码为2的不可见字符。
技术分享
上图所看到的的查询和广告之间的点击关系相应的文件格式例如以下：

qas文件 qas ^A 1 ^A 1 ^B 10 ^A 3 ^B 5 qas ^A 2 ^A 2 ^B 7 ^A 3 ^B 6 aqs文件 aqs ^A 1 ^A 1 ^B 10 aqs ^A 2 ^A 2 ^B 7 aqs ^A 3 ^A 1 ^B 5 ^A 2 ^B 6

2. 思路分析

权值矩阵元素的计算公式为：
技术分享
能够看出。 variance(a)的计算须要用到aqs文件， normalize_weight(q,a)的计算须要用到qas文件； variance(q)的计算须要用到qas文件， normalize(q,a)的计算须要用到aqs文件。从而，在计算W(a,q) 和 W(q,a)时都要用到aqs文件和qas文件。这使得MapReduce算法的设计比較困难。

考虑前面所述的一个简单样例。”Mapper”任务在处理qas文件时会计算出例如以下所看到的的内容。
技术分享
”Mapper”任务在处理aqs文件时会计算出例如以下所看到的的内容。

在计算W(q,a)时须要使用到variance(a)和normalizedweight(q, a)；在计算W(a,q)时须要使用到variance(q)和normalizedweight(a, q)。

因此，依据以上分析，对于一个特定的q和a。须要把Map任务的输出中的variance(a)和normalizedweight(q, a)”Shuffle”到同一个”Reduce”节点，由该”Reduce”节点计算出W(q,a)。同理，须要把”Map”任务的输出中的variance(q)和normalizedweight(a,
q) ”Shuffle”到同一个”Reduce”节点。由该”Reduce”节点计算出W(a,q)。

另外。能够看出。在计算W(q1,a), W(q2,a),……. 时都须要用到variance(a)，因此我们希望计算的“Reduce”节点接受到的值列表中variance(a)项排在全部normalized_weight(q, a)项之前。

MapReduce框架在记录到达”Reducer”之前按键对记录排序，但键所相应的值并没有被排序。因为值来自不同的map任务，所以在多次执行程序时，值的出现顺序并不固定。导致每次执行作业的时间会各有不同。一般来说，大多数MapReduce程序无需考虑值在”Reduce”函数中出现的顺序。可是。像我们这里碰到的情况一样。有时确实须要通过对键进行排序和分组等以实现对值的排序。通过MapReduce框架辅助对记录值排序的方法总结例如以下：
(1) 定义包含自然键和自然值的组合键。

(2) 键的comparator依据组合键对记录进行排序，即同一时候利用自然键和自然值进行排序。
(3) 针对组合键partitioner和分组comparator在进行分区和分组时均仅仅考虑自然键。

基于以上分析。计算权值矩阵的MapReduce任务须要小心地设计”Map”任务输出的Key和Value的数据结构以及”Partitioner”函数。

3. 算法实现

(1) Map任务输出的键(Key)的数据结构
键(Key)由一个三元组构成：
type用于标识index1是广告的编号(0)，还是Query的编号(1)；当type = 0时。相应的值(value)表示normalizedweight(q,a)，当中q等于index1，a等于index2；当type = 1时。value表示normalizedweight(a,q)，当中a等于index1，q等于index2；
另外，当index2 = -1时。表示相应的值为方差（variance(index1)）。设为-1是为了保证同一组Key相应的值列表中方差项排在第一个。
键(Key)的三个元素都參与comparator的比較。

(2) Map任务输出的值(Value)的数据结构
值(Value)有一个二元组构成：。当中index总是等于相应的键的第三个元素index2。这里看似冗余，事实上不然。

由于我们在利用MapReduce框架辅助排序时，分组函数(GroupComparator)仅仅比較Key的前两个元素，忽略Key的第三个元素，这样仅仅有Key的前两个元素的值同样，那么他们的值将合并到同一个列表中。有唯一的一个“Reduce”函数处理。MapReduce框架在默认情况下仅仅会把key全然同样值合并到同一个列表中。

因此我们须要设置OutputValueGroupingComparator为我们自己定义的GroupComparator。能够利用例如以下的语句设置：

conf.setOutputValueGroupingComparator(GroupComparator.class);

(3) 分区函数
分区函数控制”Map”任务的每一个输出记录由哪一个”Reduce”节点处理。

在权值矩阵的计算作业中该函数的地位特别重要。

依据上一小节的分析和辅助排序的要求，分区函数仅仅考虑键的前两个元素。

我们把”Reduce”节点分成两部分，一部分计算，另外一部分计算。”Partition”函数的代码例如以下。

public int getPartition(Key key, Value value, int numPartitions) { int offset = numPartitions / 2; if (key.type == 0) { int base = numPartitions - offset; return key.index1 % base + offset; } return key.index1 % offset; }

(4) “Map”函数和”Reduce”函数
“Map”函数和”Reduce”函数并行地处理基本的工作。当中”Map”函数读入qas文件，计算出variance(q)和normalizedweight(a, q)。读入aqs文件。输出variance(a)和normalizedweight(q, a)。

同一时候为了以后的计算方便，”Map”函数还记录下最大的Query编号和最大的Ad编号。

因为多个”Map”函数之间不能相互通信。为了得到全局的最大Query编号和Ad编号。每一个Map函数结束的时候在一个指定的HDFS文件夹下新建一个以本函数统计出的当前最大编号为文件名称的空文件，前提条件是此时该指定文件夹下还没有更大编号的文件存在。

“Reduce”函数比較简单，直接依据公式计算出终于的权值就能够了。

”Reduce”输出的Key是一个二元组。表示权值矩阵的行号和列号。输出的值为对应的权值。

因为我们在同一个作业中同一时候计算了Query-Ad的权值矩阵和Ad-Query的权值矩阵。这两个矩阵在后面的SimRank实现过程中需要单独使用，因此必需要把两种的输出区分开来。我们使用MultipleOutputs类定义了两个数据收集对象，这两个数据收集对象输出的文件名称有不同的前缀。

“Mapper”和”Reducer”的伪代码例如以下。

计算权值矩阵的”Map”函数

Setup(){ currMaxQueryId ← 0 currMaxAdId ← 0 dir ← “hdfs://namenode/…/XXX” } Map(line_no, line_txt){ content ← Parser(line_txt) if (content.type == 1) currMaxQueryId ← max(currMaxQueryId, content. id) else currMaxAdId ← max(currMaxAdId, content. id) weight_sum ← sum(content.weights) variance ← var(content.weights) emit , <-1, variance> for e in content.elements normalized_weight ← e.weight / seight_sum emit , } Close(){ Query_id ← getCurrentQueryId(dir) Ad_id ← getCurrentAdId(dir) If (currMaxQueryId > Query_id) Touch dir/ currMaxQueryId If (currMaxAdId > Ad_id) Touch dir/ currMaxAdId }

计算权值矩阵的”Reduce”函数

Reduce(key, valueList){ variance ← valueList[0] spread ← exp(-variance) for v in valueList[1]…valueList[N] emit , spread * v.value }

推荐阅读

match
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
python
python里33个关键字符是什么意思_Python 关键知识点

1关于字符串相邻的两个或多个字符串字面值(引号引起来的字符)将会自动连接到一起：str_catpython!str_cat输出：python!把很长 ... [详细]

蜡笔小新 2023-10-17 16:31:38
bit
开发笔记:10分钟了解Android的事件分发

篇首语：本文由编程笔记#小编为大家整理，主要介绍了10分钟了解Android的事件分发相关的知识，希望对你有一定的参考价值。什么是事件分发？大家 ... [详细]

蜡笔小新 2023-10-17 11:22:42
list
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
java
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
java
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
range
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
match
Python基础篇：315道题目及答案整理，帮助你检验学习成果

本文整理了315道Python基础题目及答案，帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者，这些题目将是一个不错的选择。请注意，答案在视频中，本文不提供答案。 ... [详细]

蜡笔小新 2023-12-10 14:33:46
cmd
目录浏览漏洞与目录遍历漏洞的危害及修复方法

本文讨论了目录浏览漏洞与目录遍历漏洞的危害，包括网站结构暴露、隐秘文件访问等。同时介绍了检测方法，如使用漏洞扫描器和搜索关键词。最后提供了针对常见中间件的修复方式，包括关闭目录浏览功能。对于保护网站安全具有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-09 23:30:30
list
android 触屏处理流程,android触摸事件处理流程 ? FOOKWOOD「建议收藏」

android触屏处理流程,android触摸事件处理流程?FOOKWOOD「建议收藏」最近在工作中，经常需要处理触摸事件，但是有时候会出现一些奇怪的bug，比如有时候会检测不到A ... [详细]

蜡笔小新 2023-10-17 18:55:48
stream
树莓派小车3——安卓客户端

项目地址https:github.comffmydreamWiCar界面做的很难看，美工方面实在不在行。重点是按钮触摸事件的处理，这里搬了RepeatListener项目代码，例 ... [详细]

蜡笔小新 2023-10-17 15:08:33
stream
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29
java
mintui中的下拉加载，可以一直加载数据，怎么处理呢？

html结构 ... [详细]

蜡笔小新 2023-10-17 10:44:03
utf-8
各种字符编码方式详解及由来(ANSI,UNICODE,UTF8,GB2312,GBK)

转自：http:www.phpweblog.netfuyongjiearchive200903116374.html一直对字符的各种编码方式懵懵懂懂，什 ... [详细]

蜡笔小新 2023-10-17 10:02:49
list
Perl的测试框架Test::Base简介及使用方法

本文介绍了Perl的测试框架Test::Base，它是一个数据驱动的测试框架，可以自动进行单元测试，省去手工编写测试程序的麻烦。与Test::More完全兼容，使用方法简单。以plural函数为例，展示了Test::Base的使用方法。 ... [详细]

蜡笔小新 2023-12-13 20:05:31

KisS汐唲

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章