热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Spark底层通信RPC源码分析

RPC通信:无论是hadoop2.x的Rpc通信方式还是Spark2.x的Rpc通信方式,简单通俗的来说就是两个进程之间的远程通信,比如java一个A项目里面有一个classA,里面有一个wash

RPC通信:无论是hadoop2.x的Rpc通信方式还是Spark2.x的Rpc通信方式,简单通俗的来说就是两个进程之间的远程通信,比如java 一个A项目里面有一个class A,里面有一个washA方法一个B项目里面有一个Class B类,里面有一个方法是washB,B项目通过代理模式以及java的反射机制调用到A项目里面的washA,这种情况下就可以理解为是一个简单的Rpc通信方式。

Spark2.x

Spark2.x使用基于RPC的通信方式,去除了1.x的Akka的实现方式,只保留了netty的实现方式,Spark2.xRpc提供了上层抽象(RpcEndpoint、RpcEnv、RpcEndPointRef),具体的实现方式只要实现了定义的抽象就可以完成Rpc通信,Spark2.x之后目前版本只保留了Netty(NettyRpcEnv、NettyRpcEndpointRef)的实现,定义抽象最大的好处相信开发的朋友都很清楚,以后不管提供了什么方式的实现只要实现了RPCEndpoint,RpcEnv,RpcEndpointRef就可以完成的通信功能。比如自己写一个自己版本的Rpc通信实现。

Spark2.x的Rpc通信方式主要包括一下几个重要方面

RpcEndpoint:消息通信体,主要是用来接收消息、处理消息,实现了RpcEndPoint接口就是一个消息通信体(Master、Work),RpcEndpoint 需要向RpcEnv注册

RpcEnv:Rpc通信的上下文环境,消息发送过来首先经过RpcEnv然后路由给对应的RpcEndPoint,得到RpcEndPoint

RpcEndPointRef:RpcEndPoint的引用如果要想某个RpcEndPoint发送消息,首先要通过RpcEnv得到RpcEndPoint的引用

RpcEndPoint 接口 里面的定义如下

 

val rpcEnv : RpcEnv //得到RpcEnv对象

final def self: RpcEndpointRef = {//返回一个RpcEnpointRef这个方法通常用来自己给自己发送消息

   rpcEnv.endpointRef(this)

  }

def receive: PartialFunction[Any, Unit]//处理RpcEndPointRef.send或者RpcEndPointRef.reply方法,该方法不需要进行响应信息

 

def receiveAndReply(context:RpcCallContext): PartialFunction[Any, Unit]//处理RpcEndPointref.ask发送的消息,处理完之后需要给调用ask的通信端响应消息(reply)

 

def onError(cause: Throwable)//处理消息失败的时候会调用此方法

def onConnected(remoteAddress: RpcAddress)//远程连接的当前节点的时候触发

def onDisconnected(remoteAddress:RpcAddress)//远程连接断开时候触发

def onNetworkError(cause: Throwable,remoteAddress: RpcAddress)//远程连接发生网络异常时触发

def onStop()//停止RpcEndPoint

def onStart()//启动RpcEndPoint,这里不仅仅是网络上说的启动RpcEndPoint处理任何消息,onStart方法里面很多情况下可以写自己的RpcEndPoint的一些实现比如启动端口,或者创建目录

但是RpcEndPoint只有在onStart方法做一些处理之后才可以接受RpcEndPointRef发送的消息

private[spark] trait ThreadSafeRpcEndpointextends RpcEndpoint//因为receive是并发操作如果要现成安全就是用threadSafeRpcEndPoint

 

RpcEndPoint的生命周期 构造-->onStart--> receive -->onStop,注意onStart的方法是在调用setRpcEndPoint注册之后就会执行任何RpcEndPoint的onStart方法都是在注册之后执行的

原因后面的源码的提到

 

RpcEndpointRef:抽象类

 

  defaddress: RpcAddress //根据主机名端口返回一个RppAddress

def name: String//name 一个字符串 暂时不知道干嘛的

def send(message: Any): Unit//向RpcEndPoint发送一个消息 不需要返回结果

 defask[T: ClassTag](message: Any, timeout: RpcTimeout): Future[T]

  defask[T: ClassTag](message: Any): Future[T] = ask(message, defaultAskTimeout) //向RpcEndPoint发送消息并得到返回结果

def askWithRetry[T: ClassTag](message:Any): T = askWithRetry(message, defaultAskTimeout)// 想RpcEndPoint发送消息并在一定时间内返回结果 失败的时候并且进行一定次数的重试

 

 

RpcEnv

 

 private[rpc] def endpointRef(endpoint: RpcEndpoint): RpcEndpointRef//传入RpcEndPoint得到RpcEndPointref对象

  defaddress: RpcAddress//根据主机名端口返回一个RppAddress

def setupEndpoint(name: String, endpoint:RpcEndpoint): RpcEndpointRef//注册RpcEndPoint返回对应的RpcEndPointRef

def asyncSetupEndpointRefByURI(uri:String): Future[RpcEndpointRef]//通过uri一步获取 RpcEndPointRef

 defstop(endpoint: RpcEndpointRef): Unit//停止RpcEndPoint根据RpcEndPointRef

  defshutdown(): Unit//关闭RpcEndPoint

 defawaitTermination(): Unit//等待RpcEndPoint退出

 

object RpcEnv

 defcreate(

     name: String,

     host: String,

     port: Int,

     conf: SparkConf,

     securityManager: SecurityManager,

     clientMode: Boolean = false): RpcEnv = {

   val cOnfig= RpcEnvConfig(conf, name, host, port, securityManager,clientMode)

   new NettyRpcEnvFactory().create(config)

  }

//通过RpcEnvFactory.create创建RpcEnv环境

RpcEnvConfig

 

private[spark] case class RpcEnvConfig(

   conf: SparkConf,

   name: String,

   host: String,

   port: Int,

   securityManager: SecurityManager,

   clientMode: Boolean)

case类 里面包括SparkConf,name,host,port等

 

NettyRpcEnv NettyRpcEnv通过NettyRpcEnvFactory的create方法创建

 

 valnettyEnv =

      new NettyRpcEnv(sparkConf,javaSerializerInstance, config.host, config.securityManager)// 创建nettyEnv

 private val dispatcher: Dispatcher = newDispatcher(this)

 

Dispatcher负责RPC消息的路由,它能够将消息路由到对应的RpcEndpoint进行处理,同时存放RpcEndPoint与RpcEndPointRef的映射

NettyStreamManager 负责提供文件服务(文件、JAR文件、目录)

TransportContext负责管理网路传输上下文信息:创建MessageEncoder、MessageDecoder、TransportClientFactory、TransportServer

NettyRpcHandler负责处理网络IO事件,接收RPC调用请求,并通过Dispatcher派发消息

这里说一下Dispatcher 该类主要负责Rpc消息路由里面有一个内部累EndPointData 但是有一个现成安全的Inbox这里面存放的时候收到的消息,非常重要后面会做具体分析

private class EndpointData(

     val name: String,

     val endpoint: RpcEndpoint,

     val ref: NettyRpcEndpointRef) {

   val inbox = new Inbox(ref, endpoint)

  }

 

 private val endpoints = new ConcurrentHashMap[String, EndpointData]//存放name->对应的EndPoint的信息

 private val endpointRefs = new ConcurrentHashMap[RpcEndpoint,RpcEndpointRef]//存放RpcEndpoint, RpcEndpointRef的映射关系

 

 private val receivers = new LinkedBlockingQueue[EndpointData]//队列下面会有一个现成不断的从里面取出来处理

 

 

 defregisterRpcEndpoint(name: String, endpoint: RpcEndpoint): NettyRpcEndpointRef ={

   val addr = RpcEndpointAddress(nettyEnv.address, name)

   val endpointRef = new NettyRpcEndpointRef(nettyEnv.conf, addr, nettyEnv)

   synchronized {

     if (stopped) {

       throw new IllegalStateException("RpcEnv has been stopped")

     }

     if (endpoints.putIfAbsent(name, new EndpointData(name, endpoint,endpointRef)) != null) {

       throw new IllegalArgumentException(s"There is already anRpcEndpoint called $name")

      }

     val data = endpoints.get(name)

     endpointRefs.put(data.endpoint, data.ref)

     receivers.offer(data)  // for theOnStart message

    }

   endpointRef

  }

//注册RpcEndPoint在这里面发生 同时将data put到receivers 

在NettyRpcEndPoint里面有一个threadpool

private val threadpool: ThreadPoolExecutor= {

   val numThreads =nettyEnv.conf.getInt("spark.rpc.netty.dispatcher.numThreads",

     math.max(2, Runtime.getRuntime.availableProcessors()))

   val pool = ThreadUtils.newDaemonFixedThreadPool(numThreads, "dispatcher-event-loop")

   for (i <- 0 until numThreads) {

     pool.execute(new MessageLoop)

    }

   pool

  }

MessageLoop 是一个实现了Runnable的类,里面的run方法里面不断从receivers取出来进行处理

重要代码 data.inbox.process(Dispatcher.this)

这个里面有一个非常重要的点就是什么时候调用onStart的方法因为receivers里面存放的是EndPoint的信息同时创建EndPointData对象

进入Inbox里面看一下

 inbox =>  // Give this an aliasso we can use it more clearly in closures.

 

 @GuardedBy("this")

 protected val messages = new java.util.LinkedList[InboxMessage]()

 inbox.synchronized {

   messages.add(OnStart)

  }

创建这个类的时候会有一个messagelinkedList的list集合在创建这个结合之后就会将onStart方法添加到里面,并且是现成安全的

然后process 方法里面会不断的拿到集合的数据来进行对应的操作

 caseOnStart=>

           endpoint.onStart()

           if (!endpoint.isInstanceOf[ThreadSafeRpcEndpoint]) {

              inbox.synchronized {

                if (!stopped) {

                  enableCOncurrent= true

                }

              }

           }

这个时候就会调用onStart方法

这个时候相当于RpcEndPoint可以接受消息并且处理了

Spark Rpc通信方式 分为本地消息和远程消息,本地消息相当于调用的方法直接存放到Index(中文收件箱),远程消息需要走NettyRpcHandler


推荐阅读
  • 全面介绍Windows内存管理机制及C++内存分配实例(四):内存映射文件
    本文旨在全面介绍Windows内存管理机制及C++内存分配实例中的内存映射文件。通过对内存映射文件的使用场合和与虚拟内存的区别进行解析,帮助读者更好地理解操作系统的内存管理机制。同时,本文还提供了相关章节的链接,方便读者深入学习Windows内存管理及C++内存分配实例的其他内容。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中,客户端和服务器协商定义一个特殊的分隔符号,只要没有发送分隔符号,就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
    像不少公司内部不同团队都会自己研发自己工具产品,当各个产品逐渐成熟,到达了一定的发展瓶颈,同时每个产品都有着自己的入口,用户 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
author-avatar
G路过的彩虹
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有