我想知道Apache Spark是否可以进行以下设置:
___________________ RPC Distributed DB <-> | resident Backend <---> Frontend | server | ___________________ Spark
我希望做的是在后端使用Spark的MLlib和Spark Streaming,并利用Spark的速度进行后端计算(统计,机器学习).
Spark的架构似乎需要一次提交一个计算,就像Jars的编译代码一样.但是,由于整个设置适用于多用户Web应用程序和外部API,因此使用长时间运行的Backend服务器,通过RPC与前端进行通信似乎更为直接.
这有可能,没有太多黑客攻击吗?似乎Spark Streaming的性质需要一个驻留服务器.是JavaStreamingContext#awaitTermination()来尝试实现这样的应用程序的唯一途径?
我看到我正在尝试做的一个可能的问题,即使可能,正在解决这样一个后端建立连接.
非常感谢!