我是Hadoop工程师,主要关注机器学习和数据挖掘.利用数据局部性和Spark(尤其是MLlib)等现代工具,分析数TB的数据变得轻松愉快.到目前为止,我正在使用Python API来解决Spark(PySpark),并对此非常满意.
然而,最近出现了新的科学计算强大的参与者 - 朱莉娅.凭借其JIT编译和内置并行性(以及其他功能),它可能成为传统工具的良好竞争者.所以我很感兴趣,如果我在某些时候切换到Julia,在现有的Hadoop堆栈上使用它有什么选择?是否有任何绑定或桥接器允许运行Julia脚本并仍然使用HDFS的数据位置?
编辑.为了说清楚:我不是在问什么工具是最好的,不是将Julia(或Hadoop)与其他工具进行比较而不是推广任何计算堆栈.我的问题是关于可能有助于整合两种技术的项目.没有意见,没有长时间的审议 - 只是链接到项目和简短描述.
Elly.jl是"Hadoop HDFS和Yarn客户端"
Spark实现的开始:https://github.com/d9w/Spark.jl
编辑:我还应该指出JavaCall包,它可以允许在这个领域中使用现有的Java库.https://github.com/aviks/JavaCall.jl
(编辑:最初由Elly开发人员链接到现已弃用的HDFS绑定项目:https://github.com/tanmaykm/HDFS.jl)