我有一堆压缩成*gz格式的二进制文件.这些是在远程节点上生成的,必须传输到位于数据中心服务器之一的HDFS.
我正在探索使用Flume发送文件的选项; 我探讨了使用假脱机目录配置执行此操作的选项,但显然这只适用于文件目录位于同一HDFS节点本地的情况.
有任何建议如何解决这个问题?
为什么不运行两个不同的Flume代理,一个在远程计算机上,另一个在日期节点上.远程计算机上的代理可以读取假脱机目录并将其发送到avro接收器.并且datanode上的代理可以读取avro源并将数据转储到HDFS.