首先,我正在考虑使用什么来将事件放入Hadoop,在那里存储它们并定期对它们进行分析(可能使用Ooozie来安排定期分析)Kafka或Flume,并决定Kafka可能是一个更好的解决方案,因为我们还有一个用于执行事件处理的组件,因此以这种方式,批处理和事件处理组件以相同的方式获取数据.
但是知道我正在寻找具体的建议如何从经纪人那里获取数据到Hadoop.
我在这里发现Flume可以与Kafka结合使用
Flume - 包含Kafka Source(消费者)和Sink(制作人)
并且在同一页面和Kafka文档中也发现了一些名为Camus的东西
Camus - LinkedIn的Kafka => HDFS管道.这个用于LinkedIn的所有数据,效果很好.
我对能做到这一点的更好(更简单,记录更好的解决方案)感兴趣吗?此外,有任何示例或教程如何做到这一点?
我应该何时使用这种变体而不是更简单的高级消费者?
如果有另外一个/更好的解决方案而不是这两个,我会打开建议.
谢谢