我们有一个非常大的MongoDB实例,带有分片集合.它已经达到了这样的程度,即依靠MongoDB查询功能(包括聚合框架)来洞察数据变得过于昂贵.
我四处寻找可以使数据可用且更容易使用的选项,并且已经找到了两个有希望的选择:
AWS Redshift
Hadoop + Hive
我们希望能够使用类似SQL的语法来分析我们的数据,并且我们希望接近实时访问数据(几分钟的延迟很好,我们只是不想等待整个MongoDB一夜之间同步).
据我所知,对于选项2,可以使用此https://github.com/mongodb/mongo-hadoop将数据从MongoDB移动到Hadoop集群.
我看起来很高,但我很难找到类似的解决方案,让MongoDB进入AWS Redshift.从亚马逊的文章来看,似乎正确的方法是使用AWS Kinesis将数据导入Redshift.也就是说,我找不到任何类似的东西的例子,我找不到任何库或连接器来将数据从MongoDB移动到Kinesis流中.至少没有什么看起来很有希望.
有没有人做过这样的事情?