目前,我们正在构建一个报告平台,作为我们使用Shark的数据存储.由于Shark的开发已停止,因此我们正处于评估Spark SQL的阶段.根据我们的用例,我们几乎没有问题.
1)我们有各种来源的数据(MySQL,Oracle,Cassandra,Mongo).我们想知道如何将这些数据导入Spark SQL?我们可以使用任何实用工具吗?此实用程序是否支持持续刷新数据(将数据存储上的新添加/更新/删除同步到Spark SQL?
2)是一种在Spark SQL中创建多个数据库的方法吗?
3)对于Reporting UI,我们使用Jasper,我们希望从Jasper连接到Spark SQL.当我们进行初始搜索时,我们知道目前没有消费者支持通过JDBC连接Spark SQL,但在将来的版本中,您希望添加相同的内容.我们想知道什么时候Spark SQL会有一个可以获得JDBC支持的稳定版本?与此同时,我们从https://github.com/amplab/shark/tree/sparkSql获取了源代码,但我们在本地设置和评估它时遇到了一些困难.如果您能帮助我们完成设置说明,那就太棒了.(我可以分享我们面临的问题,请告诉我在哪里可以发布错误日志)
4)我们还需要一个SQL提示符,我们可以在其中执行查询,目前Spark Shell提供SCALA提示符,其中SCALA代码可以执行,从SCALA代码我们可以触发SQL查询.像Shark一样,我们希望在Spark SQL中使用SQL提示符.当我们进行搜索时,我们发现在将来发布的Spark中会添加.如果你能告诉我们哪个版本的Spark会解决同样问题,那将会很棒.