热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

KyligenceCloud集成AmazonGlue实现数据目录统一管理

数字经济的时代,数据成为企业的核心资产。企业期望通过对数据的洞察来驱动业务决策,然而获取数据洞察还需要经过数据采集、存储、处理、分析等众多环节。什么是数

数字经济的时代,数据成为企业的核心资产。企业期望通过对数据的洞察来驱动业务决策,然而获取数据洞察还需要经过数据采集、存储、处理、分析等众多环节。


什么是数据目录?

如果将数据处理的过程简单抽象一下,就是先使用一个 ETL(提取、转换和加载)工具来进行数据分析前的数据准备工作,然后将处理好的元数据信息存储到数据目录中,最后终端用户通过数据目录来查找和消费数据。

 

其中,数据目录串联起了整个数据链路,它是企业所有数据资产的详细清单,帮助终端用户针对任何分析或业务目的快速找到所需数据。数据目录使用元数据来管理数据资产,通过不断收集和整理元数据为数据发现和治理提供支持。


云原生的统一数据目录

对于企业来说,数据从业务系统源头到数据最终的消费端,需要经过多次流转,想从数据海洋中找到正确的数据更加困难。数据目录的出现解决了这一难题。但是在企业实际的落地过程,由于牵扯到多种数据产品的集成,往往存在需要同时维护多个数据目录的情况出现,无形之中造成了资源的冗余和数据流转不畅,数据团队不得不花费大量精力在数据查找和更新中。

如果有一个统一的数据目录,能让下游的各种大数据分析应用直接进行消费,而无需额外管理新的数据目录,将能极大地提高数据分析的速度和质量。对于云上用户来说,如果能直接利用云平台提供的原生数据目录服务作为统一的数据目录将极大地提升云上分析效率和使用体验。


Kyligence Cloud 数据目录

出于上述原因,Kyligence Cloud 在最新的版本中支持了与 Amazon Glue 云原生数据目录的集成,实现了数据目录的统一管理。


Kyligence Cloud 元数据管理

Kyligence Cloud 是由 Kyligence 推出的云原生智能多维数据库平台,提供海量数据之上的高性能高并发查询能力,为企业简化数据湖上的多维数据分析(OLAP)。

此前,Kyligence Cloud 通过内置数据目录来实现产品内部的元数据信息管理。用户在消费数据前,需要在 Kyligence Cloud 中创建表,提供表结构、数据类型和数据所在位置等信息。如果客户的数据目录是在 Amazon Glue 托管的,则需要在 Kyligence Cloud 额外维护一份相同的元数据信息,当元数据发生变更时,需要手动去同步这些变化。并且若数据分散在不同的云账户下时,需要先把数据汇集到同一个账号下某个区域的存储桶中供 Kyligence Cloud 读取,然后再进行 OLAP 分析,这在一定程度上增加了客户的数据流转和数据存储成本。


Kyligence Cloud 集成 Amazon Glue 数据目录

在最新的 Kyligence Cloud 版本中,通过与 Amazon Glue 标准的 Apache Hive 接口集成,用户可以直接使用 Amazon Glue 提供的元数据存储和管理服务,通过支持跨区域和跨账号的 S3 存储桶的数据管理,实现对任何位置、任何账号下数据的统一数据目录管理。

 Amazon Glue 数据目录作为数据源接入 Kyligence Cloud

根据亚马逊云科技官方文档介绍,Amazon Glue 数据目录完全兼容 Apache Hive Metastore,并且 Amazon Glue 提供了与 Amazon EMR 的开箱即用集成方案,使用户能够将 Amazon Glue 数据目录用作外部 Hive Metastore。这个方案除了 Amazon EMR,也可以移植到其他 Hive Metastore 的兼容平台上。

Kyligence Cloud 通过此特性,可按需动态读取 Amazon Glue 数据目录中的数据库/表等信息,服务于后续数据的建模和查询。Kyligence Cloud 只需要拥有客户 Amazon Glue 相关库表的读取权限即可,不需要对客户 Glue 数据目录中的任何信息进行修改,充分确保了用户的信息安全。

统一数据目录之后的 Kyligence Cloud 可以让用户便捷地发现组织中的数据,并借助 AI 增强引擎实现数据查询的优化,最终让终端业务人员在 BI 分析工具中获得快速查询体验。


总结

Amazon Glue 为用户提供了一种简单易用的数据目录管理方式,帮助用户轻松找到并访问数据。

Kyligence Cloud 则通过集成 Amazon Glue 数据目录,帮助用户实现统一的元数据管理,不仅降低了数据流转带来的成本,还提升了数据分析的效率。


推荐阅读
  • 14亿人的大项目,腾讯云数据库拿下!
    全国人 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 本文介绍了Redis中RDB文件和AOF文件的保存和还原机制。RDB文件用于保存和还原Redis服务器所有数据库中的键值对数据,SAVE命令和BGSAVE命令分别用于阻塞服务器和由子进程执行保存操作。同时执行SAVE命令和BGSAVE命令,以及同时执行两个BGSAVE命令都会产生竞争条件。服务器会保存所有用save选项设置的保存条件,当满足任意一个保存条件时,服务器会自动执行BGSAVE命令。此外,还介绍了RDB文件和AOF文件在操作方面的冲突以及同时执行大量磁盘写入操作的不良影响。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 腾讯安全平台部招聘安全工程师和数据分析工程师
    腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析,提供安全测试技术支持;数据分析工程师负责安全产品相关系统数据统计和分析挖掘,通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理,精通Web漏洞,熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]
  • 目录浏览漏洞与目录遍历漏洞的危害及修复方法
    本文讨论了目录浏览漏洞与目录遍历漏洞的危害,包括网站结构暴露、隐秘文件访问等。同时介绍了检测方法,如使用漏洞扫描器和搜索关键词。最后提供了针对常见中间件的修复方式,包括关闭目录浏览功能。对于保护网站安全具有一定的参考价值。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • 本文介绍了Hive常用命令及其用途,包括列出数据表、显示表字段信息、进入数据库、执行select操作、导出数据到csv文件等。同时还涉及了在AndroidManifest.xml中获取meta-data的value值的方法。 ... [详细]
  • 项目运行环境配置及可行性分析
    本文介绍了项目运行环境配置的要求,包括Jdk1.8、Tomcat7.0、Mysql、HBuilderX等工具的使用。同时对项目的技术可行性、操作可行性、经济可行性、时间可行性和法律可行性进行了分析。通过对数据库的设计和功能模块的设计,确保系统的完整性和安全性。在系统登录、系统功能模块、管理员功能模块等方面进行了详细的介绍和展示。最后提供了JAVA毕设帮助、指导、源码分享和调试部署的服务。 ... [详细]
  • Tomcat安装与配置教程及常见问题解决方法
    本文介绍了Tomcat的安装与配置教程,包括jdk版本的选择、域名解析、war文件的部署和访问、常见问题的解决方法等。其中涉及到的问题包括403问题、数据库连接问题、1130错误、2003错误、Java Runtime版本不兼容问题以及502错误等。最后还提到了项目的前后端连接代码的配置。通过本文的指导,读者可以顺利完成Tomcat的安装与配置,并解决常见的问题。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 服务网关与流量网关
    一、为什么需要服务网关1、什么是服务网关传统的单体架构中只需要开放一个服务给客户端调用,但是微服务架构中是将一个系统拆分成多个微服务,如果没有网关& ... [详细]
  • 寻求更强大的身份和访问管理(IAM)平台的企业正在转向云,并接受身份即服务(IDaaS)的灵活性。要为IAM选择正确的场外解决方案,业务管理人员和IT专业人员必须在实施之前评估安全 ... [详细]
  • 我一直都有记录信息的习惯,不知是从什么时候开始,大约是在工作后不久。如今还真有点庆幸从那时开始记了点东西,当然是电子版的,写 ... [详细]
author-avatar
有你真好-LOVE
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有