ApacheKylin的前世今生

作者：CQ莹儿_259 | 来源：互联网 | 2023-05-18 00:21

1.ApacheKylin的由来在现在的大数据时代，Hadoop已经成为大数据事实上的标准规范，一大批工具陆陆续续围绕Hadoop平台来构建，用来解决不同场景下的需求。比如Hiv

1. Apache Kylin的由来
在现在的大数据时代，Hadoop已经成为大数据事实上的标准规范，一大批工具陆陆续续围绕Hadoop平台来构建，用来解决不同场景下的需求。
比如Hive是基于Hadoop的一个用来做企业数据仓库的工具，可以将存储在HDFS分布式文件系统上的数据文件映射为一张数据库表，并提供SQL查询功能，Hive执行引擎可以将SQL转换为MapReduce任务来进行运行，非常适合数据仓库的数据分析。
再比如HBase是基于Hadoop，实现高可用性，高性能，面向列，可伸缩的分布式存储系统，Hadoop架构中的HDFS为HBase提供了高可靠性的底层存储支持。

但是缺少一个基于Hadoop的分布式分析引擎，虽然目前存在业务分析工具，如Tableau等，但是他们往往存在很大的局限，比如难以水平扩展、无法处理超大规模数据，同时也缺少Hadoop的支持。

Apache Kylin(中文：麒麟)的出现，能够基于Hadoop很好地解决上面的问题。Apache Kylin是一个开源的分布式存储引擎，最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持大规模数据，能够处理TB乃至PB级别的分析任务，能够在亚秒级查询巨大的Hive表，并支持高并发。

2. Apache Kylin的应用场景
(1) 假如你的数据存在于Hadoop的HDFS分布式文件系统中，并且你使用Hive来基于HDFS构建数据仓库系统，并进行数据分析，但是数据量巨大，比如TB级别。
(2) 同时你的Hadoop平台也使用HBase来进行数据存储和利用HBase的行键实现数据的快速查询等应用
(3) 你的Hadoop平台的数据量逐日累增
(4) 对于数据分析的维度大概10个左右

如果你的应用类似上面，那么非常适合采用Apache Kylin来做大数据量的多维数据分析。
Apache Kylin的核心思想是利用空间换时间，将计算好的多维数据结果存入HBase，实现数据的快速查询。同时由于Apache Kylin在查询方面制定了多种灵活的策略，进一步提高空间的利用率，使得这样的平衡策略在应用中值得采用。

3. Apache Kylin的发展历程
Apache Kylin于2014年10月在github开源，并很快在2014年11月加入Apache孵化器，于2015年11月正式毕业成为Apache顶级项目，也成为首个完全由中国团队设计开发的Apache顶级项目。
Apache Kylin的官网为：
http://kylin.apache.org

于2016年3月，Apache Kylin核心开发成员在上海创建Kyligence公司，力求更好地推动项目和社区的快速发展。
公司官网为：http://kyligence.io

为了获取更好的发展，2016年4月，大数据公司Kyligence 跬智科技宣布获得了数百万美元的天使轮投资。

推荐阅读

mapreduce
揭秘双11丝滑般剁手之路背后的网络监控技术

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）实时计算Flink搭建的云原生实 ... [详细]

蜡笔小新 2023-10-09 19:54:08
mapreduce
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
mapreduce
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
mapreduce
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
utf-8
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
scala
百度高级架构师马如悦分享：我对Hadoop2.0的见解与经验

当计算任务越来越多，作业提交越来越多，企业普通的做法是，在原有的系统架构上，不停地往上堆积硬件或者加服务器。的确，hadoop设计上的优秀和可扩展性可以方便的 ... [详细]

蜡笔小新 2023-10-14 12:19:48
object
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
object
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
object
【转】腾讯分析系统架构解析

TA（TencentAnalytics，腾讯分析）是一款面向第三方站长的免费网站分析系统，在数据稳定性、及时性方面广受站长好评，其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]

蜡笔小新 2023-10-16 19:05:20
object
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
get
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
get
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
default
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
export
kylin怎样安装使用

这篇文章给大家分享的是有关kylin怎样安装使用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。环境我选的kylin版 ... [详细]

蜡笔小新 2023-09-25 18:01:32
export
Superset 基于Docker的安装入门解析

Superset概述1、Superset简介ApacheSuperset是一个开源的、现代的、轻量级BI分析工具，能够对接多种数据源、拥有丰富的图标展示形式、支持自定 ... [详细]

蜡笔小新 2023-09-25 15:58:52

CQ莹儿_259

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章