当前位置: 开发笔记 > 编程语言 > 正文

极客星球｜Clickhouse在数据智能公司的应用与实践

作者：大眼睁睁 | 来源：互联网 | 2023-10-10 12:25

MobTech在2020年开始尝试使用Clickhouse，并且具有一定的数据规模，目前线上Clickhouse集群数据

‍‍

前言：Clickhouse数据库作为OLAP领域内的一匹黑马，目前在众多大厂已经广泛的被使用。MobTech在2020年开始尝试使用Clickhouse，并且具有一定的数据规模，目前线上Clickhouse集群数据规模为100亿左右。

Clickhouse是什么？

Clickhouse(https://Clickhouse.tech/)是俄罗斯最大的搜索引擎厂商Yandex开发的一款OLAP数据库，是一款面向列式存储的近实时数据库系统。它的特点就是快，适用场景如下：

1.数据量比较大，亿级别以上；

2.数据不需要更新；

3.没有事务要求；

4.查询并发要求不高。

Clickhouse为什么这么快？主要是以下两个原因：

1.对于OLAP数据库，每次查询并不需要访问所有的列。使用列存储能够极大减少IO，提升数据查询速度。另外使用列式存储也便于进行压缩，减少数据体积；

2.Clickhouse 执行引擎使用CPU向量执行模型，能够极大提高计算速度。

Clickhouse与其他OLAP系统的优劣势对比？

目前在OLAP领域内使用比较多的系统主要有：Presto、Druid、Kylin、Doris和Clickhouse等其他。整个OLAP系统主要分为两大类型：预聚合和实时聚合，这两种类型都有各自的优缺点。

预聚合数据库特点：

1.查询速度比较快，由于已经预聚合部分数据，整体的数据集会相对减少；

2.数据经过预聚合会导致明细数据丢失，这也是一大问题；

3.数据需要预先聚合，查询灵活性比较低，也会导致维度膨胀整体数据量偏大。

实时聚合数据库特点：

1.存储所有明细数据，查询响应时间会稍微偏大；

2.不需要预聚合，查询灵活度比较高。

上述数据库Druid，Kylin属于预聚合类型，而Presto，Doris，Clickhouse属于实时聚合类型。MobTech主流使用的OLAP系统为Presto，下面介绍下Presto的特点：

Presto是一个计算和存储分离的OLAP系统，支持标准SQL查询，完全基于内存运行，动态编译执行计划。Presto查询引擎是主从架构，由一个协调节点，一个发现节点，多个工作节点组成。通常情况下，发现节点和协调节点运行在同一个进程内，协调节点负责SQL解析，生成执行计划，分发任务到工作节点，工作节点负责实际的查询任务执行。

MobTech在使用Presto过程中存在不少问题，如：

1.无法控制资源使用量，导致不同业务线之间资源抢占比较严重；

2.查询速度比较慢；

3.Presto是纯内存计算，对资源消耗比较大。

Clickhouse核心之MergeTree表引擎

MergeTree系列表引擎，是Clickhouse最核心的表引擎。存储的数据顺序按主键排序，可以使用数据分区，支持数据副本特性和数据抽样。官方提供了包括MergeTree、ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree、VersionCollapsingMergeTree、GraphiteMergeTree等7种引擎。以下为每种表引擎的简单介绍：

1. ReplacingMergeTree：该引擎会在后台数据合并时移除具有相同排序键的记录；

2. SummingMergeTree：在合并数据时，会把具有相同主键的记录合并为一条记录。并根据主键进行数据聚合；

3.AggregatingMergeTree：在合并数据时，把具有相同主键的记录根据指定的聚合函数进行聚合；

4.CollapsingMergeTree：在合并数据时，把具有相同主键的记录进行折叠。折叠规则根据设定的sign字段，该字段值为1时保留，-1时删除；

5.VersionCollapsingMergeTree: 在合并数据时，把具有相同主键的记录合并，合并规则是根据指定的version字段。

这些表引擎在处理数据聚合和合并时，都只在同一个分区内。在使用MergeTree表引擎有一点需要注意，Clickhouse的主键并不唯一，意味着数据可能重复。另外MergeTree表引擎数据分区，每个分区都是一个单独的物理文件目录。在查询时指定分区，要比不指定分区查询快数倍。

ReplicatedMergeTree表引擎可以设定数据副本存储。在线上使用时，我们是要求必须使用 ReplicatedMergeTree引擎，防止单点问题。

Clickhouse在MobTech的应用与实践

业务需求场景：

每天大数据会离线跑出一批数据，每天数据量最多达到2亿，业务需要能够实时查询这些数据明细，并进行相关数据统计，每天新导入的数据是一个新的分区。由于大数据任务会出现延迟的情况，在这样的情况下需要能够查询前一天的数据。针对这样的情况，我们在每次查询数据前会查出该表最新的分区，然后在具体查询SQL中指定最新分区进行查询。最开始我们选择了Elasticsearch作为存储系统，由于大数据任务在导入数据时会导致Elasticsearch大量磁盘读写，甚至导致Elasticsearch宕机情况出现。

在这样的情况下，我们急需要一种新的数据库来支撑业务。在了解到Clickhouse的特性和综合业务相关情况，我们最终选择了Clickhouse。经过对比各种表引擎后，选择了ReplicatedMergeTree引擎，将常用的查询字段作为主键索引。另外由于业务需要每天还会有少量的在线数据入库，使用Kafka表引擎接收在线实时数据。通过物化视图的方式，将Kafka表数据写入到目标表。Clickhouse既能够支撑离线数据的导入，也支持实时数据写入，并且具有良好的查询性能。

实践总结：

目前线上Clickhouse单表最大记录数为20亿左右，只使用了2台8核16G的机器就完成了TP99 1s内查询响应。目前线上使用的是单分片加数据副本的模式，能够充分利用Clickhouse单机强大的能力，又能保障线上数据安全。Clickhouse也有一些缺点，比如：数据更新比较麻烦，大规模集群没有较好的管理工具等问题存在。总的来说，Clickhouse能够以较低的成本完成大量数据查询和分析需求，并且保持稳定。

‍

推荐阅读

编译
【PPT 下载】这杯网红茶饮，到底赢在哪里？

【PPT 下载】这杯网红茶饮，到底赢在哪里？ ... [详细]

蜡笔小新 2023-10-12 21:43:10
post
揭秘双11丝滑般剁手之路背后的网络监控技术

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）实时计算Flink搭建的云原生实 ... [详细]

蜡笔小新 2023-10-09 19:54:08
post
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
hash
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
schema
adg架构设置及其在企业数据治理中的应用

本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展，企业IT系统的快速发展使得数据成为企业业务增长的新动力，但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题，并提出了解决方案，包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外，本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍，读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]

蜡笔小新 2023-12-14 13:05:22
schema
众筹商城与传统商城的区别及php众筹网站的程序源码

本文介绍了众筹商城与传统商城的区别，包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]

蜡笔小新 2023-12-12 19:00:31
schema
淘淘商城项目总结及架构介绍

本文总结了淘淘商城项目的功能和架构，并介绍了传统架构中遇到的session共享问题及解决方法。淘淘商城是一个综合性的B2C平台，类似京东商城、天猫商城，会员可以在商城浏览商品、下订单，管理员、运营可以在平台后台管理系统中管理商品、订单、会员等。商城的架构包括后台管理系统、前台系统、会员系统、订单系统、搜索系统和单点登录系统。在传统架构中，可以采用tomcat集群解决并发量高的问题，但由于session共享的限制，集群数量有限。本文探讨了如何解决session共享的问题。 ... [详细]

蜡笔小新 2023-12-12 13:39:39
python
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
python
Redis的RDB文件与AOF文件的保存与还原机制

本文介绍了Redis中RDB文件和AOF文件的保存和还原机制。RDB文件用于保存和还原Redis服务器所有数据库中的键值对数据，SAVE命令和BGSAVE命令分别用于阻塞服务器和由子进程执行保存操作。同时执行SAVE命令和BGSAVE命令，以及同时执行两个BGSAVE命令都会产生竞争条件。服务器会保存所有用save选项设置的保存条件，当满足任意一个保存条件时，服务器会自动执行BGSAVE命令。此外，还介绍了RDB文件和AOF文件在操作方面的冲突以及同时执行大量磁盘写入操作的不良影响。 ... [详细]

蜡笔小新 2023-12-12 08:51:10
python
MySQL数据库锁机制及其应用（数据库锁的概念）

本文介绍了MySQL数据库锁机制及其应用。数据库锁是计算机协调多个进程或线程并发访问某一资源的机制，在数据库中，数据是一种供许多用户共享的资源，如何保证数据并发访问的一致性和有效性是数据库必须解决的问题。MySQL的锁机制相对简单，不同的存储引擎支持不同的锁机制，主要包括表级锁、行级锁和页面锁。本文详细介绍了MySQL表级锁的锁模式和特点，以及行级锁和页面锁的特点和应用场景。同时还讨论了锁冲突对数据库并发访问性能的影响。 ... [详细]

蜡笔小新 2023-12-10 15:54:07
python
数据库的概念、作用及发展阶段的特点

本文简述了数据库的概念、作用及发展阶段的特点。数据管理技术的发展经历了人工管理阶段、文件系统阶段和数据库系统阶段，分别描述了各个阶段的特点。数据库、数据库管理系统和数据库系统的含义和联系也进行了简述。数据库是长期存储在计算机内、有组织、可共享的大量数据的集合，而数据库管理系统是整个数据库系统的核心部分，负责统一管理和控制用户对数据库的操作。数据库系统是以数据库为基础的应用系统。总结了数据库的保存方式、管理方式、共享性和独立性等特点。 ... [详细]

蜡笔小新 2023-12-09 22:00:21
hash
开发笔记:源码分析ConcurrentHashMap与HashTable（JDK1.8）

本文由编程笔记#小编为大家整理，主要介绍了源码分析--ConcurrentHashMap与HashTable（JDK1.8）相关的知识，希望对你有一定的参考价值。　　Concu ... [详细]

蜡笔小新 2023-10-17 21:45:25
char
11.通配符

在搜索数据库中的数据时，您可以使用SQL通配符。SQL通配符在搜索数据库中的数据时，SQL通配符可以替代一个或多个字符。SQL通配符必须与LIKE运算符 ... [详细]

蜡笔小新 2023-10-17 18:58:51
char
非常全的跨域实现方案

由于同源策略的限制，满足同源的脚本才可以获取资源。虽然这样有助于保障网络安全，但另一方面也限制了资源的使用。那么如何实现跨域呢，以下是实现跨域的一些方法。 ... [详细]

蜡笔小新 2023-10-17 15:34:29
process
如何构建更好的数据立方体系统(Cube)

看到了kylin关于cube的设计，难以抑制的觉得这部分设计得太巧妙了，确实比我们的产品要好上很多，不得不学习一下！ ... [详细]

蜡笔小新 2023-10-10 20:46:30

大眼睁睁

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章