热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

极客星球|Clickhouse在数据智能公司的应用与实践

MobTech在2020年开始尝试使用Clickhouse,并且具有一定的数据规模,目前线上Clickhouse集群数据

前言:Clickhouse数据库作为OLAP领域内的一匹黑马,目前在众多大厂已经广泛的被使用。MobTech在2020年开始尝试使用Clickhouse,并且具有一定的数据规模,目前线上Clickhouse集群数据规模为100亿左右。


Clickhouse是什么?


Clickhouse(https://Clickhouse.tech/)是俄罗斯最大的搜索引擎厂商Yandex开发的一款OLAP数据库,是一款面向列式存储的近实时数据库系统。它的特点就是快,适用场景如下:
1.数据量比较大,亿级别以上;
2.数据不需要更新;
3.没有事务要求;
4.查询并发要求不高。

Clickhouse为什么这么快?主要是以下两个原因:
1.对于OLAP数据库,每次查询并不需要访问所有的列。使用列存储能够极大减少IO,提升数据查询速度。另外使用列式存储也便于进行压缩,减少数据体积;
2.Clickhouse 执行引擎使用CPU向量执行模型,能够极大提高计算速度。

 Clickhouse与其他OLAP系统的优劣势对比?


目前在OLAP领域内使用比较多的系统主要有:Presto、Druid、Kylin、Doris和Clickhouse等其他。整个OLAP系统主要分为两大类型:预聚合和实时聚合,这两种类型都有各自的优缺点。

预聚合数据库特点:
1.查询速度比较快,由于已经预聚合部分数据,整体的数据集会相对减少;
2.数据经过预聚合会导致明细数据丢失,这也是一大问题;
3.数据需要预先聚合,查询灵活性比较低,也会导致维度膨胀整体数据量偏大。

实时聚合数据库特点:
1.存储所有明细数据,查询响应时间会稍微偏大;
2.不需要预聚合,查询灵活度比较高。

上述数据库Druid,Kylin属于预聚合类型,而Presto,Doris,Clickhouse属于实时聚合类型。MobTech主流使用的OLAP系统为Presto,下面介绍下Presto的特点:

Presto是一个计算和存储分离的OLAP系统,支持标准SQL查询,完全基于内存运行,动态编译执行计划。Presto查询引擎是主从架构,由一个协调节点,一个发现节点,多个工作节点组成。通常情况下,发现节点和协调节点运行在同一个进程内,协调节点负责SQL解析,生成执行计划,分发任务到工作节点,工作节点负责实际的查询任务执行。

MobTech在使用Presto过程中存在不少问题,如:
1.无法控制资源使用量,导致不同业务线之间资源抢占比较严重;
2.查询速度比较慢;

3.Presto是纯内存计算,对资源消耗比较大。

  Clickhouse核心之MergeTree表引擎


MergeTree系列表引擎,是Clickhouse最核心的表引擎。存储的数据顺序按主键排序,可以使用数据分区,支持数据副本特性和数据抽样。官方提供了包括MergeTree、ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree、VersionCollapsingMergeTree、GraphiteMergeTree等7种引擎。以下为每种表引擎的简单介绍:

1. ReplacingMergeTree:该引擎会在后台数据合并时移除具有相同排序键的记录;
2. SummingMergeTree:在合并数据时,会把具有相同主键的记录合并为一条记录。并根据主键进行数据聚合;
3.AggregatingMergeTree:在合并数据时,把具有相同主键的记录根据指定的聚合函数进行聚合;
4.CollapsingMergeTree:在合并数据时,把具有相同主键的记录进行折叠。折叠规则根据设定的sign字段,该字段值为1时保留,-1时删除;
5.VersionCollapsingMergeTree: 在合并数据时,把具有相同主键的记录合并,合并规则是根据指定的version字段。

这些表引擎在处理数据聚合和合并时,都只在同一个分区内。在使用MergeTree表引擎有一点需要注意,Clickhouse的主键并不唯一,意味着数据可能重复。另外MergeTree表引擎数据分区,每个分区都是一个单独的物理文件目录。在查询时指定分区,要比不指定分区查询快数倍。

ReplicatedMergeTree表引擎可以设定数据副本存储。在线上使用时,我们是要求必须使用 ReplicatedMergeTree引擎,防止单点问题。

 Clickhouse在MobTech的应用与实践


业务需求场景:
每天大数据会离线跑出一批数据,每天数据量最多达到2亿,业务需要能够实时查询这些数据明细,并进行相关数据统计,每天新导入的数据是一个新的分区。由于大数据任务会出现延迟的情况,在这样的情况下需要能够查询前一天的数据。针对这样的情况,我们在每次查询数据前会查出该表最新的分区,然后在具体查询SQL中指定最新分区进行查询。最开始我们选择了Elasticsearch作为存储系统,由于大数据任务在导入数据时会导致Elasticsearch大量磁盘读写,甚至导致Elasticsearch宕机情况出现。

在这样的情况下,我们急需要一种新的数据库来支撑业务。在了解到Clickhouse的特性和综合业务相关情况,我们最终选择了Clickhouse。经过对比各种表引擎后,选择了ReplicatedMergeTree引擎,将常用的查询字段作为主键索引。另外由于业务需要每天还会有少量的在线数据入库,使用Kafka表引擎接收在线实时数据。通过物化视图的方式,将Kafka表数据写入到目标表。Clickhouse既能够支撑离线数据的导入,也支持实时数据写入,并且具有良好的查询性能。
 
实践总结:
目前线上Clickhouse单表最大记录数为20亿左右,只使用了2台8核16G的机器就完成了TP99 1s内查询响应。目前线上使用的是单分片加数据副本的模式,能够充分利用Clickhouse单机强大的能力,又能保障线上数据安全。Clickhouse也有一些缺点,比如:数据更新比较麻烦,大规模集群没有较好的管理工具等问题存在。总的来说,Clickhouse能够以较低的成本完成大量数据查询和分析需求,并且保持稳定。





推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 在Docker中,将主机目录挂载到容器中作为volume使用时,常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法,包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法,可以避免在使用Docker时出现无写权限的情况。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类
    本文介绍了基于事件驱动的并发编程中的消息通信机制,包括同步和异步的概念及其区别,阻塞和非阻塞的状态,以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
    本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
  • 本文介绍了H5游戏性能优化和调试技巧,包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说,解决游戏性能问题是一个关键的任务,本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]
author-avatar
大眼睁睁
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有