当前位置: 开发笔记 > 编程语言 > 正文

从ClickHouse到ByteHouse：实时数据分析场景下的优化实践

作者：蓝善凡_407 | 来源：互联网 | 2023-08-29 12:44

从,clickhouse,到,bytehouse,实时,数据,分析,场景

字节跳动旗下的企业级技术服务平台火山引擎正式对外发布「ByteHouse」，解决开源技术上手难 & 试错成本高的痛点，同时提供商业产品和技术支持服务。

作为国内规模最大的 ClickHouse 用户，目前字节跳动内部的 ClickHouse 节点总数超过 1.5W 个。综合来说，字节跳动广泛的业务增长分析很多都建立在 ClickHouse 为基础的查询引擎上。

在打造 ByteHouse 的路程中，我们经过了多年的探索与沉淀，本文将分享字节跳动过去使用 ClickHouse 的两个典型应用与优化案例。

广告投放实时数据

第二个典型案例关于广告的投放数据，一般是运营人员需要查看广告投放的实时效果。由于业务的特点，当天产生的数据往往会涉及到多天的数据。

这套系统原来基于 Druid 实现的，Druid 在这个场景会有一些难点：

选择了 ClickHouse 之后能解决 Druid 不足的地方，但还是有部分问题需要解决：

问题一：Buffer Engine 无法和 ReplicatedMergeTree 一起使用

社区提供了 Buffer Engine 为了解决单次写入生成过多 Parts 的问题，但是不太能配合 ReplicatedMergeTree 一起工作, 写入不同 Replica 的 Buffer 仅缓存了各自节点上新写入的数据，导致查询会出现不一致的情况。

解决方案

改进了 Buffer Engine 做了如下的调整和优化：

我们选择将 Kafka/Buffer/MergeTree 三张表结合起来，提供的接口更加易用；
把 Buffer 内置到 Kafka Engine 内部，作为 Kafka Engine 的选项可以开启/关闭，使用更方便；
Buffer table 内部类似 pipeline 模式处理多个 Block；
支持了 ReplicatedMergeTree 情况下的查询。

首先确保一对副本仅有一个节点在消费，所以一对副本的两个 Buffer 表，只有一个节点有数据。如果查询发送到了没有消费的副本，会额外构建一个特殊的查询逻辑，从另一个副本的 Buffer 表里读取数据。

增强 Buffer Engine，解决了 Buffer Engine 和 ReplicatedMergeTree 同时使用下查询一致性的问题。

问题二：出现宕机后可能会出现数据丢失后者重复消费的情况

ClickHouse 缺少事务支持。一批次写入只写入部分 Part 后出现宕机，因为没有事务保障重启后可能出现丢失或者重复消费的情况。

解决方案

参考了 Druid 的 KIS 方案自己管理 Kafka Offset，实现单批次消费/写入的原子语义：实现上选择将 Offset 和 Parts 数据绑定在一起，增强了消费的稳定性。每次消费时，会默认创建一个事务，由事务负责把 Part 数据和 Offset 一同写入磁盘中，如果出现失败，事务会一起回滚 Offset 和写入的 Part 然后重新消费。

确保了每次插入数据的原子性，增强了数据消费的稳定性。

结语

实时数据分析是 ClickHouse 的优势场景，结合字节跳动实时数据场景的特点，我们对 ClickHouse 进行了优化和改造，并将这些能力沉淀到了 ByteHouse 上。

ByteHouse 基于自研技术优势和超大规模的使用经验，为企业大数据团队带来新的选择和支持，以应对复杂多变的业务需求，高速增长的数据场景。

未来，ByteHouse 将不断以字节和外部最佳实践输出行业用户，帮助企业更好地构建交互式大数据分析平台，并更广泛地与 ClickHouse 研发者社群共享经验，共同推动 ClickHouse 社区的发展。

火山引擎 ByteHouse

统一的大数据分析平台。目前提供企业版和云数仓两种版本，企业版是基于开源 ClickHouse 的企业级分析型数据库，支持用户交互式分析 PB 级别数据，通过多种自研表引擎，灵活支持各类数据分析和应用；云数仓版作为云原生的数据分析平台，实现统一的离线和实时数据分析，并通过弹性扩展的计算层和分布式存储层，有效降低企业大数据分析 TCO。[点击申请体验]

欢迎关注字节跳动数据平台同名公众号

推荐阅读

post
揭秘双11丝滑般剁手之路背后的网络监控技术

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）实时计算Flink搭建的云原生实 ... [详细]

蜡笔小新 2023-10-09 19:54:08
post
SQL：数据世界的通用语

目录摘要SQL的现在NoSQL,NotOnlySQL要分布式，也要SQL总结引用摘要毫不夸张的说，关系数据库是企业软件系统的核心，企业形形色色信息行为的背后，都有关系数据库的支撑。 ... [详细]

蜡笔小新 2023-10-12 22:29:13
io
KAFKA 进阶：深入探讨 kafka 分区数过多的问题及影响

大家好，这是一个为了梦想而保持学习的博客。这个专题会记录我对于KAFKA的学习和实战经验，希望对大家有所帮助，目录形式依旧为问答的方式，相当于是模拟面试。一、概述在对kafka有了 ... [详细]

蜡笔小新 2023-10-14 18:34:27
io
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
io
数据库异常智能分析与诊断

数据库,异常, ... [详细]

蜡笔小新 2023-10-14 10:52:47
window
关于存储:Streaming-Data-Warehouse-存储需求与架构

在计算机领域，数据仓库（DW或DWH），是一个用于报告和数据分析的零碎，被认为是商业智能的一个外围组成部分。它将以后和历史数据存储在一个中央，为整个企 ... [详细]

蜡笔小新 2023-10-12 23:20:28
io
【推荐算法】今日头条、抖音推荐算法原理全文详解！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要17分钟跟随小博主，每天进步一丢丢整理：良许Linux作 ... [详细]

蜡笔小新 2023-10-12 20:05:26
int
基于Kafka的实时计算引擎如何选择Flink

1.前言目前实时计算的业务场景越来越多，实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Ka ... [详细]

蜡笔小新 2023-10-11 17:28:40
io
一文简单理解pulsar和优于kafka的两个痛点

前段时间浪尖推荐过一套奈学的pulsar课程，很多粉丝问浪尖pulsar到底值不值得学习，会不会替代kafka。浪尖个人2018年的时候就接触了puls ... [详细]

蜡笔小新 2023-10-10 23:37:43
io
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
io
adg架构设置及其在企业数据治理中的应用

本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展，企业IT系统的快速发展使得数据成为企业业务增长的新动力，但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题，并提出了解决方案，包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外，本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍，读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]

蜡笔小新 2023-12-14 13:05:22
io
Java工程师书单（初级，中级，高级）

简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师，或者说一名合格的架构师应该有怎样的技术知识体系，这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]

蜡笔小新 2023-10-16 19:11:34
int
基于时间序列的异常检测系统的实现思路之一

技术方案：Spark、kafka、opentsdb、Yahoo的egads模型静态训练：采用两种算法进行模型的训练：指数移动平均和HotWinters，模型一天训练一次，即每天0点开始训练， ... [详细]

蜡笔小新 2023-10-13 12:23:40
post
无服务器_云原生数据湖架构中的无服务器 Kafka

篇首语：本文由编程笔记#小编为大家整理，主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-12 15:37:48
io
极客星球｜Clickhouse在数据智能公司的应用与实践

MobTech在2020年开始尝试使用Clickhouse，并且具有一定的数据规模，目前线上Clickhouse集群数据 ... [详细]

蜡笔小新 2023-10-10 12:25:13