7.1IcebergTrino如何解决链上数据面临的挑战

作者：雨水-_-打湿我的脸_950 | 来源：互联网 | 2023-08-12 19:07

*此文章是#HowFootprintWorks*系列的其中一个章节。链上数据处理面临的挑战区块链数据公司，在索引以及

* 此文章是 #How Footprint Works* 系列的其中一个章节。

链上数据处理面临的挑战

区块链数据公司，在索引以及处理链上数据时，可能会面临一些挑战，包括：

海量数据。随着区块链上数据量的增加，数据索引将需要扩大规模以处理增加的负载并提供对数据的有效访问。因此，它导致了更高的存储成本；缓慢的指标计算和增加数据库服务器的负载。
复杂的数据生产流程。区块链技术是复杂的，建立一个全面和可靠的数据索引需要对底层数据结构和算法有深刻的理解。这是由区块链实现方式的多样性所决定的。举一个具体的例子，以太坊中的 NFT 通常是在遵循 ERC721 和 ERC1155 格式的智能合约中进行创建的，而像 Polkadot 上通常是直接在区块链运行时间内构建的。对于用户来说，不管是任何形式的存在，这些数据应该被视为 NFT 的交易，需要被存储，并且处理为可读状态，方便分析以及进行计算。
集成能力。为了给用户提供最大的价值，区块链索引解决方案可能需要将其数据索引与其他系统集成，如分析平台或 API。这很有挑战性，需要在架构设计上投入大量精力。

随着区块链技术的使用越来越广泛，存储在区块链上的数据量也在增加。这是因为更多的人在使用该技术，而每笔交易都会给区块链增加新的数据。此外，区块链技术的使用已经从简单的资金转移应用，如涉及使用比特币的应用，发展到更复杂的应用，包括智能合约之间的相互调用。这些智能合约可以产生大量的数据，从而造成了区块链数据的复杂性和规模的增加。随着时间的推移，这导致了更大、更复杂的区块链数据。

本文中，我们将以 Footprint Analytics 的技术架构演变作为分析案例，探索 Iceberg-Trino 如何解决链上数据面临的挑战。

Footprint Analytics 拥有最全面的链上数据索引仓库，目前涵盖 22 个公链，17 个 NFT 市场，超过 1900 个 GameFi 项目，以及超过 66 万个 NFT 收藏。当我们谈及 22 条公链底层数据时，不同与其他行业，区块链的数据大部分都是交易数据，而非单纯传统行业的日志数据，22 条公链大概数量级行数大概是 200 亿以上，而这些是经常需要被查询的数据。

在过去几个月中，我们经历了以下三次大的系统版本升级，以满足不断增长的业务需求：

架构 1.0 Bigquery

在 Footprint Analytics 初创阶段，我们使用 Bigquery 作为存储和查询引擎。Bigquery 是一款优秀的产品，它提供的动态算力，和灵活的 UDF 语法帮助我们解决了很多问题。

不过 Bigquery 也存在着一些问题：

数据没有经过压缩，存储费用过高，特别是我们需要存储将近 20 条区块链的原始数据；
并发能力不足：Bigquery 同时运行的 Query 只有 100 条，不能为 Footprint Analytics 提供高并发查询；
非开源产品，绑定 Google 一家供应商。

所以我们决定探索新架构。

架构 2.0 OLAP

我们对最近很火热的 OLAP 产品非常感兴趣，OLAP 让人印象深刻的地方就是其查询反应速度，仅需亚秒级响应时间即可返回海量数据下的查询结果，对高并发的点查询场景也支持比较好。

我们挑选了其中一款 OLAP 数据库，Doris 进行了深入的尝试。

但是很快，我们碰到了以下问题：

不支持 Array JSON 等数据类型
- 在区块链的数据中，数组 Array 是个很常见的类型，例如 evm logs 中的 topic 字段，无法对 Array 进行计算处理，会影响我们计算很多指标。
DBT 支持有限，不支持 merge 语法来 update data
- DBT 是数据工程师比较典型的处理 ETL/ELT 的工具，尤其是 Footprint Analytics 团队。merge and update 这也是很常见的需求，我们需要对一些新探索的数据进行更新操作。

也就是说，我们无法在 Doris 上完成我们的数据生产流程，所以我们退而求其次，让 OLAP 数据库解决我们的部分问题，作为查询引擎，提供快速且高并发的查询能力。

很遗憾的是，该方案无法将 Bigquery 作为 Data Source 替换掉，我们必须把不断地把 Bigquery 上的数据进行同步，同步程序的不稳定性给我们带来了非常多的麻烦，因为在使用存算分离的架构，当其查询压力过大时，也会影响写入程序的速度，造成写入数据堆积，同步无法继续进行吗，我们需要有固定的人员来处理这些同步问题。

我们意识到，OLAP 可以解决我们所面临的几个问题，但不能成为 Footprint Analytics 的全套解决方案，特别是在数据处理以及生产方面。我们的问题更大更复杂，我们可以说，OLAP 作为一个查询引擎对我们来说是不够的。

架构 3.0 Iceberg + Trino

在 Footprint Analytics 架构 3.0 的升级中，我们从头开始重新设计了整个架构，将数据的存储、计算和查询分成三个不同的部分。从 Footprint Analytics 早期的两个架构中吸取教训，并从其他成功的大数据项目中学习经验，如 Uber、Netflix 和 Databricks。

4.1. 数据湖的引入

我们首先把注意力转向了数据湖，这是一种新型的结构化和非结构化数据的存储方式。数据湖非常适合链上数据的存储，因为链上数据的格式范围很广，从非结构化的原始数据到结构化的抽象数据，都是 Footprint Analytics 特色亮点。我们期望用数据湖来解决数据存储的问题，最好还能支持主流的计算引擎，如 Spark 和 Flink，这样随着 Footprint Analytics 的发展，与不同类型的处理引擎整合起来能更容易，更具备拓展性。

Iceberg 可以与 Spark，Flink，Trino 等计算引擎都有着非常良好的集成，我们可以为我们的每一个指标选择最合适的计算方式。例如：

需要复杂计算逻辑的，选择 Spark；
需要实时计算的，选择 Flink；
使用 SQL 就能胜任的简单 ETL 任务，选择 Trino。

4.2. 查询引擎

有了 Iceberg 解决了存储和计算的问题，我们接下来就要思考，如何选择查询引擎。实际上可以选的方案不多，备选的有：

Trino: SQL Query Engine
Presto: SQL Query Engine
Kyuubi：Serverless Spark SQL

在深度使用之前，我们考虑最多的是，未来的查询引擎必须要兼容我们当前的架构。

要支持将 Bigquery 作为 Data Source
要支持 DBT，我们要很多指标是依赖 DBT 完成生产的
要支持 BI 工具 metabase

基于以上个点，我们选择了 Trino，Trino 对 Iceberg 的支持非常完善，而且团队执行力非常强，我们提了一个 BUG，在第二天就被修复，并且在第二周就发布到了最新版本中。这对同样要求高执行响应速度的 Footprint Analytics 团队，无疑是最佳选择。

4.3 性能测试

选定了方向之后，我们对 Trino+Iceberg 这个组合做了个性能测试，以确定其性能是否能满足我们的需求，结果出乎我们依赖，查询速度不可思议地快。

要知道，在各大 OLAP 的宣传文章中，Presto + Hive 可是常年作为最差的对比项存在的，Trino + Iceberg 的组合完全刷新了我们的认知。

下面是我们的测试结果：

case 1: join big table

一个 800 GB 的 table1 join 另一个 50 GB 的 table2 并做复杂业务计算

case2: 大单表做 distinct 查询

测试用的 sql ： select distinct(address) from table group by day

相同配置下，Trino+Iceberg 组合速度大约是 Doris 的 3 倍。

除此之前，还有一个惊喜，因为 Iceberg 底层可以使用 Parquet、ORC 等 data format，会对数据进行压缩存储，Icberg 的 table 存储空间只需要其他数据仓库的 ¹⁄₅ 左右。

同样一个 table，在三个数据库中的存储大小分别是：

注：以上测试都是我们实际生产中碰到的个别业务例子，结论不严谨，仅供参考。

4.4 升级效果

性能测试报告给了我们足够的性能，我们团队使用了大概 2 个月时间来完成迁移，这个是我们升级之后的架构图：

丰富的计算引擎让我们可以应对各种计算需求；
Trino 可以直接查询 Iceberg，我们再也不用处理数据同步问题；
Trino + Iceberg 让人惊艳的性能，让我们可以开放所有 Bronze 数据给到用户。

总结

自 2021 年 8 月推出以来，Footprint Analytics 团队在不到一年半的时间里完成了三次架构升级，这得益于其为加密货币用户带来最佳数据库技术优势的强烈愿望和决心，以及在实施和升级其底层基础设施和架构方面的扎实执行。

Footprint Analytics 架构升级 3.0 为其用户买到了全新的体验，让来自不同背景的用户在更多样化的使用和应用中获得洞察力。
与 Metabase 商业智能工具一起构建的 Footprint 便于分析师获得已解析的链上数据，完全自由地选择工具（无代码或编写代码）进行探索，查询整个历史，交叉检查数据集，在短时间内获得洞察力。
整合链上和链下的数据，在 web2 和 web3 之间进行分析。
通过在 Footprint 的业务抽象之上建立 / 查询指标，分析师或开发人员可以节省 80% 的重复性数据处理工作的时间，并专注于有意义的指标，研究和基于其业务的产品解决方案。
从 Footprint Web 到 REST API 调用的无缝体验，都是基于 SQL 的。
对关键信号进行实时提醒和可操作的通知，以支持投资决策

课后小测试

做个简单的小测试看看你掌握了多少知识吧！如果你想探讨更多跟课程有关的内容，欢迎加入我们的Discord 社区一起讨论。

推荐阅读

#EVM Analysis

#DeFi Analysis

#NFT Analysis

#GameFi Analysis

#Wallet Analysis

#Footprint for Developer

#How Footprint Works

Footprint Analytics 是首家 Crypto 领域支持无代码数据分析平台。平台还提供一个统一的数据 API，让用户可以快速检索超过 22 条公链生态的 NFT，GameFi 以及 DeFi 数据。

如果您对该课程有任何反馈或建议，您可以通过以下方式联系我们。

Footprint Website: https://www.footprint.network

Discord: https://discord.gg/3HYaR6USM7

Twitter: https://twitter.com/Footprint_Data

推荐阅读

get
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
web
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
sum
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
web
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
web
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
web
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
web
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
list
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
tree
Go语言实现堆排序的详细教程

本文主要介绍了Go语言实现堆排序的详细教程，包括大根堆的定义和完全二叉树的概念。通过图解和算法描述，详细介绍了堆排序的实现过程。堆排序是一种效率很高的排序算法，时间复杂度为O(nlgn)。阅读本文大约需要15分钟。 ... [详细]

蜡笔小新 2023-12-12 16:23:00
function
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
function
集成电路企业跨隔离网数据交换的安全性及解决方案

集成电路企业在进行跨隔离网数据交换时面临着安全性问题，传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例，介绍了如何通过丰富的审批流程来满足企业的合规要求，保障数据交换的安全性。 ... [详细]

蜡笔小新 2023-12-12 11:59:54
function
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
function
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
function
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
list
H5游戏性能优化，调试技巧

本文介绍了H5游戏性能优化和调试技巧，包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说，解决游戏性能问题是一个关键的任务，本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]

蜡笔小新 2023-12-10 15:40:37

雨水-_-打湿我的脸_950

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章