热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据专家手把手教你打造实时数据湖

数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长、数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,

7c635792e29a6ee7dd8f8007dcdf526c.png

数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长、数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,这使得通用计算引擎(如Spark、Flink)、交互式分析系统(如ClickHouse)、数据湖框架(如Iceberg)等技术快速发展。

作为专业的开发者社区,DEEPNOVA致力于促进技术交流、开拓技术视野、建立技术生态,并积极拥抱开源社区,针对新一代的数据湖、实时数仓等开源技术深入研究,并实现部分功能的优化。

为了与开发者更好地进行技术探讨交流,4月16日 14:00—17:30,DEEPNOVA 联合Iceberg社区共同推出“DEEPNOVA MEETUP Online”。此次活动主题为《基于 Iceberg 打造实时数据湖》,汇聚了DEEPNOVA社区专家团力量,将带领听众了解完整的Iceberg技术发展史及在国产化数据中的应用与实践,真正做到将优质技术内容回馈社区。

1

核心内容

1. 技术解读:《Apache Iceberg过去、现状及未来》

分享嘉宾:Apache Iceberg和HBase PMC成员 胡争

内容亮点:Apache Iceberg作为一种开放的标准化数据湖表格式,已经被国内外众多大厂选择和应用。近期Apache Iceberg计划在AWS之上推出商业版的数据湖存储服务。与此同时,Snowflake、AWS、Cloudera等公司纷纷发布Iceberg数据湖。事实证明,经过几年的发展,Apache Iceberg取得了飞速的发展和巨大的成功。本次分享内容包括Iceberg开源历程,以及当下和未来重点发力的技术方向。

2. 技术实践:《网易湖仓管理系统Arctic》

分享嘉宾:网易数据湖和实时计算团队负责人 马进

内容亮点:Arctic 是网易自研的基于 Iceberg 的湖仓管理系统。同时,网易通过Flink和Arctic构建了流批一体的数据生产链路,实时离线统一的数仓。在 Iceberg 基础之上,Arctic具有支持主键、结构自优化、数据一致性、实时订阅和实时join等特性。本次分享将主要介绍 Arctic 的核心设计思路。

3. 技术实践:《FastData DLink 对Iceberg索引的优化与实践》

分享嘉宾:滴普科技存储引擎部总监 张敢

内容亮点:Z-Order是一种可以将多维数据压缩到一维的技术,在时空索引以及图像方面使用较广,对多字段进行排序,对原始数据重新布局, 减少不必要的I/O,进而提升查询速度。基于Iceberg 社区提出的主键去重方案,DEEPNOVA 社区又利用 BloomFilter 进行了优化,对 eq-delete 文件进行过滤,减少内存占用,提升小文件合并效率。本次分享将主要解读FastData在索引技术上的优化能力。

4. 技术实践:《FastData DLink基于Iceberg 构建实时数据湖的优化与实践》

分享嘉宾:滴普科技数据库内核开发工程师 简勇华

内容亮点:Iceberg CDC能力是支持构建实时数仓的核心能力。DEEPNOVA 社区对 Iceberg CDC 功能进行了完整实现,并实现Hive历史数据快速迁移入湖,对社区PR 生成元数据的方式进行了并行优化,提升数倍的迁移性能。本次分享将围绕如何构建实时数仓,展示FastData的技术优势。

44b4eea0343c8700261cb025d994e1f8.png

听众收益:

1. 了解Apache Iceberg的架构原理、特性及应用场景

2. 基于Iceberg实现不同功能的技术优化能力及其业务价值

3. 开放的技术交流社区,与资深技术专家共同探讨湖仓技术

我们坚信技术的前进一定是无数技术从业者一起努力的结果,也衷心希望DEEPNOVA社区能成为技术爱好者们的学习交流平台,借助更多人的力量将社区建设得更加完善。我们也将秉持开放、共享的社区精神,通过更多的技术分享、直播活动等方式回馈社区,让数字技术为世界带来无限可能。

欢迎扫码观看直播,转发分享直播间邀约榜前三名,还将拥有DEEPNOVA专属礼盒。

8a59bcafd8406f6ae9c88794f6491b55.png

3381b55a218414c8f660780b69842703.png

f7bce02a559867f68bd73e0f79d50dd0.png

 Trino分析引擎如何在数据湖上进行极速分析?

f0b8b282ae297540eda1122c14ff6928.png

实时分析型数据库DLink支持Iceberg维度表Lookup join

c622f0d6a226f54d1132860de0e90efc.png

如何利用湖仓一体架构处理多模数据的存储和分析?

285fdf1a56d2014805a6b46118b093a4.png

分析型数据库FastData for DLink有何优势?

成功案例

先进制造    

重庆机电 |九洲电器 | 科伦药业

政务双碳    

智慧龙华 | 攀枝花东区| 深智城

能源出行    

长安新能源 | 华胜集团

消费流通    

百丽国际 | 秀域集团 | 乖宝宠物

商业综合    

广州城投 | 新华联 | 华发股份

智慧文旅    

拈花湾文旅 | 大横琴泛旅游

更多行业    

新建元集团 | 特驱农牧

点击下方阅读原文,解锁活动详情



推荐阅读
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文内容为asp.net微信公众平台开发的目录汇总,包括数据库设计、多层架构框架搭建和入口实现、微信消息封装及反射赋值、关注事件、用户记录、回复文本消息、图文消息、服务搭建(接入)、自定义菜单等。同时提供了示例代码和相关的后台管理功能。内容涵盖了多个方面,适合综合运用。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类
    本文介绍了基于事件驱动的并发编程中的消息通信机制,包括同步和异步的概念及其区别,阻塞和非阻塞的状态,以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多 ... [详细]
  • 本文介绍了在Ubuntu下制作deb安装包及离线安装包的方法,通过备份/var/cache/apt/archives文件夹中的安装包,并建立包列表及依赖信息文件,添加本地源,更新源列表,可以在没有网络的情况下更新系统。同时提供了命令示例和资源下载链接。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
  • MySQL多表数据库操作方法及子查询详解
    本文详细介绍了MySQL数据库的多表操作方法,包括增删改和单表查询,同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作,以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说,本文是一个非常实用的参考资料。 ... [详细]
  • 本文总结和分析了JDK核心源码(2)中lang包下的基础知识,包括常用的对象类型包和异常类型包。在对象类型包中,介绍了Object类、String类、StringBuilder类、StringBuffer类和基本元素的包装类。在异常类型包中,介绍了Throwable类、Error类型和Exception类型。这些基础知识对于理解和使用JDK核心源码具有重要意义。 ... [详细]
  • 深入理解Java虚拟机的并发编程与性能优化
    本文主要介绍了Java内存模型与线程的相关概念,探讨了并发编程在服务端应用中的重要性。同时,介绍了Java语言和虚拟机提供的工具,帮助开发人员处理并发方面的问题,提高程序的并发能力和性能优化。文章指出,充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]
author-avatar
海风
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有