热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

实时计算既有Flink,为何又推出个StreamPark?

StreamPark2.0.0版本于2023年2月21日正式发布,有流处理需求的开发者可以通过StreamPark官网以及GitHub去下载apache配置

StreamPark 2.0.0 版本于2023年2月21日正式发布,有流处理需求的开发者可以通过StreamPark官网以及GitHub去下载apache配置。StreamPark这次更新的亮点是,前端构建和启动速度同历史版本比提升了 5~10 倍,并且对 Apache Flink 做了更好的支持,支持最新的 Flink 1.16版,同时Flink 作业 on Kubernetes 达到生产可用级别。

实时计算既有Flink,为何又推出个StreamPark?

在了解StreamPark 2.0.0 版本具体更新了哪些内容前apache配置,我们先来脑补下定义,到底是什么StreamPark ?Flink本身就是一个开源流处理框架,为何StreamPark会成为Apache重点孵化的项目?二者到底是什么关系?

让流处理更简单

从官方定义看,StreamPark 是一个流处理应用开发管理框架apache配置。基于StreamPark,开发者可以轻松构建和管理流处理应用程序,更好地使用Apache Flink 和 Apache Spark 编写流处理应用程序的开发框架,同时可支持更多其他引擎。StreamPark最早叫做StreamX,于2021年4月正式开源;2022年2月24日,StreamPark发布1.2.2首个稳定版;2022年8月更名为StreamPark。

大体来看,StreamPark是一个位居Flink 之上的开发管理平台,有了StreamPark,用户可以无障碍地拥抱Flink ,更快地构建实时数仓和流式数仓,相当于是一个流处理应用的服务总线apache配置

当然,StreamPark的核心能力可能会更多,包括但不限于应用开发、调试、交互查询、部署、运维、实时数仓等,比如:除了标准配置和开发流程,还有Flink SQL开发工作台、一站式流任务开发管理平台的内嵌,多版本流引擎的支持,多集群环境的支持等等apache配置

有效解决Flink on Kubernetes太重的问题

StreamPark之所以成为开源社区关注的重点项目,除了细节上更新,比如:提供了Docker 方式一键部署启动 StreamPark ,支持了通过 copy 已有的作业来快速创建一个新的作业,更大程度地提升了 StreamPark 的易用性……还有一个关键性的用户体验,那就是Flink on Kubernetes实现生产级别的构建apache配置

当企业决定使用Flink做数据引擎时,通常会使用Flink on Kubernetes模式做实时任务流管理apache配置。但Flink没有解决一个问题,那就是每提交一个任务,需要打包新的镜像提交到私有仓库,然后再调用Flink Run指令拉通Kubernetes,最终获取镜像运行Pod,任务提交后还要去Kubernetes查log,镜像流程太长。如果单纯地使用命令去提交每个任务,任务量太大,增加了开发的压力。如何解决Flink原生镜像需要二次构建的问题?StreamPark可以让Flink的构建、测试和部署变得更自动化!

在StreamPark 2.0.0 版本中,修复了诸多Bug,可支持查看 Kubernetes 部署模式下的实时日志,重构了作业运行状态这部分的实现apache配置。目前,在作业部署提交、运行状态等各个方面已做了大量的测试,整体稳定性和可用性也经过企业大量作业的验证,能达到生产可用级别。

值得一提的是,StreamPark为了提升易用性,在新版本中从强依赖MySQL扩展了新的数据库类型,包括H2和PostgreSQLapache配置。其中,系统默认使用H2,对于想要快速体验的用户来说,直接下载安装包、执行启动脚本启动服务即可,无需其他额外配置和操作就可以体验 StreamPark 带来的方便与快捷,并且有效降低了使用成本。


推荐阅读
  • 无服务器_云原生数据湖架构中的无服务器 Kafka
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 如何利用 Myflash 解析 binlog ?
    本文主要介绍了对Myflash的测试,从准备测试环境到利用Myflash解析binl ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 数据库异常智能分析与诊断
    数据库,异常, ... [详细]
  • 目录摘要SQL的现在NoSQL,NotOnlySQL要分布式,也要SQL总结引用摘要毫不夸张的说,关系数据库是企业软件系统的核心,企业形形色色信息行为的背后,都有关系数据库的支撑。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • ubuntu用sqoop将数据从hive导入mysql时,命令: ... [详细]
  • 如何在php中将mysql查询结果赋值给变量
    本文介绍了在php中将mysql查询结果赋值给变量的方法,包括从mysql表中查询count(学号)并赋值给一个变量,以及如何将sql中查询单条结果赋值给php页面的一个变量。同时还讨论了php调用mysql查询结果到变量的方法,并提供了示例代码。 ... [详细]
  • Python SQLAlchemy库的使用方法详解
    本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介,包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式,即SQL表达式语言和ORM。针对不同的需求,给出了选择哪种模式的建议。最后,介绍了连接数据库的方法,包括创建SQLAlchemy引擎和执行SQL语句的接口。 ... [详细]
  • PDO MySQL
    PDOMySQL如果文章有成千上万篇,该怎样保存?数据保存有多种方式,比如单机文件、单机数据库(SQLite)、网络数据库(MySQL、MariaDB)等等。根据项目来选择,做We ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Spark Streaming和Kafka整合之路(最新版本)
    2019独角兽企业重金招聘Python工程师标准最近完成了SparkStreaming和Kafka的整合工作,耗时虽然不长,但是当中还是遇到了不少 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
author-avatar
阿离说你是宝贝
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有