热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据_ApacheDolphinScheduler征稿大数据神器来了

篇首语:本文由编程笔记#小编为大家整理,主要介绍了ApacheDolphinScheduler征稿--大数据神器来了相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Apache DolphinScheduler征稿--大数据神器来了相关的知识,希望对你有一定的参考价值。






今天在刷CSDN时偶然看到一个有关 Apache DolphinScheduler的征文活动,在初步了解了相关情况之后,我发现 Apache DolphinScheduler就是那个大数据任务调度平台EasyScheduler的前身,这引起了我很大的兴趣,深入调研一番以后,我认为Apache DolphinScheduler虽然目前知名度不高,但是其发展潜力却是不容忽视的,未来继续发展将为大数据的从业人员们解决不少痛点,因此决定参加这个征稿活动,向大家科普一下Apache DolphinScheduler的情况。


大数据-越来越大也越来越难管

业界对于大数据概念其实还没有一个统一的定义,到底什么规模的数据算是大数据似乎是一个不断变化的动态概念,我们看到比如IDC就直接把大数据的定义为现有技术难以处理的数据,这样的定义虽然看似回避了对于具体规模的表述却也相当聪明。从历史经验来看最新的技术往往就是因为数据处理需求不断升级而催生迭代出来的,比如在谷歌提出大数据三驾马车的论文时,当时像Oracle之类的主流数据库技术根本处理不了谷歌所要存存储的搜索数据,现在的数仓也很难挖掘出数据湖中的宝藏。

目前诸多行业都将数字化转型的任务提上了日程,系统上云也是如火如荼,在这样的大背景下未来大数据的量级肯定还会不断创出新高,比如在上周阿里云的峰会上,Caffe之父贾扬清就指出阿里存储的数据量级正在以年化80%左右的速度增长,不过这样的数据增长速度,却成为大数据工程师的甜蜜负担,传统数据库与数仓用到数据湖三套体系的兼容性很差,能让他们整体协同工作运转就非常不易了,想提高效率真是难比上青天。

从我所在金融行业的情况看,现在的数据分析流程已经太长了,以金融数据为例,分析数据在交易核心的OLTP数据库中跑批处理,再ODS抽取ETL分析到数仓,再进一步训练流式计算,最后再入湖,其时效最快也是T+1日,如果还回答不出更细节、隐含的问题,比如非线性问题,还要把数据复制到SAS中做机器学习,再做统计的指标体系,去做进一步挖掘。数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作在做数据搬家。可以说目前各种大数据任务还能够正常运行真是堪称奇迹,即使是运行异常了大部分情况下唯一的应对方案也就是重启,重启解决不了就延时重启,具体的异常原因已经很难去分析了。


 Apache DolphinScheduler的杀手锏-简单易用

为了解决任务调度的问题,我们之前也尝试过几种其它的方案比如Quartz,但是Quartz虽然是Java的定时任务标准,但它针对的是定时任务而不是数据流,根据数据流处理去定制化流程的工作量很大。而且Quartz最大的问题是其ACID特性保证,完全是基于数据库实现的,不同节点之间是通过数据库表来感知状态的,如果某一个节点失效,那么Job执行的原子性是很难保证的,缺少分布式并行调度的功能。

当然后来的Airflow可能会比Quartz更好一点,但是Airflow的问题是可视化程度较低,流程及任务必须通过Python代码定义,如果一家机构拥有海量数据流程那么代码定义流程的方式维护起来简直是个噩梦,而且从我们实测的情况看,Airflow的可靠性一般,常出现卡死现象,当然这个也许是我们使用或者配置的问题,不是最终的结论。

对比之后,笔者觉得 Apache DolphinScheduler还是最舒服的,按照官网的说法Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。

而笔者认为分布式与可视化DAG工作流,分别针对了Airflow和Quartz的痛点,而且从不少大牛的实测反馈看Apache DolphinScheduler的可靠性还是很强的。

正如我们前面所说一般目前的大型企业都需要把分析数据从OLTP 核心数据库中抽取到数据仓库中,有的还需要从数据仓库中再同步到数据湖里,个人觉得至少做这种不同类型数据库之间的传输工作,完全可以让Apache DolphinScheduler来进行一下试点,如果Apache DolphinScheduler真的可以全面铺开,那么这对于大数据工程师来说将是巨大福音,因为这是一个完全可视化的工具,只要把流程定义好,那么运行时的监控以及错误处理等关键环节也就自然生成了,这将极大为大数据同仁们减负!

本文正在参与 “拥开源 — Apache DolphinScheduler 有奖征稿活动




推荐阅读
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • Python开源库和第三方包的常用框架及库
    本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]
  • Centos下安装memcached+memcached教程
    本文介绍了在Centos下安装memcached和使用memcached的教程,详细解释了memcached的工作原理,包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时,还对memcached的快速和高效率进行了解释,与传统的文件型数据库相比,memcached作为一个内存型数据库,具有更高的读取速度。 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • 2021最新总结网易/腾讯/CVTE/字节面经分享(附答案解析)
    本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题,包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记,并附带答案解析。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
author-avatar
回看往事闯天涯
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有