热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

java程序员3个月业余时间学习大数据路径

一、背景介绍二、大数据介绍正文:一、大数据相关的工作介绍二、大数据工程师的技能要求三、大数据学习规划四、持续学习资源推荐(书籍,博客,网站)五、项目案例分析(批处理+实时处理)前言

  • 一、背景介绍
  • 二、大数据介绍

正文:

  • 一、大数据相关的工作介绍
  • 二、大数据工程师的技能要求
  • 三、大数据学习规划
  • 四、持续学习资源推荐(书籍,博客,网站)
  • 五、项目案例分析(批处理+实时处理)

前言
一、背景介绍
本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。

二、大数据介绍
大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。

这里是大数据技术交流学习平台,欢迎大数据学习爱好者一起交流,小白也可以的

针对以上主要的4个特征我们需要考虑以下问题:

  1. 数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具。
  2. 数据采集之后,该如何存储?,对应出现了GFS,HDFS,TFS等分布式文件存储系统。
  3. 由于数据增长速度快,数据存储就必须可以水平扩展。
  4. 数据存储之后,该如何通过运算快速转化成一致的格式,该如何快速运算出自己想要的结果?
    对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很大,所以出现了Hive,Pig等将SQL转化成MapReduce的解析引擎;
    普通的MapReduce处理数据只能一批一批地处理,时间延迟太长,为了实现每输入一条数据就能得到结果,于是出现了Storm/JStorm这样的低时延的流式计算框架;
    但是如果同时需要批处理和流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出现了Spark这样的一站式的计算框架,既可以进行批处理,又可以进行流处理(实质上是微批处理)。
  5. 而后Lambda架构,Kappa架构的出现,又提供了一种业务处理的通用架构。
  6. 为了提高工作效率,加快运速度,出现了一些辅助工具:
  • Ozzie,azkaban:定时任务调度的工具。
  • Hue,Zepplin:图形化任务执行管理,结果查看工具。
  • Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。
  • Python语言:编写一些脚本时会用到。
  • Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。

以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍,知道了他们为什么而出现或者说出现是为了解决什么问题,进行学习的时候就有的放矢了。
正文
一、大数据相关工作介绍
大数据方向的工作目前主要分为三个主要方向:

  1. 大数据工程师
  2. 数据分析师
  3. 大数据科学家
  4. 其他(数据挖掘等)

二、大数据工程师的技能要求
附上大数据工程师技能图:

《java程序员3个月业余时间学习 大数据路径》
《java程序员3个月业余时间学习 大数据路径》

必须掌握的技能11条

  1. Java高级(虚拟机、并发)
  2. Linux 基本操作
  3. Hadoop(HDFS+MapReduce+Yarn )
  4. HBase(JavaAPI操作+Phoenix )
  5. Hive(Hql基本操作和原理理解)
  6. Kafka
  7. Storm/JStorm
  8. Scala
  9. Python
  10. Spark (Core+sparksql+Spark streaming )
  11. 辅助小工具(Sqoop/Flume/Oozie/Hue等)

高阶技能6条

  1. 机器学习算法以及mahout库加MLlib
  2. R语言
  3. Lambda 架构
  4. Kappa架构
  5. Kylin
  6. Alluxio

总结如下:
必须技能10条:

Java高级(虚拟机、并发)、Linux 基本操作、Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )、HBase(JavaAPI操作+Phoenix )、Hive(Hql基本操作和原理理解)、Kafka、Storm、Scala需要、Python、Spark (Core+sparksql+Spark streaming )、一些小工具(Sqoop等)

高阶技能6条:

机器学习算法以及mahout库加MLlib、R语言、Lambda 架构、Kappa架构、Kylin、Aluxio

三.学习路径

《java程序员3个月业余时间学习 大数据路径》
《java程序员3个月业余时间学习 大数据路径》

《java程序员3个月业余时间学习 大数据路径》
《java程序员3个月业余时间学习 大数据路径》

《java程序员3个月业余时间学习 大数据路径》
《java程序员3个月业余时间学习 大数据路径》

《java程序员3个月业余时间学习 大数据路径》
《java程序员3个月业余时间学习 大数据路径》

相关学习书籍:Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)、Hadoop、HBase(《HBase权威指南》)、Hive(《Hive开发指南》)、Scala(《快学Scala》)、Spark (《Spark 快速大数据分析》)

其他对应技能需求,如果你觉得自己看书效率太慢,你可以看一些课程,跟着课程走也OK 。这个完全根据自己情况决定,相反的话就自己看书。我把最重要的事情(要学什么告诉你了),剩下的就是你去搜集对应的资料学习就ok了。


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • 11月26日,由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,CSDN承办的Hadoop与大数据技术大会(Hadoop&BigDataTechnology ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • 既然HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]
author-avatar
菜鸟来袭
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有