当前位置: 开发笔记 > 编程语言 > 正文

java程序员3个月业余时间学习大数据路径

作者：菜鸟来袭 | 来源：互联网 | 2023-05-18 02:40

一、背景介绍二、大数据介绍正文：一、大数据相关的工作介绍二、大数据工程师的技能要求三、大数据学习规划四、持续学习资源推荐（书籍，博客，网站）五、项目案例分析（批处理+实时处理）前言

一、背景介绍
二、大数据介绍

正文：

一、大数据相关的工作介绍
二、大数据工程师的技能要求
三、大数据学习规划
四、持续学习资源推荐（书籍，博客，网站）
五、项目案例分析（批处理+实时处理）

前言
一、背景介绍
本人目前是一名大数据工程师，项目数据50T，日均数据增长20G左右，个人是从Java后端开发，经过3个月的业余自学成功转型大数据工程师。

二、大数据介绍
大数据本质也是数据，但是又有了新的特征，包括数据来源广、数据格式多样化（结构化数据、非结构化数据、Excel文件、文本文件等）、数据量大（最少也是TB级别的、甚至可能是PB级别）、数据增长速度快等。

这里是大数据技术交流学习平台，欢迎大数据学习爱好者一起交流，小白也可以的

针对以上主要的4个特征我们需要考虑以下问题：

数据来源广，该如何采集汇总？，对应出现了Sqoop，Cammel，Datax等工具。
数据采集之后，该如何存储？，对应出现了GFS，HDFS，TFS等分布式文件存储系统。
由于数据增长速度快，数据存储就必须可以水平扩展。
数据存储之后，该如何通过运算快速转化成一致的格式，该如何快速运算出自己想要的结果？
对应的MapReduce这样的分布式运算框架解决了这个问题；但是写MapReduce需要Java代码量很大，所以出现了Hive，Pig等将SQL转化成MapReduce的解析引擎；
普通的MapReduce处理数据只能一批一批地处理，时间延迟太长，为了实现每输入一条数据就能得到结果，于是出现了Storm/JStorm这样的低时延的流式计算框架；
但是如果同时需要批处理和流处理，按照如上就得搭两个集群，Hadoop集群（包括HDFS+MapReduce+Yarn）和Storm集群，不易于管理，所以出现了Spark这样的一站式的计算框架，既可以进行批处理，又可以进行流处理（实质上是微批处理）。
而后Lambda架构，Kappa架构的出现，又提供了一种业务处理的通用架构。
为了提高工作效率，加快运速度，出现了一些辅助工具：

Ozzie，azkaban：定时任务调度的工具。
Hue，Zepplin：图形化任务执行管理，结果查看工具。
Scala语言：编写Spark程序的最佳语言，当然也可以选择用Python。
Python语言：编写一些脚本时会用到。
Allluxio，Kylin等：通过对存储的数据进行预处理，加快运算速度的工具。

以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍，知道了他们为什么而出现或者说出现是为了解决什么问题，进行学习的时候就有的放矢了。
正文
一、大数据相关工作介绍
大数据方向的工作目前主要分为三个主要方向:

大数据工程师
数据分析师
大数据科学家
其他（数据挖掘等）

二、大数据工程师的技能要求
附上大数据工程师技能图：

《java程序员3个月业余时间学习大数据路径》

必须掌握的技能11条

Java高级(虚拟机、并发)
Linux 基本操作
Hadoop（HDFS+MapReduce+Yarn ）
HBase（JavaAPI操作+Phoenix ）
Hive(Hql基本操作和原理理解）
Kafka
Storm/JStorm
Scala
Python
Spark (Core+sparksql+Spark streaming ）
辅助小工具(Sqoop/Flume/Oozie/Hue等)

高阶技能6条

机器学习算法以及mahout库加MLlib
R语言
Lambda 架构
Kappa架构
Kylin
Alluxio

总结如下:
必须技能10条:

Java高级(虚拟机、并发)、Linux 基本操作、Hadoop（此处为侠义概念单指HDFS+MapReduce+Yarn ）、HBase（JavaAPI操作+Phoenix ）、Hive(Hql基本操作和原理理解）、Kafka、Storm、Scala需要、Python、Spark (Core+sparksql+Spark streaming ）、一些小工具(Sqoop等)

高阶技能6条:

机器学习算法以及mahout库加MLlib、R语言、Lambda 架构、Kappa架构、Kylin、Aluxio

三.学习路径

《java程序员3个月业余时间学习大数据路径》

相关学习书籍：Java 高级学习（《深入理解Java虚拟机》、《Java高并发实战》）、Hadoop、HBase（《HBase权威指南》）、Hive（《Hive开发指南》）、Scala（《快学Scala》）、Spark （《Spark 快速大数据分析》）

其他对应技能需求，如果你觉得自己看书效率太慢，你可以看一些课程，跟着课程走也OK 。这个完全根据自己情况决定，相反的话就自己看书。我把最重要的事情(要学什么告诉你了)，剩下的就是你去搜集对应的资料学习就ok了。

推荐阅读

扩展
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
version
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
version
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
process
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
process
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
process
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
ip
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
java
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
java
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
process
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
process
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
install
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
instance
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
install
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13

菜鸟来袭

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章