当前位置: 开发笔记 > 编程语言 > 正文

尚硅谷大数据技术之Hadoop（入门）（新）第2章从Hadoop框架讨论大数据生态

作者：宋雨甄_938 | 来源：互联网 | 2023-08-19 17:48

2.5Hadoop组成（面试重点）image.png2.5.1HDFS架构概述HDFS（HadoopDistributedFileSystem）的架构概述，如图2-23所示。ima

2.5 Hadoop组成（面试重点）

《尚硅谷大数据技术之Hadoop（入门）（新）第2章从Hadoop框架讨论大数据生态》 image.png

2.5.1 HDFS架构概述
HDFS（Hadoop Distributed File System）的架构概述，如图2-23所示。

《尚硅谷大数据技术之Hadoop（入门）（新）第2章从Hadoop框架讨论大数据生态》 image.png

2.5.2 YARN架构概述

YARN架构概述，如图2-24所示。

《尚硅谷大数据技术之Hadoop（入门）（新）第2章从Hadoop框架讨论大数据生态》 image.png

2.5.3 MapReduce架构概述
MapReduce将计算过程分为两个阶段：Map和Reduce，如图2-25所示
1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总

《尚硅谷大数据技术之Hadoop（入门）（新）第2章从Hadoop框架讨论大数据生态》 image.png

2.6 大数据技术生态体系

大数据技术生态体系如图2-26所示。

《尚硅谷大数据技术之Hadoop（入门）（新）第2章从Hadoop框架讨论大数据生态》 image.png

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：

（1）通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。

（3）支持通过Kafka服务器和消费机集群来分区消息。
（4）支持Hadoop并行数据加载。
4）Storm：Storm用于“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。
5）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。
7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
10）R语言：R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。
11）Mahout：Apache Mahout是个可扩展的机器学习和数据挖掘库。
12）ZooKeeper：Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
2.7 推荐系统框架图
推荐系统项目架构如图2-27所示。

《尚硅谷大数据技术之Hadoop（入门）（新）第2章从Hadoop框架讨论大数据生态》 image.png

本教程由尚硅谷教育大数据研究院出品，如需转载请注明来源，欢迎大家关注尚硅谷公众号（atguigu）了解更多。

推荐阅读

mysql
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
ip
2021最新总结网易/腾讯/CVTE/字节面经分享（附答案解析）

本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题，包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记，并附带答案解析。 ... [详细]

蜡笔小新 2023-12-09 19:11:31
ip
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
config
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
ip
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
ip
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
ip
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
ip
MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍怎样在IntellijIdea中通过创建mavenproject配置MapReduce的编程环境。一、软件环境我使用的软件版本号例如以下:IntellijIdea2017.1M ... [详细]

蜡笔小新 2023-10-13 16:56:06
ip
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
python
2019我的金三银四

先讲一下自己的情况吧，二本学生，17年毕业，目前在一家跨境电商从事Java技术开发工作（不是阿里，没那么厉害），技术栈目前偏向于容器云、持续集成持续交付这一块，也就是SpringBoot、Kuber ... [详细]

蜡笔小新 2023-10-16 10:41:46
python
KAFKA 进阶：深入探讨 kafka 分区数过多的问题及影响

大家好，这是一个为了梦想而保持学习的博客。这个专题会记录我对于KAFKA的学习和实战经验，希望对大家有所帮助，目录形式依旧为问答的方式，相当于是模拟面试。一、概述在对kafka有了 ... [详细]

蜡笔小新 2023-10-14 18:34:27
python
Flink（三）IDEA开发Flink环境搭建与测试

一.IDEA开发环境1.pom文件设置1.8 ... [详细]

蜡笔小新 2023-10-14 15:13:26
python
SparkRDD宽窄依赖及Stage划分

1.术语解释：Master(Standalone):资源管理的主节点（进程）ClusterManager：在集群上获取资源的外部服务（例如standalone，Mesos，Yarn ... [详细]

蜡笔小新 2023-10-14 12:14:14
python
Spark面试题汇总大全

1RDD简介RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计 ... [详细]

蜡笔小新 2023-10-13 12:55:35

宋雨甄_938

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章