热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据管理与分析2hadoop

hadoophadoop概述Hadoop的作用与功能hadoop优点hadoop体系结构HDFS体系结构MapReduce体系结构hadoop概述hadoop是一个开源的可运行在

hadoop

  • hadoop概述
  • Hadoop的作用与功能
  • hadoop优点
  • hadoop体系结构
  • HDFS 体系结构
  • MapReduce 体系结构


hadoop概述
  • hadoop是一个开源的可运行在大规模集群上的分布式并行编程框架,实现了Map/Reduce 计算模型

Hadoop的作用与功能
  • Hadoop采用了分布式存储方式,提高了读写速度,并扩大了存储容量
  • 采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效
  • Hadoop还采用存储冗余数据的方式保证数据的安全性
  • Hadoop中HDFS的高容错特性,以及它是基于Java 语言开发的,使得Hadoop可以部署在低廉的计算机集群
  • Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业中被广泛采用
    在这里插入图片描述

hadoop优点
  • 可靠:维护多个工作数据副本,保证对失效节点重新分布处理
  • 高效:一并行方式工作,通过并行处理加快速度。Hadoop可伸缩,能处理PB级数据
  • 成本低:依赖于廉价的服务器
  • 运行在Linux平台上
  • 支持多种编程语言

hadoop体系结构
  • 核心:HDFS 和 MapReduce
  • Hadoop 分布式文件系统 HDFS,提供高可靠性的底层存储支持
  • HBase 位于结构化存储层,一个分布式的列存储数据库
  • Avro 数据序列化系统,将数据对象转化成便于数据存储和网络传输的格式
  • Zookeeper 一个分布式的、高可靠性的协调服务,提供分布式所之类的基本服务
  • Hive 建立在hadoop之上的数据仓库
  • Pig 提供一种数据流语言,pig数据流脚本自动转换成为MapReduce任务链在hadoop上执行
  • Sqoop SQL-to-hadoop 为 RDBMS与Hadoop平台之间及逆行快速批量数据交换

在这里插入图片描述

HDFS 体系结构
  • 一个HDFS 集群有一个NameNode 和若干个DataNOde组成
  • NameNode作为主服务器,管理文件系统的命名空间和客户端对文件访问操作;它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。
  • DataNode 管理存储数据
  • HDFS 支持用户以文件形式存储数据,文件被分程若干数据块,放在一组DataNode上
  • 没有namenode, 文件系统将无法使用。事实上,如果运行namenode 服务的机器毁坏,文件系统上所有的文件将会丟失,因为我们不知道如何根据datanode 的块重建文件。
  • 心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个datanode的心跳,则认为该节点不可用。
  • 控制命令由客户端提交

在这里插入图片描述

MapReduce 体系结构
  • 有一个单独运行在主节点上的JobTracker 和 运行在每个集群姐带你上的 TaskTracker共同组成
  • JobTracker 和 namenode不一定在同一台机器上
  • TaskTracker和 dataNode是一一对应的
  • 主节点负责调度一个作业的所有任务,这些人物分布在不同的从节点上;主节点监控他们的执行情况,柄重新执行之前是白的任务。从节点只负责由主节点指派的任务。
  • 当一个Job被提交后,JobTracker接收到提交作业和配置信息之后,将配置信息分发给从节点,同时调度任务并监控TaskTracker的执行
    在这里插入图片描述

推荐阅读
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • 事实|主子_深度长文探讨JOIN运算的简化和提速
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了深度长文探讨JOIN运算的简化和提速相关的知识,希望对你有一定的参考价值。连接运算(JOIN) ... [详细]
  • ftp和文件服务器,ftp和文件服务器的区别
    ftp和文件服务器的区别内容精选换一换obsftp工具于2021年2月9日正式下线,下线后OBS不再对此工具提供维护和客户支持服务,给您带来不便敬请谅解 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • Java和JavaScript是什么关系?java跟javaScript都是编程语言,只是java跟javaScript没有什么太大关系,一个是脚本语言(前端语言),一个是面向对象 ... [详细]
  • Centos下安装memcached+memcached教程
    本文介绍了在Centos下安装memcached和使用memcached的教程,详细解释了memcached的工作原理,包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时,还对memcached的快速和高效率进行了解释,与传统的文件型数据库相比,memcached作为一个内存型数据库,具有更高的读取速度。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 不会搭建大数据平台,我被老板优化了...
    不会,搭建,大数,据,平台,我 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • 毕设做到后半部分,需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能,这样数据仓库中的数据才能和数据库中的数据同步在新建了一个PyDev项目后,需要如下操作(拣最 ... [详细]
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
author-avatar
许祥生老师
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有