热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop学习笔记(1)

1.HDFS架构:NameNode保存元数据信息,包括文件的owner,permission,block存储信息等。存储在内存。2.HDFS设计思想文件以块的形式存贮,即block,大小为64M,大于

1.HDFS架构:


NameNode保存元数据信息,包括文件的owner,permission,block存储信息等。存储在内存。


2.HDFS设计思想


文件以块的形式存贮,即block,大小为64M,大于64的文件分块,小于64则为1块。文件在上传的时候会产生副本,副本与原文件在不同的节点上,这样当一个节点挂掉后不至于丢失文件。节点挂掉后会在空闲节点生成损失的文件,保证副本不会少。(容错性)


写文件前需要先创建文件,NameNode先获得文件信息,再告诉DistributedFileSystem上传的文件需要分为多少个block。写文件时NameNode告诉FSDataOutputStream写在哪。DataNode通过心跳包告诉NameNode自己是否空闲。

客户端写入数据到DataNode,客户端不产生副本,副本由DataNode根据副本分配策略,将文件复制到其他DataNode。


MapReducehe


每一个分片(split)都有一个线程去执行,并发地。

MR执行分为split(分片),map,shuffling,reduce四个步骤。最后生成的part保存在HDFS中。整个过程把HDFS的原始数据经过处理再存放。

MR执行过程如图:


杂乱的数据线split分片,通过mapping(程序员实现)计算输出和合并排序(shuffling)再依次传给reduce线程计算。


map的结果储存在内存,然后将内存中的数据partition(分区,按照程序partition中写的规则或者默认的分区规则),并排序,易写到磁盘。这部分操作都是属于一个Map Task,即在一个节点上的。reduce如何解决数据倾斜问题?通过partition的分配策略


Hadoop1与Hadoop2区别:






HA:主/备模式的NameNode,避免了Hadoop1中NameNode单点故障问题。


Federation:相当于NameNode的集群,针对数据量巨大的公司。


yarn:Hadoop的统一一资源管理系统,Hadoop2.X新增,个人理解是为了解耦,增加的一层


ZK即Zookeeper:管理NameNode,通过信条连接监控NameNode的情况,active的NameNode挂掉后投票选举产生新的active NameNode。Zookeeper为基数个。


推荐阅读
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 深入理解Java虚拟机的并发编程与性能优化
    本文主要介绍了Java内存模型与线程的相关概念,探讨了并发编程在服务端应用中的重要性。同时,介绍了Java语言和虚拟机提供的工具,帮助开发人员处理并发方面的问题,提高程序的并发能力和性能优化。文章指出,充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类
    本文介绍了基于事件驱动的并发编程中的消息通信机制,包括同步和异步的概念及其区别,阻塞和非阻塞的状态,以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • 正则表达式及其范例
    为什么80%的码农都做不了架构师?一、前言部分控制台输入的字符串,编译成java字符串之后才送进内存,比如控制台打\, ... [详细]
  • 语义分割系列3SegNet(pytorch实现)
    SegNet手稿最早是在2015年12月投出,和FCN属于同时期作品。稍晚于FCN,既然属于后来者,又是与FCN同属于语义分割网络 ... [详细]
  • 原创 | 大数据入门基础系列之ClouderaManager版本的Hive安装部署
    添加服务,一 ... [详细]
author-avatar
mobiledu2502926703
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有