热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr

一、 集群间数据拷贝


  1. scp实现两个远程主机之间的文件复制

    scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push
    scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull
    scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2.采用distcp命令实现两个Hadoop集群之间的递归数据复制

[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt

二、小文件存档


2.1、HDFS存储小文件弊端

每个文件均按块存储u,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件非常低效,因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块大小无关。

2.2、 解决方法之一

HDFS存档文件(har结尾的文件),是一个高效的文件存档工具,它将文件存入HDFS块,在减少NameNode对内存使用的同时,允许对为了将进行透明的访问。具体来说:HDFS存档文件对内还是一个一个独立的文件,对NameNode而言是一个整体,减少了NameNode的内存。

  1. 启动yarn进程

  2. 进行归档

    $ hadoop archive -archiveName zqq.har -p /user/zqq/ /user/zqq/output/

在这里插入图片描述

  1. 查看归档

    [hadoop100@hadoop102 hadoop-2.7.2]$ hdfs dfs -lsr /user/zqq/output/zqq.har
    lsr: DEPRECATED: Please use 'ls -R' instead.
    -rw-r--r-- 3 hadoop100 supergroup 0 2021-01-19 13:54 /user/zqq/output/zqq.har/_SUCCESS
    -rw-r--r-- 5 hadoop100 supergroup 376 2021-01-19 13:54 /user/zqq/output/zqq.har/_index
    -rw-r--r-- 5 hadoop100 supergroup 23 2021-01-19 13:54 /user/zqq/output/zqq.har/_masterindex
    -rw-r--r-- 3 hadoop100 supergroup 4797 2021-01-19 13:54 /user/zqq/output/zqq.har/part-0
    # 普通方式是查看不了的,要通过har协议
    [hadoop100@hadoop102 hadoop-2.7.2]$ hdfs dfs -ls -R har:///user/zqq/output/zqq.har
    -rw-r--r-- 3 hadoop100 supergroup 3699 2021-01-19 13:04 har:///user/zqq/output/zqq.har/edits.xml
    -rw-r--r-- 3 hadoop100 supergroup 1073 2021-01-19 13:04 har:///user/zqq/output/zqq.har/edits2.xml
    -rw-r--r-- 3 hadoop100 supergroup 8 2021-01-19 13:04 har:///user/zqq/output/zqq.har/hc.txt
    -rw-r--r-- 3 hadoop100 supergroup 17 2021-01-19 13:04 har:///user/zqq/output/zqq.har/zqq.txt

  2. 解归档文件

    $ hdfs dfs -cp har:///user/zqq/output/zqq.har/* /user/zqq/input

    在这里插入图片描述
    在这里插入图片描述


2.3、回收站


开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。


相关参数

1、默认值fs.trash.interval=0,0表示禁用回收站;其他值表示设置文件的存活时间。
2、默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。
3、要求fs.trash.checkpoint.interval<&#61;fs.trash.interval

  1. 启用回收站&#xff1a;修改core-site.xml&#xff0c;配置垃圾回收时间为1分钟。

  2. 修改访问垃圾回收站用户名:core-site.xml

    <property><name>hadoop.http.staticuser.username><value>hadoop100value>
    property>

  3. 删除一个文件&#xff0c;查看回收站

    [hadoop100&#64;hadoop103 hadoop]$ hdfs dfs -rm /user/zqq/zqq.txt
    21/01/19 18:24:38 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval &#61; 1 minutes, Emptier interval &#61; 0 minutes.
    Moved: &#39;hdfs://hadoop102:9000/user/zqq/zqq.txt&#39; to trash at: hdfs://hadoop102:9000/user/hadoop100/.Trash/Current

    在这里插入图片描述
    在这里插入图片描述

  4. 恢复回收站数据

    hadoop fs -mv /user/hadoop100/.Trash/Current/user/atguigu/input /user/hadoop100/input

  5. 清空回收站

    hadoop fs -expunge


三、快照管理


快照相当于对目录做一个备份。并不会立即复制所有文件&#xff0c;而是记录文件变化。


  1. 开启指定目录的快照功能

    hdfs dfsadmin -allowSnapshot 路径

  2. 禁用指定目录的快照功能&#xff0c;默认是禁用

    hdfs dfsadmin -disallowSnapshot 路径

  3. 对目录创建快照

    hdfs dfs -createSnapshot 路径

  4. 指定名称创建快照

    hdfs dfs -createSnapshot 路径 名称

  5. 重命名快照

    hdfs dfs -renameSnapshot 路径 旧名称 新名称

  6. 列出当前用户所有可快照目录

    hdfs lsSnapshottableDir

  7. 比较两个快照目录的不同之处

    hdfs snapshotDiff 路径1 路径2

  8. 删除快照

    hdfs dfs -deleteSnapshot <path> <snapshotName>


推荐阅读
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • r2dbc配置多数据源
    R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • [转载]从零开始学习OpenGL ES之四 – 光效
    继续我们的iPhoneOpenGLES之旅,我们将讨论光效。目前,我们没有加入任何光效。幸运的是,OpenGL在没有设置光效的情况下仍然可 ... [详细]
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • 本文讨论了如何在codeigniter中识别来自angularjs的请求,并提供了两种方法的代码示例。作者尝试了$this->input->is_ajax_request()和自定义函数is_ajax(),但都没有成功。最后,作者展示了一个ajax请求的示例代码。 ... [详细]
  • 突破MIUI14限制,自定义胶囊图标、大图标样式,支持任意APP
    本文介绍了如何突破MIUI14的限制,实现自定义胶囊图标和大图标样式,并支持任意APP。需要一定的动手能力和主题设计师账号权限或者会主题pojie。详细步骤包括应用包名获取、素材制作和封包获取等。 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
author-avatar
潇潇洒洒牛仔_584
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有