hadoop命令操作hdfs目录权限管理

作者：淡漠少_341 | 来源：互联网 | 2023-07-22 07:10

由于公司的大数据平台搭建的比较简陋，还要让之前根本没有接触过hadoop平台的开发算法人员使用，他们的错误操作经常给你带来意外的惊喜和感动的泪水

由于公司的大数据平台搭建的比较简陋&＃xff0c;还要让之前根本没有接触过 hadoop平台的开发算法人员使用&＃xff0c;他们的错误操作经常给你带来意外的惊喜和感动的泪水&＃xff0c;我心里有十万个 MMP。。。

所以刚开始就想干脆像初中小学那样写个班规似的使用规范吧&＃xff0c;但是规范的约束力是有限的&＃xff0c;需要大家相互信任&＃xff0c;但是总有人会错误操作的风险&＃xff0c;怎么办怎么办&＃xff0c;只能通过强制的方法解决这个局面。
好汉大部分都是被逼上梁山的&＃xff0c;平台的演进大多也是根据眼前出现的问题不断精益求精的。所以搭建权限管理势在必行。

先简单介绍一下思想&＃xff0c;其实有两种方式 &＃xff0c;
一种是配置 ugi 的xml &＃xff0c;
一种是直接在 linux 创建相应的用户和组 &＃xff0c;然后把 hdfs 的某一文件夹的操作权限赋予该用户和组&＃xff0c;
第一种侵入性小&＃xff0c;配置简单 &＃xff0c;第二种则简单粗暴好操作但如果有成百上千的hadoop操作用户则是一个不简单的力气活&＃xff0c;最好有一个脚本可以自动化操作这些。为了尽快见效&＃xff0c;我选择了第二种,而且还要搭配着与我们的hadoop 任务提交机器使用。

我们数据算法小组现在一共五个人 &＃xff0c;人少就给每个人设置了一个账号权限 &＃xff0c;还另外设置了一个 dev 及guests 的账号&＃xff0c;方便其他组和新加入的小伙伴临时使用
下面开始操作了
1.在 hadoop master 的节点创建这些账户 &＃xff0c;为了这些账户好管理&＃xff0c;也要创建一个组&＃xff0c;组可以先用户创建也可以在用户之后创建

useradd medev && echo da&＃64;opo#8N5 | passwd --stdin medev
echo “medev ALL&＃61;(ALL) NOPASSWD:ALL” >> /etc/sudoers
groupadd datadev
usermod -a -G datadev medev
这些命令需要在 root 用户下使用

2.登录到每个用户的shell 中&＃xff0c;然后把原来 java hadoop path 的环境变量粘贴复制到新创建的用户的 ~/.bashrc&＃xff0c;保存并退出&＃xff0c;然后
vi ~/.bashrc

export JAVA_HOME&＃61;/usr/local/java
export HADOOP_HOME&＃61;/usr/local/hadoop
export PATH&＃61; $P A T H :$ JAVA_HOME/bin: $HADOOP_HOME/bin:$ HADOOP_HOME/sbin
export SCALA_HOME&＃61;/usr/local/scala
export SQOOP_HOME&＃61;/usr/local/sqoop
export PATH&＃61;$SQOOP_HOME/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/usr/local/java/bin:/usr/local/hadoop/bin:/usr/local/hadoop/sbin:/usr/local/java/bin:/usr/local/hadoop/bin:/usr/local/hadoop/sbin:/root/bin:/usr/local/java/bin:/usr/local/hadoop/bin:/usr/local/hadoop/sbin:/usr/local/scala/bin

source ~/.bashrc
【注意&＃xff0c;第二步我们只给 dev 和guests 两个用户这样在 Master设置了&＃xff0c;其他个人账号没有设置 &＃xff0c;主要是防止这些同事无意登录到 Master 节点错误操作&＃xff0c;但是所有新创建的用户&＃xff0c;我们在任务提交机器都这样配置了】

3.使用hadoop fs -chown user:group /dirpath &＃xff0c;为 hdfs 上的用户分配目录操作权限&＃xff0c;大前提是这样的原来的日志流目录还是 hadoop 管理员 hadoop 和组 supergroup 的&＃xff0c;在 hdfs根目录下创建一个总的 /outputs目录&＃xff0c;dev 用户可以操控这个目录及子目录&＃xff0c;然后其他的个人账号&＃xff0c;只可以操控在 /outputs/下的各自的子目录集&＃xff0c;比如 muller 只可以操作
/outputs/mulleroutput&＃xff0c;整个 /outputs目录都属于该用户组

hadoop fs -chown -R medev:datadev /Outputs/devoutput

这个操作需要在 hadoop管理员的身份执行

然后可以在 Master 使用 hadoop fs -put -get -mkdir -rm -r 命令来测试&＃xff0c;果然都可以实现目录权限的管理,不属于你的只有查看和mapreduce的权限&＃xff0c;不能创建不能删除不能下载&＃xff0c; 只能在自己的目录下肆意妄为。
rm: Permission denied: user&＃61;meDev, access&＃61;WRITE, inode&＃61;"/":hadoop:supergroup:drwxr-xr-x
put: Permission denied: user&＃61;medev, access&＃61;WRITE, inode&＃61;"/xial":hadoop:supergroup:drwxr-xr-x

mkdir: Permission denied: user&＃61;medev, access&＃61;WRITE, inode&＃61;"/":hadoop:supergroup:drwxr-xr-x

get: /usr/local/hadoop/part-00000.deflate.COPYING (Permission denied)
5.然后在 hadoop 任务提交机器继续创建同名的用户和配置环境变量即可&＃xff0c;然后测试完全没有压力

但是我们还是太天真了 &＃xff0c;我们做好了 hdfs 目录权限管理&＃xff0c;却发现无法进行 mapreduce了 &＃xff0c;在运行 hadoop 自带的 wordcount &＃xff0c;也报权限不足&＃xff0c;细细的看&＃xff0c;发现问题的严重性&＃xff0c;独自的用户因为不属于 supergroup 组&＃xff0c;无法rwx hadoop的根目录的 /tmp目录&＃xff0c;此目录是放置 map 中间值得目录&＃xff0c;难道你忘记了吗&＃xff0c;hadoop 在进行 mapreduce时&＃xff0c;会把中间结果保存在硬盘上&＃xff0c;实际是hdfs的 /tmp目录中&＃xff0c;如果操作用户没有权限操作 /tmp也是无法进行mapReduce的&＃xff0c;
17/10/27 19:52:21 INFO client.RMProxy: Connecting to ResourceManager at hadoop-master/194.168.255.155:8032 org.apache.hadoop.security.AccessControlException: Permission denied: user&＃61;linkedmeGuests, access&＃61;EXECUTE, inode&＃61;"/tmp/hadoop-yarn":hadoop:supergroup:drwx------
所以要把 /tmp 目录的权限设置为 777&＃xff0c;单单 /tmp设置了还不可以&＃xff0c;还要把其子目录都要配置为777的权限&＃xff0c;切换到hadoop 管理员操作

hadoop fs -chmod -R 777 /tmp

然后再运行发现又失败了&＃xff0c;发现对output的目录没有操作权限&＃xff0c;
17/10/27 19:56:30 INFO mapreduce.Job: Job job_1508742787565_0140 running in uber mode : false
17/10/27 19:56:30 INFO mapreduce.Job: map 0% reduce 0%
17/10/27 19:56:30 INFO mapreduce.Job: Job job_1508742787565_0140 failed with state FAILED due to: Job setup failed : org.apache.hadoop.security.AccessControlException: Permission denied: user&＃61;meGuests, access&＃61;WRITE, inode&＃61;"/Outputs/DannyOutputs":Danny:datadev:drwxr-xr-x

这个当然了&＃xff0c;我们规定了每个账号用户的可以操作的output目录&＃xff0c;其他别人的目录都不允许操作&＃xff0c;所以只要把output 的目录设置成自己的output目录创建子目录才可以正常操作&＃xff0c;结果运行成功了

另外的重点 &＃xff01;&＃xff01;&＃xff01;
我们还要配置一下 hdfs 相关 output目录的存储大小上限&＃xff0c;这样方便管理&＃xff0c;不然有人的output太大&＃xff0c;都不晓得竟然会超过源日志大小&＃xff0c;这就尴尬了
》bin/hdfs dfs -put readme.txt /finance

》bin/hdfs dfs -du -s /finance
》3901 /finance

》bin/hdfs dfsadmin -setSpaceQuota 4000 /finance
设置/finance的大小上限为4000个字节

》bin/hdfs dfs -put readme1.txt /finance
由于已经超出4000个字节&＃xff0c;则会报错
》bin/hdfs dfsadmin -clrSpaceQuota /finance 将配额清除掉
》bin/hdfs dfs -put readme1.txt /finance 这次上传就不会错了~

[apache-nutch-1.2.rar 大约248M]
bin/hdfs fsck /finance/apache-nutch-1.2.rar
参考 http://www.cnblogs.com/i80386/p/3580107.html

这样把这些用户账号分配并告知使用者&＃xff0c;并告知禁止使用root 和管理者用户角色并不可使用他人账号 &＃xff0c;这样就可以愉快的进行 hdfs 的文件权限管理了&＃xff0c;

推荐阅读

default
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
default
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
rsa
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
default
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
spring
Apache Shiro 身份验证绕过漏洞 (CVE202011989) 详细解析及防范措施

本文详细解析了Apache Shiro 身份验证绕过漏洞 (CVE202011989) 的原理和影响，并提供了相应的防范措施。Apache Shiro 是一个强大且易用的Java安全框架，常用于执行身份验证、授权、密码和会话管理。在Apache Shiro 1.5.3之前的版本中，与Spring控制器一起使用时，存在特制请求可能导致身份验证绕过的漏洞。本文还介绍了该漏洞的具体细节，并给出了防范该漏洞的建议措施。 ... [详细]

蜡笔小新 2023-12-09 19:58:36
spring
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
spring
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
default
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29
default
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
default
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50
dll
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
default
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
default
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
char
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
char
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45

淡漠少_341

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章