热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ApacheHadoopYarn与Kubernetes

如何解决《ApacheHadoopYarn与Kubernetes》经验,为你挑选了2个好方法。

Kubernetes几乎是从一个干净的平台开发出来的,用于将Docker容器内核扩展为平台。Kubernetes开发已经采取了自下而上的方法。它在指定每个容器/容器的资源要求方面有很好的优化,但是它缺乏有效的全局调度程序,无法将资源划分为逻辑分组。Kubernetes设计允许​​在集群中运行多个调度程序。每个调度程序都在其自己的Pod中管理资源。但是,当应用程序需要的资源比物理系统可以处理的资源更多时,Kubernetes群集可能会遭受不稳定的困扰。它在超出应用程序需求的基础架构容量方面表现最佳。Kubernetes调度程序将尝试使用传入的应用程序请求填充空闲节点,并终止低优先级和饥饿容器以提高资源利用率。Kubernetes容器可以与S3之类的外部存储系统集成,以提供数据弹性。Kubernetes框架使用etcd存储集群数据。Etcd集群节点和Hadoop Namenode都是Kubernetes或Hadoop平台中的单点故障。Etcd可以比Namenode具有更多的副本,因此,从可靠性的角度看,从理论上讲,它似乎更倾向于Kubernetes。但是,除非使用细粒度角色绑定定义RBAC,否则Kubernetes的安全性默认为开放状态。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。Etcd集群节点和Hadoop Namenode都是Kubernetes或Hadoop平台中的单点故障。Etcd可以比Namenode具有更多的副本,因此,从可靠性的角度看,从理论上讲,它似乎更倾向于Kubernetes。但是,除非使用细粒度角色绑定定义RBAC,否则Kubernetes的安全性默认为开放状态。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。Etcd集群节点和Hadoop Namenode都是Kubernetes或Hadoop平台中的单点故障。Etcd可以比Namenode具有更多的副本,因此,从可靠性的角度看,从理论上讲,它似乎更倾向于Kubernetes。但是,除非使用细粒度角色绑定定义RBAC,否则Kubernetes的安全性默认为开放状态。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。

Apache Hadoop YARN开发为运行隔离的Java流程来处理大数据工作负载,然后进行了改进以支持Docker容器。YARN提供全局级别的资源管理(如容量队列),用于将物理资源划分为逻辑单元。可以为每个业务部门分配集群资源的百分比。容量资源共享系统旨在支持企业优先级的保证资源可用性,而不是压缩每个可用的物理资源。YARN在安全性上得分更高。Kerberos中有更多安全性功能,特权/非特权容器的访问控制,受信任的Docker映像以及放置策略约束。大多数与Docker相关的安全性默认情况下都关闭,并且系统管理员需要手动打开标志以向容器授予更多权限。大型企业往往比kubernetes运行Hadoop更多,因为保护系统成本更低。在YARN之上构建了更多的分布式SQL引擎,包括Hive,Impala,SparkSQL和IBM BigSQL。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。在YARN之上构建了更多的分布式SQL引擎,包括Hive,Impala,SparkSQL和IBM BigSQL。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。在YARN之上构建了更多的分布式SQL引擎,包括Hive,Impala,SparkSQL和IBM BigSQL。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。

如果您计划将IT运营外包给公共云,请选择Kubernetes。如果您打算构建私有/混合/多云,请选择Apache YARN。



1> 小智..:

Kubernetes几乎是从一个干净的平台开发出来的,用于将Docker容器内核扩展为平台。Kubernetes开发已经采取了自下而上的方法。它在指定每个容器/容器的资源要求方面有很好的优化,但是它缺乏有效的全局调度程序,无法将资源划分为逻辑分组。Kubernetes设计允许​​在集群中运行多个调度程序。每个调度程序都在其自己的Pod中管理资源。但是,当应用程序需要的资源比物理系统可以处理的资源更多时,Kubernetes群集可能会遭受不稳定的困扰。它在超出应用程序需求的基础架构容量方面表现最佳。Kubernetes调度程序将尝试使用传入的应用程序请求填充空闲节点,并终止低优先级和饥饿容器以提高资源利用率。Kubernetes容器可以与S3之类的外部存储系统集成,以提供数据弹性。Kubernetes框架使用etcd存储集群数据。Etcd集群节点和Hadoop Namenode都是Kubernetes或Hadoop平台中的单点故障。Etcd可以比Namenode具有更多的副本,因此,从可靠性的角度看,从理论上讲,它似乎更倾向于Kubernetes。但是,除非使用细粒度角色绑定定义RBAC,否则Kubernetes的安全性默认为开放状态。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。Etcd集群节点和Hadoop Namenode都是Kubernetes或Hadoop平台中的单点故障。Etcd可以比Namenode具有更多的副本,因此,从可靠性的角度看,从理论上讲,它似乎更倾向于Kubernetes。但是,除非使用细粒度角色绑定定义RBAC,否则Kubernetes的安全性默认为开放状态。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。Etcd集群节点和Hadoop Namenode都是Kubernetes或Hadoop平台中的单点故障。Etcd可以比Namenode具有更多的副本,因此,从可靠性的角度看,从理论上讲,它似乎更倾向于Kubernetes。但是,除非使用细粒度角色绑定定义RBAC,否则Kubernetes的安全性默认为开放状态。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。为Pod正确设置了安全上下文。如果省略,则pod的主要组将默认为root,这对于试图保护基础结构的系统管理员可能会造成问题。

Apache Hadoop YARN开发为运行隔离的Java流程来处理大数据工作负载,然后进行了改进以支持Docker容器。YARN提供全局级别的资源管理(如容量队列),用于将物理资源划分为逻辑单元。可以为每个业务部门分配集群资源的百分比。容量资源共享系统旨在支持企业优先级的保证资源可用性,而不是压缩每个可用的物理资源。YARN在安全性上得分更高。Kerberos中有更多安全性功能,特权/非特权容器的访问控制,受信任的Docker映像以及放置策略约束。大多数与Docker相关的安全性默认情况下都关闭,并且系统管理员需要手动打开标志以向容器授予更多权限。大型企业往往比kubernetes运行Hadoop更多,因为保护系统成本更低。在YARN之上构建了更多的分布式SQL引擎,包括Hive,Impala,SparkSQL和IBM BigSQL。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。在YARN之上构建了更多的分布式SQL引擎,包括Hive,Impala,SparkSQL和IBM BigSQL。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。在YARN之上构建了更多的分布式SQL引擎,包括Hive,Impala,SparkSQL和IBM BigSQL。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。数据库选项使YARN成为吸引人的选项,因为能够在容器中运行在线事务处理,以及使用批处理工作负载进行在线分析处理。Hadoop Developer工具链可能不堪重负。Mapreduce,Hive,Pig,Spark等都有各自的发展风格。用户体验不一致,需要花费一些时间来学习它们。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。相比之下,Kubernetes的阻塞感较小,因为它仅部署Docker容器。通过引入YARN服务来运行Docker容器工作负载,YARN的感觉比Kubernetes少了。

如果您计划将IT运营外包给公共云,请选择Kubernetes。如果您打算构建私有/混合/多云,请选择Apache YARN。



2> mdaniel..:

尽管此问题和答案与您的要求不完全相同,但确实有很多相同之处。

最后我看到,Yarn只是一种资源共享机制,而Kubernetes是一个完整的平台,包含ConfigMaps,声明性环境管理,秘密管理,Volume Mounts,一种设计精良的API,用于与所有这些东西进行交互,基于角色的访问控制, Kubernetes被广泛使用,这意味着人们可以很容易地找到要招聘的候选人和要购买的工具。

一个博客帖子,我发现引用了硕士论文,描述了世界的不同调度的视图之间的迷人的权衡。这个词很多,因此,如果您正在寻找tl; dr的答案,则可能不是该链接,但是,如果您正在寻找有关该主题的实际研究,则听起来不错。


我觉得这个答案是从Kubernetes的角度出发的。docker的Yarn也可以做卷挂载,服务配置,环境管理和其他配置。加有合理的API https://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/yarn-service/YarnServiceAPI.html
推荐阅读
  • 11月26日,由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,CSDN承办的Hadoop与大数据技术大会(Hadoop&BigDataTechnology ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • STL迭代器的种类及其功能介绍
    本文介绍了标准模板库(STL)定义的五种迭代器的种类和功能。通过图表展示了这几种迭代器之间的关系,并详细描述了各个迭代器的功能和使用方法。其中,输入迭代器用于从容器中读取元素,输出迭代器用于向容器中写入元素,正向迭代器是输入迭代器和输出迭代器的组合。本文的目的是帮助读者更好地理解STL迭代器的使用方法和特点。 ... [详细]
  • 本文整理了Java中org.apache.hadoop.hive.ql.plan.ExprNodeColumnDesc.getTypeInfo()方法的一些代码示例,展 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • CentOS 7配置SSH远程访问及控制
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析
    Hdfs的数据模型在对读写流程进行分析之前,我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示,在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]
  • 对于开源的东东,尤其是刚出来不久,我认为最好的学习方式就是能够看源代码和doc,測试它的样例为了方便查看源代码,关联导入源代 ... [详细]
author-avatar
鲁有军_644
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有