当前位置: 开发笔记 > 后端 > 正文

ApacheSpark独立模式:核心数量

作者：高远PASTOR | 来源：互联网 | 2023-05-25 11:59

如何解决《ApacheSpark独立模式:核心数量》经验，为你挑选了1个好方法。

我试图了解Spark内部的基础知识和用于在本地模式下提交应用程序的Spark文档说spark-submit --master:

local [K]使用K工作线程在本地运行Spark(理想情况下,将其设置为计算机上的核心数).

local [*]使用与计算机上的逻辑核心一样多的工作线程在本地运行Spark.

由于所有数据都存储在单个本地计算机上,因此不会受益于RDDs 上的分布式操作.

当Spark使用多个逻辑核心时,它如何受益以及内部正在发生什么？

1> David..：

系统将分配额外的线程来处理数据.尽管仅限于一台机器,它仍然可以利用现代服务器中可用的高度并行性.

如果你有一个合理大小的数据集,比如说有十几个分区,你可以测量使用local [1] vs local [n]所需的时间(其中n是你机器中的核心数).您还可以看到机器利用率的差异.如果您只有一个核心指定使用,它将只使用100%的一个核心(加上一些额外的垃圾收集).如果你有4个核心,并指定local [4],它将使用400%的核心(4个核心).并且可以显着缩短执行时间(尽管通常不会缩短4倍).

两条评论.首先,对于流式传输,您必须为每个输入源分配一个专用线程,并且至少有一个用于主处理,因此如果您正在收听一个套接字,则至少需要"本地[2]".其次,如果开销超过收益,有时单个线程将比多线程更快.

推荐阅读

分布式
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
分布式
初学者遇到的dubbo设计架构问题及解决方法总结

本文总结了初学者在使用dubbo设计架构过程中遇到的问题，并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题，初学者能够更好地理解和应用dubbo设计架构。 ... [详细]

蜡笔小新 2023-12-09 10:07:18
分布式
ejava,刘聪dejava

本文目录一览：1、什么是Java？2、java ... [详细]

蜡笔小新 2023-12-09 09:28:18
分布式
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
分布式
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
分布式
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
多线程
基于Socket的多个客户端之间的聊天功能实现方法

本文介绍了基于Socket的多个客户端之间实现聊天功能的方法，包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息，而客户端通过输入流接收消息。同时，还介绍了相关的实体类和Socket的基本概念。 ... [详细]

蜡笔小新 2023-12-11 15:55:40
分布式
云原生应用最佳开发实践之十二原则（12factor）

目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]

蜡笔小新 2023-12-09 09:35:02
分布式
Spark Streaming和Kafka整合之路（最新版本）

2019独角兽企业重金招聘Python工程师标准最近完成了SparkStreaming和Kafka的整合工作，耗时虽然不长，但是当中还是遇到了不少 ... [详细]

蜡笔小新 2023-10-16 17:29:47
分布式
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
分布式
Spark：【error】远程调试 root:supergroup:drwxrxrx

Exceptioninthreadmainorg.apache.hadoop.security.AccessControlException:Permissiondenied: ... [详细]

蜡笔小新 2023-10-16 14:00:28
分布式
spark任务已经执行结束，但还显示RUNNING状态

spark的任务已经执行完成：scalavallinesc.textFile(hdfs:vm122:9000dblp.rdf)line:org.apache ... [详细]

蜡笔小新 2023-10-16 12:18:00
分布式
基于 Docker 快速部署多需求 Spark 自动化测试环境

基于,docker,快速,部署,多,需求,spark ... [详细]

蜡笔小新 2023-10-16 11:58:06
ci
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15
ci
ReadDataFromCheckpoint

packagecom.bjsxt.spark.others;importorg.apache.spark.SparkConf;importorg.apache.spark.api. ... [详细]

蜡笔小新 2023-10-15 12:29:43

高远PASTOR

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章