RDD分区和切片之间有什么区别?

 金婉jessica氵_573 发布于 2023-01-17 11:12

在星火编程指南中提到的切片作为RDDS的功能(包括并行收集或Hadoop的数据集.)("星火将运行一个任务,为集群中的每个片".)但在上RDD持续性的部分,使用分区的概念没有介绍.此外,RDD文档仅提及没有提及切片的分区,而SparkContext文档提到了用于创建RDD的切片,但提到了用于在RDD上运行作业的分区.这两个概念是一样的吗?如果没有,它们有何不同?

调优 - 并行级别表示"Spark根据其大小自动设置在每个文件上运行的"map"任务的数量...对于分布式"reduce"操作,例如groupByKey和reduceByKey,它使用最大的父RDD分区数.您可以将并行级别作为第二个参数传递...."那么这可以解释分区和切片之间的区别吗?分区与RDD存储有关,切片与并行度有关,默认情况下,接头是根据数据大小还是分区数计算的?

1 个回答
  • 他们是一样的东西.由于Matthew Farrellee,已经为Spark 1.2修复了文档.错误中的更多细节:https://issues.apache.org/jira/browse/SPARK-1701

    2023-01-17 11:13 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有