在星火编程指南中提到的切片作为RDDS的功能(包括并行收集或Hadoop的数据集.)("星火将运行一个任务,为集群中的每个片".)但在上RDD持续性的部分,使用分区的概念没有介绍.此外,RDD文档仅提及没有提及切片的分区,而SparkContext文档提到了用于创建RDD的切片,但提到了用于在RDD上运行作业的分区.这两个概念是一样的吗?如果没有,它们有何不同?
调优 - 并行级别表示"Spark根据其大小自动设置在每个文件上运行的"map"任务的数量...对于分布式"reduce"操作,例如groupByKey和reduceByKey,它使用最大的父RDD分区数.您可以将并行级别作为第二个参数传递...."那么这可以解释分区和切片之间的区别吗?分区与RDD存储有关,切片与并行度有关,默认情况下,接头是根据数据大小还是分区数计算的?
他们是一样的东西.由于Matthew Farrellee,已经为Spark 1.2修复了文档.错误中的更多细节:https://issues.apache.org/jira/browse/SPARK-1701