问

在pyspark中创建一个大字典

love灬贪恋猫发布于 2023-01-06 19:07

我试图使用pyspark解决以下问题.我在hdfs上有一个文件,格式是查找表的转储.

key1, value1
key2, value2
...

我想将它加载到pyspark中的python字典中,并将其用于其他目的.所以我试着这样做:

table = {}
def populateDict(line):
    (k,v) = line.split(",", 1)
    table[k] = v

kvfile = sc.textFile("pathtofile")
kvfile.foreach(populateDict)

我发现表变量没有被修改.那么,有没有办法在spark中创建一个大的内存哈希表？

撰写答案

今天，你开发时遇到什么问题呢？

热门标签