我试图使用pyspark解决以下问题.我在hdfs上有一个文件,格式是查找表的转储.
key1, value1 key2, value2 ...
我想将它加载到pyspark中的python字典中,并将其用于其他目的.所以我试着这样做:
table = {} def populateDict(line): (k,v) = line.split(",", 1) table[k] = v kvfile = sc.textFile("pathtofile") kvfile.foreach(populateDict)
我发现表变量没有被修改.那么,有没有办法在spark中创建一个大的内存哈希表?