当前位置: 开发笔记 > 数据库 > 正文

Python利用多进程将大量数据放入有限内存的教程

作者：血色的蓮花 | 来源：互联网 | 2018-05-05 09:09

这篇文章主要介绍了Python利用多进程将大量数据放入有限内存的教程,使用了multiprocessing和pandas来加速内存中的操作，需要的朋友可以参考下

简介

这是一篇有关如何将大量的数据放入有限的内存中的简略教程。

与客户工作时，有时会发现他们的数据库实际上只是一个csv或Excel文件仓库，你只能将就着用，经常需要在不更新他们的数据仓库的情况下完成工作。大部分情况下，如果将这些文件存储在一个简单的数据库框架中或许更好，但时间可能不允许。这种方法对时间、机器硬件和所处环境都有要求。

下面介绍一个很好的例子：假设有一堆表格（没有使用Neo4j、MongoDB或其他类型的数据库，仅仅使用csvs、tsvs等格式存储的表格），如果将所有表格组合在一起，得到的数据帧太大，无法放入内存。所以第一个想法是：将其拆分成不同的部分，逐个存储。这个方案看起来不错，但处理起来很慢。除非我们使用多核处理器。
目标

这里的目标是从所有职位中（大约1万个），找出相关的的职位。将这些职位与政府给的职位代码组合起来。接着将组合的结果与对应的州（行政单位）信息组合起来。然后用通过word2vec生成的属性信息在我们的客户的管道中增强已有的属性。

这个任务要求在短时间内完成，谁也不愿意等待。想象一下，这就像在不使用标准的关系型数据库的情况下进行多个表的连接。
数据

201541105411439.jpg (1274×406)

示例脚本

下面的是一个示例脚本，展示了如何使用multiprocessing来在有限的内存空间中加速操作过程。脚本的第一部分是和特定任务相关的，可以自由跳过。请着重关注第二部分，这里侧重的是multiprocessing引擎。

#import the necessary packages
import pandas as pd
import us
import numpy as np
from multiprocessing import Pool,cpu_count,Queue,Manager
 
# the data in one particular column was number in the form that horrible excel version
# of a number where '12000' is '12,000' with that beautiful useless comma in there.
# did I mention I excel bothers me&＃63;
# instead of converting the number right away, we only convert them when we need to
def median_maker(column):
  return np.median([int(x.replace(',','')) for x in column])
 
# dictionary_of_dataframes contains a dataframe with information for each title; e.g title is 'Data Scientist'
# related_title_score_df is the dataframe of information for the title; columns = ['title','score']
### where title is a similar_title and score is how closely the two are related, e.g. 'Data Analyst', 0.871
# code_title_df contains columns ['code','title']
# oes_data_df is a HUGE dataframe with all of the Bureau of Labor Statistics(BLS) data for a given time period (YAY FREE DATA, BOO BAD CENSUS DATA!)
 
def job_title_location_matcher(title,location):
  try:
    related_title_score_df = dictionary_of_dataframes[title]
    # we limit dataframe1 to only those related_titles that are above
    # a previously established threshold
    related_title_score_df = related_title_score_df[title_score_df['score']>80]
 
    #we merge the related titles with another table and its codes
    codes_relTitles_scores = pd.merge(code_title_df,related_title_score_df)
    codes_relTitles_scores = codes_relTitles_scores.drop_duplicates()
 
    # merge the two dataframes by the codes
    merged_df = pd.merge(codes_relTitles_scores, oes_data_df)
    #limit the BLS data to the state we want
    all_merged = merged_df[merged_df['area_title']==str(us.states.lookup(location).name)]
 
    #calculate some summary statistics for the time we want
    group_med_emp,group_mean,group_pct10,group_pct25,group_median,group_pct75,group_pct90 = all_merged[['tot_emp','a_mean','a_pct10','a_pct25','a_median','a_pct75','a_pct90']].apply(median_maker)
    row = [title,location,group_med_emp,group_mean,group_pct10,group_pct25, group_median, group_pct75, group_pct90]
    #convert it all to strings so we can combine them all when writing to file
    row_string = [str(x) for x in row]
    return row_string
  except:
    # if it doesnt work for a particular title/state just throw it out, there are enough to make this insignificant
    'do nothing'

这里发生了神奇的事情：

#runs the function and puts the answers in the queue
def worker(row, q):
    ans = job_title_location_matcher(row[0],row[1])
    q.put(ans)
 
# this writes to the file while there are still things that could be in the queue
# this allows for multiple processes to write to the same file without blocking eachother
def listener(q):
  f = open(filename,'wb')
  while 1:
    m = q.get()
    if m =='kill':
        break
    f.write(','.join(m) + 'n')
    f.flush()
  f.close()
 
def main():
  #load all your data, then throw out all unnecessary tables/columns
  filename = 'skill_TEST_POOL.txt'
 
  #sets up the necessary multiprocessing tasks
  manager = Manager()
  q = manager.Queue()
  pool = Pool(cpu_count() + 2)
  watcher = pool.map_async(listener,(q,))
 
  jobs = []
  #titles_states is a dataframe of millions of job titles and states they were found in
  for i in titles_states.iloc:
    job = pool.map_async(worker, (i, q))
    jobs.append(job)
 
  for job in jobs:
    job.get()
  q.put('kill')
  pool.close()
  pool.join()
 
if __name__ == "__main__":
  main()

由于每个数据帧的大小都不同（总共约有100Gb），所以将所有数据都放入内存是不可能的。通过将最终的数据帧逐行写入内存，但从来不在内存中存储完整的数据帧。我们可以完成所有的计算和组合任务。这里的“标准方法”是，我们可以仅仅在“job_title_location_matcher”的末尾编写一个“write_line”方法，但这样每次只会处理一个实例。根据我们需要处理的职位/州的数量，这大概需要2天的时间。而通过multiprocessing，只需2个小时。

虽然读者可能接触不到本教程处理的任务环境，但通过multiprocessing，可以突破许多计算机硬件的限制。本例的工作环境是c3.8xl ubuntu ec2，硬件为32核60Gb内存（虽然这个内存很大，但还是无法一次性放入所有数据）。这里的关键之处是我们在60Gb的内存的机器上有效的处理了约100Gb的数据，同时速度提升了约25倍。通过multiprocessing在多核机器上自动处理大规模的进程，可以有效提高机器的利用率。也许有些读者已经知道了这个方法，但对于其他人，可以通过multiprocessing能带来非常大的收益。顺便说一句，这部分是skill assets in the job-market这篇博文的延续。

推荐阅读

ubuntu
linux查看目录权限命令,linux修改文件目录权限

Linuxchmod目录权限命令图文详解在Linux文件系统模型中，每个文件都有一组9个权限位用来控制谁能够读写和执行该文件的内容。对于目录来说，执行位的作用是控制能否进入或者通过 ... [详细]

蜡笔小新 2023-12-14 19:06:22
ubuntu
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
ubuntu
如何基于ggplot2构建相关系数矩阵热图以及一个友情故事

本文介绍了如何在rstudio中安装ggplot2，并使用ggplot2构建相关系数矩阵热图。同时，通过一个友情故事，讲述了真爱难觅的故事背后的数据量化和皮尔逊相关系数的概念。故事中的小伙伴们在本科时参加各种考试，其中有些沉迷网络游戏，有些热爱体育，通过他们的故事，展示了不同兴趣和特长对学习和成绩的影响。 ... [详细]

蜡笔小新 2023-12-14 10:47:00
join
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
join
ubuntu出现source:not found

可能原因是需要dash执行输入:sudodpkg-reconfiguredash并在出现的界面选择no或 ... [详细]

蜡笔小新 2023-12-13 17:44:46
join
Webmin远程命令执行漏洞复现及防护方法

本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法，同时提供了防护方法。漏洞存在于Webmin的找回密码页面中，攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外，还指出了参考链接中的数据包不准确的问题，并解释了漏洞触发的条件。最后，给出了防护方法以避免受到该漏洞的攻击。 ... [详细]

蜡笔小新 2023-12-13 16:14:53
join
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
join
Ubuntu 9.04中安装谷歌Chromium浏览器及使用体验[图文]

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-12-13 13:30:30
join
imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解

本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台，然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程，包括编译内核和配置设备驱动。最后，列举了关键词和相关信息供读者参考。 ... [详细]

蜡笔小新 2023-12-13 12:34:44
join
PHPMailer邮件类邮件发送功能的使用教学及注意事项

本文介绍了使用国外开源码PHPMailer邮件类实现邮件发送功能的简单教学，同时提供了一些注意事项。文章涵盖了字符集设置、发送HTML格式邮件、群发邮件以及避免类的重定义等方面的内容。此外，还提供了一些与PHP相关的资源和服务，如传奇手游游戏源码下载、vscode字体调整、数据恢复、Ubuntu实验环境搭建、北京爬虫市场、进阶PHP和SEO人员需注意的内容。 ... [详细]

蜡笔小新 2023-12-13 11:56:08
join
成功安装Sabayon Linux在thinkpad X60上的经验分享

本文分享了作者在国庆期间在thinkpad X60上成功安装Sabayon Linux的经验。通过修改CHOST和执行emerge命令，作者顺利完成了安装过程。Sabayon Linux是一个基于Gentoo Linux的发行版，可以将电脑快速转变为一个功能强大的系统。除了作为一个live DVD使用外，Sabayon Linux还可以被安装在硬盘上，方便用户使用。 ... [详细]

蜡笔小新 2023-12-13 11:35:40
join
Ubuntu安装常用软件详细步骤

目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]

蜡笔小新 2023-12-12 21:26:41
sql
FileNotFoundException: File does not exist

ubuntu用sqoop将数据从hive导入mysql时，命令： ... [详细]

蜡笔小新 2023-12-12 18:56:13
sql
Docker容器技术中限制容器对CPU的使用方法

本文介绍了在Docker容器技术中限制容器对CPU的使用的方法，包括使用-c参数设置容器的内存限额，以及通过设置工作线程数量来充分利用CPU资源。同时，还介绍了容器权重分配的情况，以及如何通过top命令查看容器在CPU资源紧张情况下的使用情况。 ... [详细]

蜡笔小新 2023-12-12 18:31:07
sql
Linux简单问题chown为何不起作用？

本文讨论了在Linux系统中，使用chown命令将django项目目录下的static目录的拥有者从root改为eureka的问题。作者尝试了多种命令，包括chown和sudo chown等，但都没有成功修改拥有者。文章提供了相关目录的权限信息，并补充了项目所在磁盘和操作系统的信息。 ... [详细]

蜡笔小新 2023-12-12 14:02:12

血色的蓮花

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章