Python读大数据txt

作者：无情的有情人家_834 | 来源：互联网 | 2018-07-17 20:10

本文通过2个例子给大家介绍了如何使用python实现读取大文件txt的方法，有需要的小伙伴可以参考下

如果直接对大文件对象调用 read() 方法，会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。

在用Python读一个两个多G的txt文本时，天真的直接用readlines方法，结果一运行内存就崩了。

还好同事点拨了下，用yield方法，测试了下果然毫无压力。咎其原因，原来是readlines是把文本内容全部放于内存中，而yield则是类似于生成器。

代码如下：

def open_txt(file_name):
  with open(file_name,'r+') as f:
    while True:
      line = f.readline()
      if not line:
        return
      yield line.strip()

调用实例：

for text in open_txt('aa.txt'):
  print text

例二：

目标 txt 文件大概有6G，想取出前面1000条数据保存于一个新的 txt 文件中做余下的操作，虽然不知道这样做有没有必要但还是先小数据量测试一下吧。参考这个帖子：我想把一个list列表保存到一个Txt文档，该怎么保存，自己写了一个简单的小程序。
====================================================

import datetime
import pickle

start = datetime.datetime.now()
print "start--%s" % (start)

fileHandle = open ( 'train.txt' )
file2 = open('s_train.txt','w') 

i = 1
while ( i <10000 ):
  a = fileHandle.readline()
  file2.write(''.join(a)) 
  i = i + 1

fileHandle.close() 
file2.close()

print "done--%s" % ( datetime.datetime.now() - start)

if __name__ == '__main__':
  pass

====================================================
pickle 这个库大家说的很多，官网看看，后面可以好好学习一下。

推荐阅读

小程序
小学编程普及的必要性及其对学生的要求

本文讨论了小学编程普及的必要性，以及学生在学习编程过程中所需具备的数学能力和综合能力。通过采访获奖的牛娃发现，学习编程需要耐得住寂寞，并且需要花费大量的时间和精力。 ... [详细]

蜡笔小新 2023-12-12 08:36:44
小程序
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03
md5
微信小程序订阅消息对接详细记录

起因由于我录制过一个小程序的课程，里面有消息模板的讲解。最近有几位同学反馈官方要取消消息模板，使用订阅消息。为了方便大家容易学 PythonFlask构建微信小程序订餐系统课程。 ... [详细]

蜡笔小新 2023-10-17 17:27:38
md5
小程序获取用户信息按钮返回中文地址

1.我是根据官方文档中描述去写的按钮可以看到button中加了zh_CNopen-typegetUserInfobindgetuserinfogetU ... [详细]

蜡笔小新 2023-12-12 02:53:11
io
MySQL语句大全：创建、授权、查询、修改等【MySQL】的使用方法详解

本文详细介绍了MySQL语句的使用方法，包括创建用户、授权、查询、修改等操作。通过连接MySQL数据库，可以使用命令创建用户，并指定该用户在哪个主机上可以登录。同时，还可以设置用户的登录密码。通过本文，您可以全面了解MySQL语句的使用方法。 ... [详细]

蜡笔小新 2023-12-11 15:34:14
io
小程序商城如何引进流量的优化策略与方法

本文介绍了小程序商城引进流量的优化策略与方法。首先，通过附近小程序功能可以增加周围门店的方位并展示，吸引附近用户。其次，利用微信群聊功能，将小程序分享到多个微信群聊中，扩大影响力。最后，通过设置一些固定的活动机制，打造仪式感来吸引用户。这些方法能够有效提升小程序商城的流量，增加用户数量。 ... [详细]

蜡笔小新 2023-12-11 15:04:32
java
小程序wxs中的时间格式化以及格式化时间和date时间互转

本文介绍了在小程序wxs中进行时间格式化操作的问题，并提供了解决方法。同时还介绍了格式化时间和date时间的互相转换的方法。 ... [详细]

蜡笔小新 2023-12-11 12:21:25
java
微信答题小程序的设计与实现详解

本文详细介绍了如何设计和实现一个微信答题小程序，包括题库的设计和题目的呈现。通过抽取题目编号和使用全局变量记录当前题目的信息，实现了题目的刷新和显示。同时，还介绍了题目的展示方式和容器的创建。本文适合零基础的小白学习微信答题小程序的开发。 ... [详细]

蜡笔小新 2023-12-10 10:34:34
io
微信小程序导航跟随的实现方法

本文介绍了在微信小程序中实现导航跟随的方法。通过设置导航的position属性和绑定滚动事件，可以实现页面向下滚动到导航位置时，导航固定在页面最上方；页面向上滚动到导航位置时，导航恢复到原始位置；点击导航可以平滑跳转到相应位置。代码示例也给出了具体实现方法。 ... [详细]

蜡笔小新 2023-12-09 19:38:28
io
微信民众号商城/小顺序商城开源项目介绍及使用教程

本文介绍了一个基于WeiPHP5.0开发的微信民众号商城/小顺序商城的开源项目，包括前端和后端的目录结构，以及所使用的技术栈。同时提供了项目的运行和打包方法，并分享了一些调试和开发经验。最后还附上了在线预览和GitHub商城源码的链接，以及加入前端交流QQ群的方式。 ... [详细]

蜡笔小新 2023-12-09 08:45:47
io
android 触屏处理流程,android触摸事件处理流程 ? FOOKWOOD「建议收藏」

android触屏处理流程,android触摸事件处理流程?FOOKWOOD「建议收藏」最近在工作中，经常需要处理触摸事件，但是有时候会出现一些奇怪的bug，比如有时候会检测不到A ... [详细]

蜡笔小新 2023-10-17 18:55:48
java
java程序设计试题_《Java语言程序设计》期末考试模拟试题——填空题和编程题...

一、根据题意，填写出空格中的内容Java平台包括三个技术方向，其中J2ME代表____________、J2SE代表___________、J2EE代表 ... [详细]

蜡笔小新 2023-10-17 18:52:44
java
【轻松同传】有TA，走遍全球都不怕！

从小在农村长大的娃，真是伤不起啊，在国内混混还行，一到国外，那是吃饭都成问题啊，最最主要的是因为语言不通啊~~ ... [详细]

蜡笔小新 2023-10-17 18:38:47
java
14亿人的大项目，腾讯云数据库拿下！

全国人 ... [详细]

蜡笔小新 2023-10-17 17:56:19
io
使用flex弹性布局来为微信小程序写自适应页面

我们知道，写习惯了前端的人，一般切图后布局页面的话，上手最习惯的是基于盒子模型的浮动布局，依赖display属性positi ... [详细]

蜡笔小新 2023-10-17 17:06:23

无情的有情人家_834

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章