你如何判断sys.stdin.readline()是否会阻止？

作者：迷失港湾的豪 | 来源：互联网 | 2022-12-01 19:42

如何解决《你如何判断sys.stdin.readline()是否会阻止？》经验，有好办法吗？

如何判断对sys.stdin.readline()(或者更常见的是基于任何基于文件描述符的文件对象的readline())的调用是否会阻塞？

当我在python中编写基于行的文本过滤程序时,会出现这种情况.也就是说,程序重复从输入中读取一行文本,可能会对其进行转换,然后将其写入输出.

我想实现一个合理的输出缓冲策略.我的标准是:

在批量处理数百万行时应该是有效的 - 主要是缓冲输出,偶尔刷新.

在保持缓冲输出时,它永远不应阻塞输入.

因此,无缓冲输出是不好的,因为它违反了(1)(对操作系统的写入太多).并且线路缓冲输出并不好,因为它仍然违反(1)(在批量的每一百万行上将输出刷新到OS是没有意义的).并且默认缓冲输出不好,因为它违反了(2)(如果输出到文件或管道,它将不适当地保留输出).

在大多数情况下,我认为一个好的解决方案是:"刷新sys.stdout(其缓冲区已满或)sys.stdin.readline()即将阻塞".可以实施吗？

(注意,我并不认为这种策略对于所有情况都是完美的.例如,在程序受cpu约束的情况下,它可能不理想;在这种情况下,更频繁地冲洗可能是明智的,以避免在保留输出的同时进行长时间的计算.)

对于确定性,假设我在python中实现了unix的"cat -n"程序.

(实际上"cat -n"比一次一行更聪明;也就是说,它知道如何在读取整行之前读取和写入部分行;但是,对于这个例子,我要去无论如何,一次一行地实施它.)

行缓冲实现

(表现良好,但违反了标准(1),即因为冲洗太多而无法缓慢):

#!/usr/bin/python
# cat-n.linebuffered.py
import sys
num_lines_read = 0
while True:
  line = sys.stdin.readline()
  if line == '': break
  num_lines_read += 1
  print("%d: %s" % (num_lines_read, line))
  sys.stdout.flush()

默认缓冲实现

(快速但违反标准(2),即不友好的输出预扣)

#!/usr/bin/python
# cat-n.defaultbuffered.py
import sys
num_lines_read = 0
while True:
  line = sys.stdin.readline()
  if line == '': break
  num_lines_read += 1
  print("%d: %s" % (num_lines_read, line))

期望的实施:

#!/usr/bin/python
num_lines_read = 0
while True:
  if sys_stdin_readline_is_about_to_block():  # <--- How do I implement this??
    sys.stdout.flush()
  line = sys.stdin.readline()
  if line == '': break
  num_lines_read += 1
  print("%d: %s" % (num_lines_read, line))

所以问题是:是否可以实施sys_stdin_readline_is_about_to_block()？

我想要一个适用于python2和python3的答案.我已经研究了以下每种技术,但到目前为止还没有任何进展.

用于select([sys.stdin],[],[],0)确定从sys.stdin读取是否会阻止.(当sys.stdin是一个缓冲的文件对象时,这不起作用,至少有一个原因可能有两个原因:(1)如果部分行准备从底层输入管道读取,它将错误地说"不会阻塞", (2)如果sys.stdin的缓冲区包含一个完整的输入行,但是底层管道还没有准备好进行额外的读取,它会错误地说"将阻塞"...我认为).

非阻塞io,使用os.fdopen(sys.stdin.fileno(), 'r')和fcntlwith O_NONBLOCK (我无法在任何python版本中使用readline():在python2.7中,只要部分行进入就会丢失输入;在python3中,似乎无法区分在"阻止"和输入结束之间.??)

asyncio(我不清楚python2中有什么可用;我不认为它适用于sys.stdin;但是,我仍然对只有从子进程返回的管道读取时才有效的答案感兴趣.Popen()).

创建一个线程来执行readline()循环并通过queue.Queue将每一行传递给主程序.然后主程序可以在从队列中读取每一行之前轮询队列,每当它看到它即将阻塞时,首先刷新stdout.(我试过这个,实际上让它工作,见下文,但它非常慢,比线缓冲慢得多.)

螺纹实施:

请注意,这并没有严格回答"如何判断sys.stdin.readline()是否会阻止"的问题,但它仍设法实现所需的缓冲策略.但这太慢了.

#!/usr/bin/python
# cat-n.threaded.py
import queue
import sys
import threading
def iter_with_abouttoblock_cb(callable, sentinel, abouttoblock_cb, qsize=100):
  # child will send each item through q to parent.
  q = queue.Queue(qsize)
  def child_fun():
    for item in iter(callable, sentinel):
      q.put(item)
    q.put(sentinel)
  child = threading.Thread(target=child_fun)
  # The child thread normally runs until it sees the sentinel,
  # but we mark it daemon so that it won't prevent the parent
  # from exiting prematurely if it wants.
  child.daemon = True
  child.start()
  while True:
    try:
      item = q.get(block=False)
    except queue.Empty:
      # q is empty; call abouttoblock_cb before blocking
      abouttoblock_cb()
      item = q.get(block=True)
    if item == sentinel:
      break  # do *not* yield sentinel
    yield item
  child.join()

num_lines_read = 0
for line in iter_with_abouttoblock_cb(sys.stdin.readline,
                                      sentinel='',
                                      abouttoblock_cb=sys.stdout.flush):
  num_lines_read += 1
  sys.stdout.write("%d: %s" % (num_lines_read, line))

验证缓冲行为:

以下命令(在linux上的bash中)显示了预期的缓冲行为:"defaultbuffered"缓冲区过于激进,而"linebuffered"和"threaded"缓冲区恰到好处.

(注意,| cat管道的末尾是默认情况下使用python块缓冲区而不是行缓冲区.)

for which in defaultbuffered linebuffered threaded; do
  for python in python2.7 python3.5; do
    echo "$python cat-n.$which.py:"
      (echo z; echo -n a; sleep 1; echo b; sleep 1; echo -n c; sleep 1; echo d; echo x; echo y; echo z; sleep 1; echo -n e; sleep 1; echo f) | $python cat-n.$which.py | cat
  done
done

输出:

python2.7 cat-n.defaultbuffered.py:
[... pauses 5 seconds here. Bad! ...]
1: z
2: ab
3: cd
4: x
5: y
6: z
7: ef
python3.5 cat-n.defaultbuffered.py:
[same]
python2.7 cat-n.linebuffered.py:
1: z
[... pauses 1 second here, as expected ...]
2: ab
[... pauses 2 seconds here, as expected ...]
3: cd
4: x
5: y
6: z
[... pauses 2 seconds here, as expected ...]
6: ef
python3.5 cat-n.linebuffered.py:
[same]
python2.7 cat-n.threaded.py:
[same]
python3.5 cat-n.threaded.py:
[same]

时序:

(在linux上的bash中):

for which in defaultbuffered linebuffered threaded; do
  for python in python2.7 python3.5; do
    echo -n "$python cat-n.$which.py:  "
      timings=$(time (yes 01234567890123456789012345678901234567890123456789012345678901234567890123456789 | head -1000000 | $python cat-n.$which.py >| /tmp/REMOVE_ME) 2>&1)
      echo $timings
  done
done
/bin/rm /tmp/REMOVE_ME

输出:

python2.7 cat-n.defaultbuffered.py:  real 0m1.490s user 0m1.191s sys 0m0.386s
python3.5 cat-n.defaultbuffered.py:  real 0m1.633s user 0m1.007s sys 0m0.311s
python2.7 cat-n.linebuffered.py:  real 0m5.248s user 0m2.198s sys 0m2.704s
python3.5 cat-n.linebuffered.py:  real 0m6.462s user 0m3.038s sys 0m3.224s
python2.7 cat-n.threaded.py:  real 0m25.097s user 0m18.392s sys 0m16.483s
python3.5 cat-n.threaded.py:  real 0m12.655s user 0m11.722s sys 0m1.540s

重申一下,我想要一个永远不会阻塞的解决方案,同时保持缓冲输出("linebuffered"和"thread"在这方面都很好),而且速度也很快:即速度与"defaultbuffered"相当.

推荐阅读

get
UNIX高级环境编程第11、12章线程及其属性

第11章线程11.2线程概念线程资源：线程ID，一组寄存器，栈，调度优先级和策略，信号屏蔽字，e ... [详细]

蜡笔小新 2023-10-17 17:01:29
get
201720181 20155339 《信息安全系统设计基础》第六周学习总结

2017-2018-120155339《信息安全系统设计基础》第六周学习总结教材学习内容总结控制转移：从ak指令到a(k1)指令的过渡。控制转移序列称为处理器的控制流 ... [详细]

蜡笔小新 2023-10-17 10:29:40
get
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
process
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
get
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
get
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
get
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
get
七月在线爬虫班学习笔记（七）——高级内容-并发编程

第七课主要内容：多进程多线程FIFO,LIFO,优先队列线程局部变量进程与线程的选择线程池异步IO概念及twisted案例股票数据抓取 ... [详细]

蜡笔小新 2023-10-17 20:16:36
buffer
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
buffer
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
get
PHP引用的概念和用法详解

本文详细介绍了PHP中引用的概念和用法。引用是指不同的变量名访问同一个变量内容，类似于Unix文件系统中的hardlink。文章从引用的定义、作用、语法和注意事项等方面进行了解释和示例。同时还介绍了对未定义变量使用引用的情况，以及在函数和new运算符中使用引用的注意事项。 ... [详细]

蜡笔小新 2023-12-09 21:49:52
buffer
JDK核心源码(2)中lang包下的基础知识总结和分析

本文总结和分析了JDK核心源码(2)中lang包下的基础知识，包括常用的对象类型包和异常类型包。在对象类型包中，介绍了Object类、String类、StringBuilder类、StringBuffer类和基本元素的包装类。在异常类型包中，介绍了Throwable类、Error类型和Exception类型。这些基础知识对于理解和使用JDK核心源码具有重要意义。 ... [详细]

蜡笔小新 2023-12-09 20:16:01
buffer
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56
buffer
【技术分享】一个 ELF 蠕虫分析

【技术分享】一个 ELF 蠕虫分析 ... [详细]

蜡笔小新 2023-10-17 16:12:28
get
学习mybatis的基础知识：mybatis入门教程(二)

2019独角兽企业重金招聘Python工程师标准2.3MyBatisprintsql在log4j.properties配置文件中添加如下配置，让mybatis打 ... [详细]

蜡笔小新 2023-10-14 01:46:49

迷失港湾的豪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章