我正在尝试使用Requests模块编写一个简单的Web爬虫程序,我想知道如何禁用它的-default- keep-alive feauture.
我试过用:
s = requests.session() s.config['keep_alive'] = False
但是,我得到一个错误,说明会话对象没有属性'config',我认为它已经改变了新版本,但我似乎无法在官方文档中找到如何做到这一点.
事实上,当我在特定网站上运行爬虫时,它最多只能获得五个页面,然后无限循环,所以我认为它与保持活动功能有关!
PS:是请求网络爬虫的好模块吗?有更适合的东西吗?
谢谢 !
这有效
s = requests.session() s.keep_alive = False
在类似问题的评论中回答.
我不确定,但是当您使用请求发送GET请求时,您是否可以尝试将{"Connection":"close"}作为HTTP标头传递.这将在服务器返回响应后立即关闭连接.
>>> headers = {"Connection": "close"} >>> r = requests.get('https://example.xcom', headers=headers)