热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python3多线程爬虫(初级)

多线程爬虫,主要是玩队列,队列玩明白了,多线程自然也就起来了。#导入各种包importthreadingimportqueueimpotjsonfromlxmlimporterte

多线程爬虫,主要是玩队列,队列玩明白了,多线程自然也就起来了。

#导入各种包
import threading
import queue
impot json
from lxml import ertee
定义爬取类,需要继承多线程:
class down_spider(Threading.Thread):
def __intit__(self,urlQ,dataQ):
super(down_spider,self).__init__()
self.urlQ = urlQ
self.dataQ = dataQ
def run(self):#重写run方法
self.down()
def down(self):
while True:#记住这里要写一个循环,不然一个线程只会取一次url就不干活了
if self.urlQ.empty():
break
url = self.urlQ.get()
''' 然后这里就写怎么爬取,设置代理之类的..... 假设是这样:respOnse= requests.get(url) '''
self.dataQ.put(response.text)#text返回一个string,content返回一个字节流
self.dataQ.task_done()#通知任务队列,这个任务完成了
class parser_handle(Threading.Thread):
def __intit__(self,dataQ,lock,file):
super(parser_handle,self).__init__()
self.dataQ= dataQ
self.lock = lock
self.file = file#结果保存到文件里把,文件要从主线程那里创建
def run(self):
while True:
if self.dataQ.empty():
break
text = self.dataQ.get()
html = etree.HTML(text)
''' 然后这里写解析规则 假如是这样:title = html.xpath('//title') item = { 'title':title, } '''
with self.lock:
self.file.wrtie(json.dupms(item,ensure_ascii=False))
定义两个队列,一个用来存url,一个用来存down下来的页面
urlQ= queue.Queue()#默认是先进先出
dataQ = queue.Queue()
lock = threading.RLock()
file = io.open('result.txt','a',encoding='utf-8')
#先把urlQ里的url搞出来
#自己找出规律,存储到urlQ里面
''' 假设是这样: urlQ = queue.Queue() for i in range(1,20): full_url = 'https://www.啊哈啊哈.com/' + str(i) + '/' urlQ.put(full_url) '''
#接下来搞五个线程去爬取
thread_down = []
for i in range(5):
t = down_spider(urlQ,dataQ)
t.start()
thread_down.append(t)
#在搞五个线程来解析加存储
thread_parser = []
for i in range(5):
t = parser_handle(dataQ,lock,file)
t.start()
thread_down.append(t)
#jion一下,让主线程等着我们,都搞完了再退
for t in thread_down:
t.join()
for t in thread_parser:
t.join()
file.close()
print('史上最简陋的多线程爬虫结束了')

多线程爬虫,首先要把队列搞明白,懂得队列的存取,并且需要知道自己需要的是哪种类型的队列,是先进先出,还是先进后出,还是优先级。然后就是用类来写的话,重写run方法,一定要记得while True,并且要给他一个出口。再然后就是锁了, 其实锁这块我不明白,只知道一点,写文件的时候需要加锁,不然大家都去写,不就乱了嘛。
接下来需要搞一下协程,搜集日志,异常处理,代理的使用。
这篇博客看了很有收获,讲的是线程爬虫、协程爬虫https://blog.csdn.net/xinkexueguanli/article/details/52552107


推荐阅读
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • 原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中,有两种配置文件,一种 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有