当前位置: 开发笔记 > 编程语言 > 正文

爬虫05/scrapy框架

作者：小菜一蝶2502902341 | 来源：互联网 | 2023-10-13 22:01

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1.

爬虫06 /scrapy框架
- 1. scrapy概述/安装
- 2. 基本使用
- 3. 全栈数据的爬取
- 4. 五大核心组件/对象
- 5. 适当提升scrapy爬取数据的效率
- 6. 请求传参

爬虫06 /scrapy框架

1. scrapy概述/安装

异步的爬虫框架
- 高性能的数据解析，持久化存储，全栈数据的爬取，中间件，分布式
- Twisted：就是scrapy的异步机制

框架：就是一个集成好了各种功能且具有很强通用性的一个项目模板。

环境安装：

Linux：
pip3 install scrapy
Windows：
a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录，执行 pip3 install Twisted-18.9.0-cp36-cp36m-win_amd64.whl d. pip3 install pywin32 e. pip3 install scrapy

2. 基本使用

1. 创建工程

新建一个工程：scrapy startproject proName
- settings.py:当前工程的配置文件
- spiders：爬虫包，必须要存放一个或者多个爬虫文件（.py）

创建一个爬虫文件：scrapy genspider spiderName www.lbzhk.com

执行工程：scrapy crawl spiderName（爬虫文件名）
settings.py:(一般在创建工程后，先在settings中作如下设置)
1. 不遵从robots协议
2. UA伪装
3. 指定日志输出的类型：LOG_LEVEL = 'ERROR'
# 设置请求头USER_AGENT USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' # 是否遵循robots协议 ROBOTSTXT_OBEY = False # 记录日志的等级 LOG_LEVEL = 'ERROR'

2. 数据分析

response.xpath('xpath表达式')

scrapy中的xpath解析，在进行数据提取的时候，xpath方法返回的列表中存储的不再是字符串，而是存储的Selector对象，相关的字符串数据是存储在Selector对象的data参数中，我们必须使用

extract()/extract_first()进行字符串数据的提取
extract()：可以作用到列表中的每一个列表元素中，返回的依然是一个列表
extract_first()：只可以作用到列表中的第一个列表元素中，返回的是字符串

3. 持久化存储

基于终端指令的持久化存储
1. 在parse方法中设置返回值
2. 执行终端指令：scrapy crawl spiderName -o ./duanzi.csv
注意事项：
1. 不能存入到数据库，只能对parse的返回值进行存储，且只能存入到指定后缀的文件中
代码示例：/在工程名文件夹下的spiders文件夹中创建要爬虫的文件
# -*- coding: utf-8 -*- import scrapy class FirstSpider(scrapy.Spider): # 爬虫名称：当前爬虫文件的唯一标识 name = 'first' # 允许的域名 # allowed_domains = ['www.baidu.com'] # 起始的url列表：列表元素只可以是url # 作用：列表元素表示的url就会被进行请求发送 start_urls = ['http://duanziwang.com/category/%E7%BB%8F%E5%85%B8%E6%AE%B5%E5%AD%90/'] # 数据解析 # 调用次数是由请求次数决定 # def parse(self, response): # article_list = response.xpath('/html/body/section/div/div/main/article') # for article in article_list: # # xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要的数据被包含在了该对象的data参数中 # # title = article.xpath('./div[1]/h1/a/text()')[0].extract() # title = article.xpath('./div[1]/h1/a/text()').extract_first() # cOntent= article.xpath('./div[2]//text()').extract() # cOntent= ''.join(content) # print(title,content) # 基于终端指令的持久化存储 def parse(self, response): all_data = [] article_list = response.xpath('/html/body/section/div/div/main/article') for article in article_list: # xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要的数据被包含在了该对象的data参数中 # title = article.xpath('./div[1]/h1/a/text()')[0].extract() title = article.xpath('./div[1]/h1/a/text()').extract_first() cOntent= article.xpath('./div[2]//text()').extract() cOntent= ''.join(content) dic = { 'title':title, 'content':content } all_data.append(dic) return all_data # 将解析到的数据进行了返回

基于管道的持久化存储
1. 在爬虫文件中数据解析
2. 将解析到的数据封装到一个叫做Item类型的对象
3. 将item类型的对象提交给管道
4. 管道负责调用process_item的方法接收item，然后进行某种形式的持久化存储
5. 在配置文件中开启管道
注意事项：
1. 一个管道类对应一种形式的持久化存储，当需要存到不同的数据库或文件中，需要用到多个管道类
2. process_item中的return item:可以将item提交给下一个即将被执行的管道类
3. 如果直接将一个字典写入到redis报错的话/新版本不支持：pip install redis==2.10.6
代码示例：
settings配置文件
ITEM_PIPELINES = { 'duanzi.pipelines.DuanziPipeline': 300, }
定义一个Item类：items.py
import scrapy class DuanziproItem(scrapy.Item): title = scrapy.Field() cOntent= scrapy.Field()
爬虫文件：duanzi.py
class DuanziSpider(scrapy.Spider): name = 'duanzi' # allowed_domains = ['www.xxx.com'] start_urls = ['http://duanziwang.com/category/%E7%BB%8F%E5%85%B8%E6%AE%B5%E5%AD%90/'] def parse(self, response): article_list = response.xpath('/html/body/section/div/div/main/article') for article in article_list: title = article.xpath('./div[1]/h1/a/text()').extract_first() cOntent= article.xpath('./div[2]//text()').extract() cOntent= ''.join(content) # 实例化一个item类型的对象，然后将解析到的一组数据存进去 item = DuanziproItem() item['title'] = title item['content'] = content yield item # 将item提交给管道
管道处理持久化存储：piplines.py
import scrapy from DuanziPro.items import DuanziproItem class DuanziproPipeline(object): fp = None def open_spider(self,spider): print('开始爬虫......') self.fp = open('./duanzi.txt','w',encoding='utf-8') # 方法每被调用一次，参数item就是其接收到的一个item类型的对象 def process_item(self, item, spider): # print(item) # item就是一个字典 self.fp.write(item['title']+':'+item['content']+'\n') return item # 可以将item提交给下一个即将被执行的管道类 def close_spider(self,spider): self.fp.close() print('爬虫结束！！！')
多个管道类分别进行不同形式的存储
# 将数据写入到文本文件中 import pymysql from redis import Redis class DuanziproPipeline(object): fp = None def open_spider(self,spider): print('开始爬虫......') self.fp = open('./duanzi.txt','w',encoding='utf-8') # 方法每被调用一次，参数item就是其接收到的一个item类型的对象 def process_item(self, item, spider): # print(item) # item就是一个字典 self.fp.write(item['title']+':'+item['content']+'\n') return item # 可以将item提交给下一个即将被执行的管道类 def close_spider(self,spider): self.fp.close() print('爬虫结束！！！') # 将数据写入到mysql class MysqlPipeLine(object): cOnn= None cursor = None def open_spider(self,spider): self.cOnn= pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='222',db='spider',charset='utf8') print(self.conn) def process_item(self,item,spider): sql = 'insert into duanzi values ("%s","%s")'%(item['title'],item['content']) self.cursor = self.conn.cursor() try: self.cursor.execute(sql) self.conn.commit() except Exception as e: print(e) self.conn.rollback() return item def close_spider(self,spider): self.cursor.close() self.conn.close() # 将数据写入到redis class RedisPileLine(object): cOnn= None def open_spider(self,spider): self.cOnn= Redis(host='127.0.0.1',port=6379) print(self.conn) def process_item(self,item,spider): self.conn.lpush('duanziData',item) return item

3. 全栈数据的爬取

手动请求的发送
yield scrapy.Request(url=new_url,callback=self.parse) # url：指定要发送请求的url # callback：指定对请求结果做解析的回调函数
代码示例：
# 全栈数据爬取对应的操作 class DuanziSpider(scrapy.Spider): name = 'duanzi' start_urls = ['http://duanziwang.com/category/经典段子/'] # 通用的url模板 url = 'http://duanziwang.com/category/经典段子/%d/' pageNum = 1 def parse(self, response): all_data = [] article_list = response.xpath('/html/body/section/div/div/main/article') for article in article_list: title = article.xpath('./div[1]/h1/a/text()').extract_first() cOntent= article.xpath('./div[2]//text()').extract() cOntent= ''.join(content) # 实例化一个item类型的对象，然后将解析到的一组数据存进去 item = DuanziproItem() item['title'] = title item['content'] = content yield item # 将item提交给管道 # 编写手动请求的操作 if self.pageNum <5: self.pageNum += 1 print('正在下载的页码是：',self.pageNum) new_url = format(self.url%self.pageNum) yield scrapy.Request(url=new_url,callback=self.parse)
总结:/什么时候用yield
1. 向管道提交item的时候
2. 手动请求发送的时候

发送post请求
yield scrapy.FromRequest(url=new_url,callback=self.parse，formdata={}) # formdata:放post请求的参数

为什么start_urls列表可以进行get请求的发送
# 父类对start_requests的原始实现： class DuanziSpider(scrapy.Spider): name = 'duanzi' start_urls = ['http://duanziwang.com/category/经典段子/'] # 通用的url模板 url = 'http://duanziwang.com/category/经典段子/%d/' pageNum = 1 def start_requests(self): for url in self.start_urls: yield scrapy.Request(url,callback=self.parse)

4. 五大核心组件/对象

五大核心组件的作用：
1. 引擎(ENGINE):
  用来处理整个系统的数据流处理, 触发事务(框架核心)
2. 调度器(Scheduler):
  用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
3. 下载器(Downloader):
  用于下载网页内容, 并将网页内容返回给Spiders(Scrapy下载器是建立在twisted这个高效的异步模型上的)
4. 爬虫(Spiders):
  爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
5. 项目管道(Pipeline):
  负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

5. 适当提升scrapy爬取数据的效率

增加并发：
默认scrapy开启的并发线程为16个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

降低日志级别：
在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘ERROR’

禁止COOKIE：
如果不是真的需要COOKIE，则在scrapy爬取数据时可以禁止COOKIE从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False

禁止重试：
对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False

减少下载超时：
如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s

6. 请求传参

作用：帮助scrapy实现深度爬取
深度爬取：爬取的数据没有在同一张页面中（例如：爬取图片时，首先是爬到图片的链接，再通过链接将图片爬取下来）

需求：爬取名称和简介，https://www.4567tv.tv/frim/index1.html

实现流程：
传参：
yield scrapy.Request(url,callback,meta), # 将meta这个字典传递给callback
接收参数：
response.meta

代码示例：
items.py
import scrapy class MovieproItem(scrapy.Item): title = scrapy.Field() desc = scrapy.Field()
爬虫文件/深度爬取：movie.py
class MovieSpider(scrapy.Spider): name = 'movie' start_urls = ['https://www.4567tv.tv/index.php/vod/show/class/动作/id/1.html'] url = 'https://www.4567tv.tv/index.php/vod/show/class/动作/id/1/page/%d.html' def parse(self, response): li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li') for li in li_list: title = li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/text()').extract_first() detail_url = 'https://www.4567tv.tv'+li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/@href').extract_first() item = MovieproItem() item['title'] = title # print(title,detail_url) # 对详情页的url进行手动请求发送 # 请求传参： # 参数meta是一个字典，字典会传递给callback yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item}) # 自定义的另一个解析方法（必须要有response参数） def parse_detail(self,response): # 接收传递过来的meta item = response.meta['item'] desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first() item['desc'] = desc yield item
爬虫文件/全栈爬取+深度爬取：movie.py
# 深度爬取+全栈爬取 class MovieSpider(scrapy.Spider): name = 'movie' # allowed_domains = ['www.xxx.com'] start_urls = ['https://www.4567tv.tv/index.php/vod/show/class/动作/id/1.html'] url = 'https://www.4567tv.tv/index.php/vod/show/class/动作/id/1/page/%d.html' pageNum = 1 def parse(self, response): li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li') for li in li_list: title = li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/text()').extract_first() detail_url = 'https://www.4567tv.tv'+li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/@href').extract_first() item = MovieproItem() item['title'] = title # print(title,detail_url) # 对详情页的url进行手动请求发送 # 请求传参： #参数meta是一个字典，字典会传递给callback yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item}) # 全栈爬取 if self.pageNum <4: self.pageNum += 1 new_url = format(self.url%self.pageNum) yield scrapy.Request(new_url,callback=self.parse) # 自定义的另一个解析方法（必须要有response参数） def parse_detail(self,response): # 接收传递过来的meta item = response.meta['item'] desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first() item['desc'] = desc yield item
pipelines.py
class MovieproPipeline(object): def process_item(self, item, spider): print(item) return item

推荐阅读

shell
Win7如何显示桌面及快捷方式

本文介绍了三种方法来实现在Win7系统中显示桌面的快捷方式，包括使用任务栏快速启动栏、运行命令和自己创建快捷方式的方法。具体操作步骤详细说明，并提供了保存图标的路径，方便以后使用。 ... [详细]

蜡笔小新 2023-12-13 13:15:57
shell
Windows操作系统的版本介绍及特点

本文介绍了Windows操作系统的版本及其特点，包括Windows 7系统的6个版本：Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统，具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本，缺乏Aero特效功能，没有64位支持，最初设计不能同时运行三个以上应用程序。 ... [详细]

蜡笔小新 2023-12-12 17:41:13
settings
使用eclipse创建一个Java项目的步骤

本文介绍了使用eclipse创建一个Java项目的步骤，包括启动eclipse、选择New Project命令、在对话框中输入项目名称等。同时还介绍了Java Settings对话框中的一些选项，以及如何修改Java程序的输出目录。 ... [详细]

蜡笔小新 2023-12-11 10:24:49
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
python
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
get
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
settings
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
get
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
get
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
cmd
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
settings
Android Studio Bumblebee | 2021.1.1（大黄蜂版本使用介绍）

本文介绍了Android Studio Bumblebee | 2021.1.1（大黄蜂版本）的使用方法和相关知识，包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]

蜡笔小新 2023-12-14 10:34:15
get
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
instance
问题2：重新命名或者移动数据文件、日志文件到新的位置

本文讨论了在数据库打开和关闭状态下，重新命名或移动数据文件和日志文件的情况。针对性能和维护原因，需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况，以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]

蜡笔小新 2023-12-13 13:02:24
scala
响应式页面的概述和实现方式

本文介绍了响应式页面的概念和实现方式，包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点，提出了选择方案的建议。同时，对于响应式页面的需求和背景进行了讨论，解释了为什么需要响应式页面。 ... [详细]

蜡笔小新 2023-12-11 12:37:10
get
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55

小菜一蝶2502902341

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章