当前位置: 开发笔记 > 编程语言 > 正文

爬虫05/scrapy框架

作者：小菜一蝶2502902341 | 来源：互联网 | 2023-10-13 22:01

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1.

爬虫06 /scrapy框架
- 1. scrapy概述/安装
- 2. 基本使用
- 3. 全栈数据的爬取
- 4. 五大核心组件/对象
- 5. 适当提升scrapy爬取数据的效率
- 6. 请求传参

爬虫06 /scrapy框架

1. scrapy概述/安装

异步的爬虫框架
- 高性能的数据解析，持久化存储，全栈数据的爬取，中间件，分布式
- Twisted：就是scrapy的异步机制

框架：就是一个集成好了各种功能且具有很强通用性的一个项目模板。

环境安装：

Linux：
pip3 install scrapy
Windows：
a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录，执行 pip3 install Twisted-18.9.0-cp36-cp36m-win_amd64.whl d. pip3 install pywin32 e. pip3 install scrapy

2. 基本使用

1. 创建工程

新建一个工程：scrapy startproject proName
- settings.py:当前工程的配置文件
- spiders：爬虫包，必须要存放一个或者多个爬虫文件（.py）

创建一个爬虫文件：scrapy genspider spiderName www.lbzhk.com

执行工程：scrapy crawl spiderName（爬虫文件名）
settings.py:(一般在创建工程后，先在settings中作如下设置)
1. 不遵从robots协议
2. UA伪装
3. 指定日志输出的类型：LOG_LEVEL = 'ERROR'
# 设置请求头USER_AGENT USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' # 是否遵循robots协议 ROBOTSTXT_OBEY = False # 记录日志的等级 LOG_LEVEL = 'ERROR'

2. 数据分析

response.xpath('xpath表达式')

scrapy中的xpath解析，在进行数据提取的时候，xpath方法返回的列表中存储的不再是字符串，而是存储的Selector对象，相关的字符串数据是存储在Selector对象的data参数中，我们必须使用

extract()/extract_first()进行字符串数据的提取
extract()：可以作用到列表中的每一个列表元素中，返回的依然是一个列表
extract_first()：只可以作用到列表中的第一个列表元素中，返回的是字符串

3. 持久化存储

基于终端指令的持久化存储
1. 在parse方法中设置返回值
2. 执行终端指令：scrapy crawl spiderName -o ./duanzi.csv
注意事项：
1. 不能存入到数据库，只能对parse的返回值进行存储，且只能存入到指定后缀的文件中
代码示例：/在工程名文件夹下的spiders文件夹中创建要爬虫的文件
# -*- coding: utf-8 -*- import scrapy class FirstSpider(scrapy.Spider): # 爬虫名称：当前爬虫文件的唯一标识 name = 'first' # 允许的域名 # allowed_domains = ['www.baidu.com'] # 起始的url列表：列表元素只可以是url # 作用：列表元素表示的url就会被进行请求发送 start_urls = ['http://duanziwang.com/category/%E7%BB%8F%E5%85%B8%E6%AE%B5%E5%AD%90/'] # 数据解析 # 调用次数是由请求次数决定 # def parse(self, response): # article_list = response.xpath('/html/body/section/div/div/main/article') # for article in article_list: # # xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要的数据被包含在了该对象的data参数中 # # title = article.xpath('./div[1]/h1/a/text()')[0].extract() # title = article.xpath('./div[1]/h1/a/text()').extract_first() # cOntent= article.xpath('./div[2]//text()').extract() # cOntent= ''.join(content) # print(title,content) # 基于终端指令的持久化存储 def parse(self, response): all_data = [] article_list = response.xpath('/html/body/section/div/div/main/article') for article in article_list: # xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要的数据被包含在了该对象的data参数中 # title = article.xpath('./div[1]/h1/a/text()')[0].extract() title = article.xpath('./div[1]/h1/a/text()').extract_first() cOntent= article.xpath('./div[2]//text()').extract() cOntent= ''.join(content) dic = { 'title':title, 'content':content } all_data.append(dic) return all_data # 将解析到的数据进行了返回

基于管道的持久化存储
1. 在爬虫文件中数据解析
2. 将解析到的数据封装到一个叫做Item类型的对象
3. 将item类型的对象提交给管道
4. 管道负责调用process_item的方法接收item，然后进行某种形式的持久化存储
5. 在配置文件中开启管道
注意事项：
1. 一个管道类对应一种形式的持久化存储，当需要存到不同的数据库或文件中，需要用到多个管道类
2. process_item中的return item:可以将item提交给下一个即将被执行的管道类
3. 如果直接将一个字典写入到redis报错的话/新版本不支持：pip install redis==2.10.6
代码示例：
settings配置文件
ITEM_PIPELINES = { 'duanzi.pipelines.DuanziPipeline': 300, }
定义一个Item类：items.py
import scrapy class DuanziproItem(scrapy.Item): title = scrapy.Field() cOntent= scrapy.Field()
爬虫文件：duanzi.py
class DuanziSpider(scrapy.Spider): name = 'duanzi' # allowed_domains = ['www.xxx.com'] start_urls = ['http://duanziwang.com/category/%E7%BB%8F%E5%85%B8%E6%AE%B5%E5%AD%90/'] def parse(self, response): article_list = response.xpath('/html/body/section/div/div/main/article') for article in article_list: title = article.xpath('./div[1]/h1/a/text()').extract_first() cOntent= article.xpath('./div[2]//text()').extract() cOntent= ''.join(content) # 实例化一个item类型的对象，然后将解析到的一组数据存进去 item = DuanziproItem() item['title'] = title item['content'] = content yield item # 将item提交给管道
管道处理持久化存储：piplines.py
import scrapy from DuanziPro.items import DuanziproItem class DuanziproPipeline(object): fp = None def open_spider(self,spider): print('开始爬虫......') self.fp = open('./duanzi.txt','w',encoding='utf-8') # 方法每被调用一次，参数item就是其接收到的一个item类型的对象 def process_item(self, item, spider): # print(item) # item就是一个字典 self.fp.write(item['title']+':'+item['content']+'\n') return item # 可以将item提交给下一个即将被执行的管道类 def close_spider(self,spider): self.fp.close() print('爬虫结束！！！')
多个管道类分别进行不同形式的存储
# 将数据写入到文本文件中 import pymysql from redis import Redis class DuanziproPipeline(object): fp = None def open_spider(self,spider): print('开始爬虫......') self.fp = open('./duanzi.txt','w',encoding='utf-8') # 方法每被调用一次，参数item就是其接收到的一个item类型的对象 def process_item(self, item, spider): # print(item) # item就是一个字典 self.fp.write(item['title']+':'+item['content']+'\n') return item # 可以将item提交给下一个即将被执行的管道类 def close_spider(self,spider): self.fp.close() print('爬虫结束！！！') # 将数据写入到mysql class MysqlPipeLine(object): cOnn= None cursor = None def open_spider(self,spider): self.cOnn= pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='222',db='spider',charset='utf8') print(self.conn) def process_item(self,item,spider): sql = 'insert into duanzi values ("%s","%s")'%(item['title'],item['content']) self.cursor = self.conn.cursor() try: self.cursor.execute(sql) self.conn.commit() except Exception as e: print(e) self.conn.rollback() return item def close_spider(self,spider): self.cursor.close() self.conn.close() # 将数据写入到redis class RedisPileLine(object): cOnn= None def open_spider(self,spider): self.cOnn= Redis(host='127.0.0.1',port=6379) print(self.conn) def process_item(self,item,spider): self.conn.lpush('duanziData',item) return item

3. 全栈数据的爬取

手动请求的发送
yield scrapy.Request(url=new_url,callback=self.parse) # url：指定要发送请求的url # callback：指定对请求结果做解析的回调函数
代码示例：
# 全栈数据爬取对应的操作 class DuanziSpider(scrapy.Spider): name = 'duanzi' start_urls = ['http://duanziwang.com/category/经典段子/'] # 通用的url模板 url = 'http://duanziwang.com/category/经典段子/%d/' pageNum = 1 def parse(self, response): all_data = [] article_list = response.xpath('/html/body/section/div/div/main/article') for article in article_list: title = article.xpath('./div[1]/h1/a/text()').extract_first() cOntent= article.xpath('./div[2]//text()').extract() cOntent= ''.join(content) # 实例化一个item类型的对象，然后将解析到的一组数据存进去 item = DuanziproItem() item['title'] = title item['content'] = content yield item # 将item提交给管道 # 编写手动请求的操作 if self.pageNum <5: self.pageNum += 1 print('正在下载的页码是：',self.pageNum) new_url = format(self.url%self.pageNum) yield scrapy.Request(url=new_url,callback=self.parse)
总结:/什么时候用yield
1. 向管道提交item的时候
2. 手动请求发送的时候

发送post请求
yield scrapy.FromRequest(url=new_url,callback=self.parse，formdata={}) # formdata:放post请求的参数

为什么start_urls列表可以进行get请求的发送
# 父类对start_requests的原始实现： class DuanziSpider(scrapy.Spider): name = 'duanzi' start_urls = ['http://duanziwang.com/category/经典段子/'] # 通用的url模板 url = 'http://duanziwang.com/category/经典段子/%d/' pageNum = 1 def start_requests(self): for url in self.start_urls: yield scrapy.Request(url,callback=self.parse)

4. 五大核心组件/对象

五大核心组件的作用：
1. 引擎(ENGINE):
  用来处理整个系统的数据流处理, 触发事务(框架核心)
2. 调度器(Scheduler):
  用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
3. 下载器(Downloader):
  用于下载网页内容, 并将网页内容返回给Spiders(Scrapy下载器是建立在twisted这个高效的异步模型上的)
4. 爬虫(Spiders):
  爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
5. 项目管道(Pipeline):
  负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

5. 适当提升scrapy爬取数据的效率

增加并发：
默认scrapy开启的并发线程为16个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

降低日志级别：
在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘ERROR’

禁止COOKIE：
如果不是真的需要COOKIE，则在scrapy爬取数据时可以禁止COOKIE从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False

禁止重试：
对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False

减少下载超时：
如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s

6. 请求传参

作用：帮助scrapy实现深度爬取
深度爬取：爬取的数据没有在同一张页面中（例如：爬取图片时，首先是爬到图片的链接，再通过链接将图片爬取下来）

需求：爬取名称和简介，https://www.4567tv.tv/frim/index1.html

实现流程：
传参：
yield scrapy.Request(url,callback,meta), # 将meta这个字典传递给callback
接收参数：
response.meta

代码示例：
items.py
import scrapy class MovieproItem(scrapy.Item): title = scrapy.Field() desc = scrapy.Field()
爬虫文件/深度爬取：movie.py
class MovieSpider(scrapy.Spider): name = 'movie' start_urls = ['https://www.4567tv.tv/index.php/vod/show/class/动作/id/1.html'] url = 'https://www.4567tv.tv/index.php/vod/show/class/动作/id/1/page/%d.html' def parse(self, response): li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li') for li in li_list: title = li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/text()').extract_first() detail_url = 'https://www.4567tv.tv'+li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/@href').extract_first() item = MovieproItem() item['title'] = title # print(title,detail_url) # 对详情页的url进行手动请求发送 # 请求传参： # 参数meta是一个字典，字典会传递给callback yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item}) # 自定义的另一个解析方法（必须要有response参数） def parse_detail(self,response): # 接收传递过来的meta item = response.meta['item'] desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first() item['desc'] = desc yield item
爬虫文件/全栈爬取+深度爬取：movie.py
# 深度爬取+全栈爬取 class MovieSpider(scrapy.Spider): name = 'movie' # allowed_domains = ['www.xxx.com'] start_urls = ['https://www.4567tv.tv/index.php/vod/show/class/动作/id/1.html'] url = 'https://www.4567tv.tv/index.php/vod/show/class/动作/id/1/page/%d.html' pageNum = 1 def parse(self, response): li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li') for li in li_list: title = li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/text()').extract_first() detail_url = 'https://www.4567tv.tv'+li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/@href').extract_first() item = MovieproItem() item['title'] = title # print(title,detail_url) # 对详情页的url进行手动请求发送 # 请求传参： #参数meta是一个字典，字典会传递给callback yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item}) # 全栈爬取 if self.pageNum <4: self.pageNum += 1 new_url = format(self.url%self.pageNum) yield scrapy.Request(new_url,callback=self.parse) # 自定义的另一个解析方法（必须要有response参数） def parse_detail(self,response): # 接收传递过来的meta item = response.meta['item'] desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first() item['desc'] = desc yield item
pipelines.py
class MovieproPipeline(object): def process_item(self, item, spider): print(item) return item

推荐阅读

install
pyecharts 介绍

一、pyecharts介绍ECharts，一个使用JavaScript实现的开源可视化库，可以流畅的运行在PC和移动设备上，兼容当前绝大部 ... [详细]

蜡笔小新 2023-10-16 08:29:03
install
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
install
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
install
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
install
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
install
Ubuntu 9.04中安装谷歌Chromium浏览器及使用体验[图文]

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-12-13 13:30:30
install
Ubuntu安装常用软件详细步骤

目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]

蜡笔小新 2023-12-12 21:26:41
install
CentOS安装Python2.7.2的步骤和注意事项

本文介绍了在CentOS上安装Python2.7.2的详细步骤，包括下载、解压、编译和安装等操作。同时提供了一些注意事项，以及测试安装是否成功的方法。 ... [详细]

蜡笔小新 2023-12-12 13:54:31
install
开发笔记:Python之路第一篇：初识Python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之路第一篇：初识Python相关的知识，希望对你有一定的参考价值。Python简介& ... [详细]

蜡笔小新 2023-10-17 18:58:48
install
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
list
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
blob
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
install
Linux下Perl的安装及第一个程序运行

本文介绍了在Linux下安装Perl的步骤，并提供了一个简单的Perl程序示例。同时，还展示了运行该程序的结果。 ... [详细]

蜡笔小新 2023-12-13 18:29:11
install
CEPH LIO iSCSI Gateway及其使用参考文档

本文介绍了CEPH LIO iSCSI Gateway以及使用该网关的参考文档，包括Ceph Block Device、CEPH ISCSI GATEWAY、USING AN ISCSI GATEWAY等。同时提供了多个参考链接，详细介绍了CEPH LIO iSCSI Gateway的配置和使用方法。 ... [详细]

蜡笔小新 2023-12-12 10:10:14
install
2016 linux发行版排行_灵越7590 安装 linux (manjarognome)

RT之前做了一次灵越7590黑苹果炒作业的文章，希望能够分享给更多不想折腾的人。kawauso：教你如何给灵越7590黑苹果抄作业zhuanlan.z ... [详细]

蜡笔小新 2023-12-10 19:11:07

小菜一蝶2502902341

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章