【学习—Scrapy1】日常操作

作者：你是我最终的荒唐 | 来源：互联网 | 2023-10-11 21:12

日常操作1、创建：scrapystartprojectpac（项目名称）2、创建一个爬虫：scrapygenspiderqs

日常操作
1、创建：scrapy startproject pac（项目名称）
2、创建一个爬虫： scrapy genspider qsbk "qiushibaike.com"（名字）(要爬取地址)

3、设置：settings> >
ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 3
DEFAULT_REQUEST_HEADERS = { &＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36&＃39;
}

#存储内容
ITEM_PIPELINES = {
&＃39;pac.pipelines.PacPipeline&＃39;: 300,
}
DOWNLOAD_DELAY = 1 --下载延迟

------中间件（写反爬虫class=A）

DOWNLOADER_MIDDLEWARES = {
&＃39;fangz.middlewares.A&＃39;: 543,
}

4、设置：

》》文件

（1）contains（）----包含

lis = response.xpath("//div[contains(@class,&＃39;nl_con&＃39;)]/ul/li")

(2)yield scrapy.Request(url,callback,meta)

def parse_page1(self, response):a = 你好b= 不好url = "www.example....."yield scrapy.Request(url,callback=self.parse_page2,meta={&＃39;item&＃39;:（a,b）})def parse_page2(self, response):item = response.meta.get(&＃39;item&＃39;)#爬取内容lis = response.xpath("//div[contains(@class,&＃39;nl_con&＃39;)]/ul/li")

yield scrapy.Request(url,callback=self.parse_esf,meta={"info":(province,city)})#2手房

(self,response):

5、文件

》》pipelines-->数据存储

------------部署服务器----

1cmd :pip freeze > requirements.txt

多个txt,文件里面包括需要下载的附件

2，发送给服务器：rz --选中txt包

3，pip install -r requirements.txt

-------------创建虚拟环境 pip install virtualenwrapper-----

1,mkvirtualenv -p /usr/bin/python3 minzi :创建p3，名：minzi 虚拟环境

2，pip install -r requirements.txt

----------redis 分布式开发-----

1，安-装：pip install scrapy-redis

》pac.py:

from scrapy_redis.spiders import RedisSpider

具体https://www.cnblogs.com/zhangyangcheng/articles/8150483.html

推荐阅读

header
响应式页面的概述和实现方式

本文介绍了响应式页面的概念和实现方式，包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点，提出了选择方案的建议。同时，对于响应式页面的需求和背景进行了讨论，解释了为什么需要响应式页面。 ... [详细]

蜡笔小新 2023-12-11 12:37:10
header
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
header
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
header
爬虫05 /scrapy框架

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]

蜡笔小新 2023-10-13 22:01:54
header
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
header
欢乐的票圈重构之旅——RecyclerView的头尾布局增加

项目重构的Git地址：https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集：http:www.jianshu.comno ... [详细]

蜡笔小新 2023-12-11 19:09:56
text
开发笔记:利用Android Camera2 的照相机api 实现实时的图像采集与预览

篇首语：本文由编程笔记#小编为大家整理，主要介绍了利用AndroidCamera2的照相机api实现实时的图像采集与预览相关的知识，希望对你有一定的参考价值。&n ... [详细]

蜡笔小新 2023-10-15 18:15:36
main
Scrapy 爬取图片

1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]

蜡笔小新 2023-10-14 15:02:27
function
PE总结9PE文件结构之解析导出表

本文介绍了PE文件结构中的导出表的解析方法，包括获取区段头表、遍历查找所在的区段等步骤。通过该方法可以准确地解析PE文件中的导出表信息。 ... [详细]

蜡笔小新 2023-12-13 11:47:24
function
HTML学习02 图像标签的使用和属性

本文介绍了HTML中图像标签的使用和属性，包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项，帮助读者更好地理解和应用图像标签。 ... [详细]

蜡笔小新 2023-12-13 11:31:26
header
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
select
python运行脚本没反应_python – Scrapy从脚本运行不起作用

我正在尝试使用scrapycrallsingle运行完美运行的scrapy蜘蛛,但我无法在python脚本中运行它.主要问题是从不执行SingleBlogSpider.parse方 ... [详细]

蜡笔小新 2023-10-17 12:11:15
function
【图像边缘检测】基于matlab GUI Sobel+Prewitt+Robert算子图像边缘检测【含Matlab源码 203期】

一、获取代码方式获取代码方式1：完整代码已上传我的资源：【图像边缘检测】基于matlabGUISobelPrewittRobert算子图像边缘检测【含 ... [详细]

蜡笔小新 2023-10-16 15:29:19
request
Okhttp3爬取验证码及获取Cookie

目前正在做毕业设计，一个关于校园服务的app，我会抽取已完成的相关代码写到文章里。一是为了造福这个曾经帮助过我的社区，二是写文章的同时更能巩固相关知识的记忆。一、前言在爬取教务系统 ... [详细]

蜡笔小新 2023-10-16 12:59:18
function
muduo源码分析之EventLoop、Channel、Poller的实现

作者一直强调的一个概念叫做oneloopperthread，撇开多线程不谈，本篇博文将学习，怎么将传统的IO复用pollepoll封装到C++类中。1.IO复用复习使用p ... [详细]

蜡笔小新 2023-10-16 07:20:34

你是我最终的荒唐

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章