【学习—Scrapy1】日常操作

作者：你是我最终的荒唐 | 来源：互联网 | 2023-10-11 21:12

日常操作1、创建：scrapystartprojectpac（项目名称）2、创建一个爬虫：scrapygenspiderqs

日常操作
1、创建：scrapy startproject pac（项目名称）
2、创建一个爬虫： scrapy genspider qsbk "qiushibaike.com"（名字）(要爬取地址)

3、设置：settings> >
ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 3
DEFAULT_REQUEST_HEADERS = { &＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36&＃39;
}

#存储内容
ITEM_PIPELINES = {
&＃39;pac.pipelines.PacPipeline&＃39;: 300,
}
DOWNLOAD_DELAY = 1 --下载延迟

------中间件（写反爬虫class=A）

DOWNLOADER_MIDDLEWARES = {
&＃39;fangz.middlewares.A&＃39;: 543,
}

4、设置：

》》文件

（1）contains（）----包含

lis = response.xpath("//div[contains(@class,&＃39;nl_con&＃39;)]/ul/li")

(2)yield scrapy.Request(url,callback,meta)

def parse_page1(self, response):a = 你好b= 不好url = "www.example....."yield scrapy.Request(url,callback=self.parse_page2,meta={&＃39;item&＃39;:（a,b）})def parse_page2(self, response):item = response.meta.get(&＃39;item&＃39;)#爬取内容lis = response.xpath("//div[contains(@class,&＃39;nl_con&＃39;)]/ul/li")

yield scrapy.Request(url,callback=self.parse_esf,meta={"info":(province,city)})#2手房

(self,response):

5、文件

》》pipelines-->数据存储

------------部署服务器----

1cmd :pip freeze > requirements.txt

多个txt,文件里面包括需要下载的附件

2，发送给服务器：rz --选中txt包

3，pip install -r requirements.txt

-------------创建虚拟环境 pip install virtualenwrapper-----

1,mkvirtualenv -p /usr/bin/python3 minzi :创建p3，名：minzi 虚拟环境

2，pip install -r requirements.txt

----------redis 分布式开发-----

1，安-装：pip install scrapy-redis

》pac.py:

from scrapy_redis.spiders import RedisSpider

具体https://www.cnblogs.com/zhangyangcheng/articles/8150483.html

推荐阅读

import
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
python
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
split
Scrapy 爬取图片

1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]

蜡笔小新 2023-10-14 15:02:27
python
爬虫05 /scrapy框架

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]

蜡笔小新 2023-10-13 22:01:54
import
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
python
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
config
页面请求方法参数最长_关于 HTTP GET/POST 请求参数长度最大值的一个理解误区

http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的，最大不能超过XX ... [详细]

蜡笔小新 2023-12-13 19:20:03
config
响应式页面的概述和实现方式

本文介绍了响应式页面的概念和实现方式，包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点，提出了选择方案的建议。同时，对于响应式页面的需求和背景进行了讨论，解释了为什么需要响应式页面。 ... [详细]

蜡笔小新 2023-12-11 12:37:10
config
macOS Big Sur全新设计大版本更新，10+个值得关注的新功能

本文介绍了Apple发布的新一代操作系统macOS Big Sur，该系统采用全新的界面设计，包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出，macOS Big Sur的设计与iPadOS越来越接近，结合了去年iPadOS对鼠标的完善等功能。 ... [详细]

蜡笔小新 2023-12-10 19:53:41
config
.NetCoreWebApi生成Swagger接口文档的使用方法

本文介绍了使用.NetCoreWebApi生成Swagger接口文档的方法，并详细说明了Swagger的定义和功能。通过使用Swagger，可以实现接口和服务的可视化，方便测试人员进行接口测试。同时，还提供了Github链接和具体的步骤，包括创建WebApi工程、引入swagger的包、配置XML文档文件和跨域处理。通过本文，读者可以了解到如何使用Swagger生成接口文档，并加深对Swagger的理解。 ... [详细]

蜡笔小新 2023-12-09 19:33:41
io
常用的CSS属性及用法整理

本文整理了常用的CSS属性及用法，包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等，方便开发者查阅和使用。 ... [详细]

蜡笔小新 2023-12-09 03:01:43
io
css元素可拖动,如何使用CSS禁止元素拖拽？

一、用户行为三剑客以下3个CSS属性：user-select属性可以设置是否允许用户选择页面中的图文内容；user-modify属性可以设置是否允许输入 ... [详细]

蜡笔小新 2023-10-17 14:35:15
python
pyecharts 介绍

一、pyecharts介绍ECharts，一个使用JavaScript实现的开源可视化库，可以流畅的运行在PC和移动设备上，兼容当前绝大部 ... [详细]

蜡笔小新 2023-10-16 08:29:03
import
python爬虫如何使用代理ip,Python ip代理

博主使用代理IP来自于网上免费提供高匿IP的这个网站用到的库frombs4importBeautifulSoupimportrandomimporturllib.re ... [详细]

蜡笔小新 2023-10-13 18:52:58
import
微信小程序打开红包的css_【微信小程序】——wxss引用外部CSS文件及iconfont

小程序引入外部文件的方式是：import**.wxss;因为业务需要，正在开发的小程序中需要使用iconfont，很容易想到了H5的引 ... [详细]

蜡笔小新 2023-10-13 13:30:45

你是我最终的荒唐

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章