热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【学习—Scrapy1】日常操作

日常操作1、创建:scrapystartprojectpac(项目名称)2、创建一个爬虫:scrapygenspiderqs

日常操作
    1、创建:scrapy startproject pac(项目名称)
    2、创建一个爬虫: scrapy genspider qsbk "qiushibaike.com"(名字)(要爬取地址)

    3、设置:settings> >
    ROBOTSTXT_OBEY = False

    DOWNLOAD_DELAY = 3
    DEFAULT_REQUEST_HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

#存储内容
    ITEM_PIPELINES = {
   'pac.pipelines.PacPipeline': 300,
}
    DOWNLOAD_DELAY = 1    --下载延迟

------中间件(写反爬虫class=A)

DOWNLOADER_MIDDLEWARES = {
   'fangz.middlewares.A': 543,
}
 

    4、设置:

》》文件

(1)contains()----包含

lis = response.xpath("//div[contains(@class,'nl_con')]/ul/li")

(2)yield scrapy.Request(url,callback,meta)

def parse_page1(self, response):a = 你好b= 不好url = "www.example....."yield scrapy.Request(url,callback=self.parse_page2,meta={'item':(a,b)})def parse_page2(self, response):item = response.meta.get('item')#爬取内容lis = response.xpath("//div[contains(@class,'nl_con')]/ul/li")

 

yield scrapy.Request(url,callback=self.parse_esf,meta={"info":(province,city)})#2手房

(self,response):

5、文件

》》pipelines-->数据存储

------------部署服务器----

1cmd  :pip freeze  > requirements.txt

多个txt,文件里面包括需要下载的附件

2,发送给服务器:rz --选中txt包

3,pip install -r requirements.txt

-------------创建虚拟环境 pip install virtualenwrapper-----

1,mkvirtualenv -p /usr/bin/python3 minzi :创建p3,名:minzi  虚拟环境

2,pip install -r requirements.txt

----------redis 分布式开发-----

1,安-装 :pip install scrapy-redis

》pac.py:

from scrapy_redis.spiders import RedisSpider

具体https://www.cnblogs.com/zhangyangcheng/articles/8150483.html


推荐阅读
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议(超文本传输协议)是用于从WWW服务 ... [详细]
  • Scrapy 爬取图片
    1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]
  • 目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • 最近在学Python,看了不少资料、视频,对爬虫比较感兴趣,爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]
  • http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的,最大不能超过XX ... [详细]
  • 本文介绍了响应式页面的概念和实现方式,包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点,提出了选择方案的建议。同时,对于响应式页面的需求和背景进行了讨论,解释了为什么需要响应式页面。 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
  • .NetCoreWebApi生成Swagger接口文档的使用方法
    本文介绍了使用.NetCoreWebApi生成Swagger接口文档的方法,并详细说明了Swagger的定义和功能。通过使用Swagger,可以实现接口和服务的可视化,方便测试人员进行接口测试。同时,还提供了Github链接和具体的步骤,包括创建WebApi工程、引入swagger的包、配置XML文档文件和跨域处理。通过本文,读者可以了解到如何使用Swagger生成接口文档,并加深对Swagger的理解。 ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • css元素可拖动,如何使用CSS禁止元素拖拽?
    一、用户行为三剑客以下3个CSS属性:user-select属性可以设置是否允许用户选择页面中的图文内容;user-modify属性可以设置是否允许输入 ... [详细]
  • pyecharts 介绍
    一、pyecharts介绍ECharts,一个使用JavaScript实现的开源可视化库,可以流畅的运行在PC和移动设备上,兼容当前绝大部 ... [详细]
  • 博主使用代理IP来自于网上免费提供高匿IP的这个网站用到的库frombs4importBeautifulSoupimportrandomimporturllib.re ... [详细]
  • 小程序引入外部文件的方式是:import**.wxss;因为业务需要,正在开发的小程序中需要使用iconfont,很容易想到了H5的引 ... [详细]
author-avatar
你是我最终的荒唐
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有