scrapy通过自定义类给爬取的url去重

作者：心在天堂590120_993_292 | 来源：互联网 | 2023-10-09 19:04

之前我们是通过在parse函数里设置集合来解决url去重的问题。首先先在根目录中建立一个新的duplication的py文件&＃xff0c;在from scrapy.dupefilter import

之前我们是通过在parse函数里设置集合来解决url去重的问题。

首先先在根目录中建立一个新的duplication的py文件&＃xff0c;在from scrapy.dupefilter import RFPDupeFilter&＃xff0c;在RFPDupeFilter源码中把BaseDupeFilter类复制到新建的duolication中。

class RepeatFilter(object):def __init__(self):self.visited_set &＃61; set()&＃64;classmethoddef from_settings(cls, settings):#用类方法建立RepeatFilter类对象返回的是RepeatFliter()return cls()def request_seen(self, request):#过滤url的方法if request.url in self.visited_set:return Trueelse:self.visited_set.add(request.url)return Falsedef open(self):#爬虫开始print("---开始爬取---")def close(self, reason): # 爬虫结束print("---爬取结束---")def log(self, request, spider): # 记录日志pass

在request_open方法中把过滤的url方法写好

执行顺序是

1、from_setting

2、__init__

3、open

4、log

5、close

最后别忘了要再settings.py文件中添加一条DUPEFILTER_CLASS &＃61; "shan.duplication.RepeatFilter"

默认的是DUPEFILTER_CLASS &＃61; "shan.dupefilter.RFPDupeFilter"

(venv) D:\shan>scrapy crawl chouti --nolog D:\shan\shan\spiders\chouti.py:9: ScrapyDeprecationWarning: Module &＃96;scrapy.dupefilter&＃96; is deprecated, use &＃96;scrapy.dupefilters&＃96; insteadfrom scrapy.dupefilter import RFPDupeFilter ---开始爬取--- https://dig.chouti.com/ https://dig.chouti.com/all/hot/recent/2 https://dig.chouti.com/all/hot/recent/3 https://dig.chouti.com/all/hot/recent/8 https://dig.chouti.com/all/hot/recent/5 https://dig.chouti.com/all/hot/recent/7 https://dig.chouti.com/all/hot/recent/6 https://dig.chouti.com/all/hot/recent/10 https://dig.chouti.com/all/hot/recent/9 https://dig.chouti.com/all/hot/recent/4 ---爬取结束---

推荐阅读

const
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
text
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
input
通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)

Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]

蜡笔小新 2023-12-12 14:13:01
default
Oracle 11g物理Active Data Guard实时查询（Realtime query）特性

在Oracle11g以前版本中的的DataGuard物理备用数据库，可以以只读的方式打开数据库，但此时MediaRecovery利用日志进行数据同步的过 ... [详细]

蜡笔小新 2023-12-11 15:49:10
js
JavaWeb中读取文件资源的路径问题及解决方法

在JavaWeb开发中，读取文件资源的路径是一个常见的问题。本文介绍了使用绝对路径和相对路径两种方法来解决这个问题，并给出了相应的代码示例。同时，还讨论了使用绝对路径的优缺点，以及如何正确使用相对路径来读取文件。通过本文的学习，读者可以掌握在JavaWeb中正确找到和读取文件资源的方法。 ... [详细]

蜡笔小新 2023-12-10 19:49:18
text
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
range
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
post
解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法

本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法，包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时，还介绍了修改nginx的error.log日志级别为debug，以便查看详细日志信息。 ... [详细]

蜡笔小新 2023-12-12 13:19:04
split
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
process
Spring常用注解（绝对经典），全靠这份Java知识点PDF大全

本文介绍了Spring常用注解和注入bean的注解，包括@Bean、@Autowired、@Inject等，同时提供了一个Java知识点PDF大全的资源链接。其中详细介绍了ColorFactoryBean的使用，以及@Autowired和@Inject的区别和用法。此外，还提到了@Required属性的配置和使用。 ... [详细]

蜡笔小新 2023-12-12 10:15:07
process
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
process
解决php错误信息不显示在浏览器上的方法

本文介绍了解决php错误信息不显示在浏览器上的方法。作者发现php中的各种错误信息并不显示在浏览器上，而是需要在日志文件中查看。为了解决这个问题，作者提供了一种解决方式：通过修改php.ini文件中的display_errors参数为On，并重启服务。这样就可以在浏览器上直接显示php错误信息了。 ... [详细]

蜡笔小新 2023-12-11 11:36:32
js
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
range
Python基础篇：315道题目及答案整理，帮助你检验学习成果

本文整理了315道Python基础题目及答案，帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者，这些题目将是一个不错的选择。请注意，答案在视频中，本文不提供答案。 ... [详细]

蜡笔小新 2023-12-10 14:33:46
text
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06

心在天堂590120_993_292

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章