当前位置: 开发笔记 > 编程语言 > 正文

python爬虫scrapy框架爬取网页数据_Python爬虫框架Scrapy学习笔记2爬取Mininova网站种子文件信息...

作者：Ruby | 来源：互联网 | 2023-10-12 18:17

1.任务描述目标网站截图：-------------------------------------可以看到种子文件的列表，这些链接的url可以用正

1. 任务描述

目标网站截图&＃xff1a;

-------------------------------------

可以看到种子文件的列表&＃xff0c;这些链接的url可以用正则表达式表示为&＃xff1a; /tor/\d&＃43;

详情页截图

截图中的&＃xff1a;资源名称, 资源大小&＃xff0c;和资源描述就是我们要抓取的信息。

2. 定义scrapy item.

mininova.pyimport scrapy

class TorrentItem(scrapy.Item):

url &＃61; scrapy.Field()

name &＃61; scrapy.Field()

description &＃61; scrapy.Field()

size &＃61; scrapy.Field()

3. 查看网页源文件&＃xff0c;确定我们要抓取的内容的XPath表达式。对XML Path Language不熟悉的话可以参考&＃xff1a;http://www.w3.org/TR/xpath/ItemXPath

name//hi/text()

size//div[&＃64;id&＃61;&＃39;specifications&＃39;]/p[2]/text()[2]

descripthin//div[&＃64;id&＃61;&＃39;description&＃39;]

4. 最终的代码为&＃xff1a;

mininova.pyimport scrapy

from scrapy.contrib.spiders import CrawlSpider, Rule

from scrapy.contrib.linkextractors import LinkExtractor

class TorrentItem(scrapy.Item):

url &＃61; scrapy.Field()

name &＃61; scrapy.Field()

description &＃61; scrapy.Field()

size &＃61; scrapy.Field()

class MininovaSpider(CrawlSpider):

name &＃61; &＃39;mininova&＃39;

allowed_domains &＃61; [&＃39;mininova.org&＃39;]

start_urls &＃61; [&＃39;http://www.mininova.org/yesterday&＃39;]

rules &＃61; [Rule(LinkExtractor(allow&＃61;[&＃39;/tor/\d&＃43;&＃39;]), &＃39;parse_torrent&＃39;)]

def parse_torrent(self, response):

torrent &＃61; TorrentItem()

torrent[&＃39;url&＃39;] &＃61; response.url

torrent[&＃39;name&＃39;] &＃61; response.xpath("//h1/text()").extract()

torrent[&＃39;description&＃39;] &＃61; response.xpath("//div[&＃64;id&＃61;&＃39;description&＃39;]").extract()

torrent[&＃39;size&＃39;] &＃61; response.xpath("//div[&＃64;id&＃61;&＃39;specifications&＃39;]/p[2]/text()[2]").extract()

return torrent

5. 运行代码

将mininova.py复制到C:\

打开cmd&＃xff0c;输入命令&＃xff1a; scrapy runspider --output&＃61;spider_out.json mininova.py

文件的后缀名很重要&＃xff0c;scrapy会根据后缀名确定输出格式

6. 查看输出

推荐阅读

split
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
list
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
list
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
list
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
list
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
web
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
get
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
get
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
web
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
web
Gitlab接入公司内部单点登录的安装和配置教程

本文介绍了如何将公司内部的Gitlab系统接入单点登录服务，并提供了安装和配置的详细教程。通过使用oauth2协议，将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤，并解决了在迁移过程中可能遇到的问题。 ... [详细]

蜡笔小新 2023-12-10 14:38:53
get
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
tags
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
list
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
web
position属性absolute与relative的区别和用法详解

本文详细解读了CSS中的position属性absolute和relative的区别和用法。通过解释绝对定位和相对定位的含义，以及配合TOP、RIGHT、BOTTOM、LEFT进行定位的方式，说明了它们的特性和能够实现的效果。同时指出了在网页居中时使用Absolute可能会出错的原因，即以浏览器左上角为原始点进行定位，不会随着分辨率的变化而变化位置。最后总结了一些使用这两个属性的技巧。 ... [详细]

蜡笔小新 2023-12-12 13:16:49
web
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14

Ruby

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章