热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【转】windows下搭建爬虫框架scrapy

转自http:blog.csdn.netplaystudyarticledetails17296473摘要:主要讲解在windows上搭建scrapy的步骤ÿ

转自 http://blog.csdn.net/playstudy/article/details/17296473

 

摘要:
主要讲解在windows上搭建scrapy的步骤,该步骤已经在百度上搜索就是一大片的了,但是出于学习以及练习写博客的目的,我还是按照自己的思路写一遍。

最近开始使用python,然后看到忘了上很多人都在用python在抓网页,突然就想起了大学时想弄的网络蜘蛛,于是开始自己写代码,但是第一版做出来不合心意,感觉爬出去了就很难结束,并且想做定制还是比较麻烦。接着在q群众看到有人说使用scrapy来实现网络蜘蛛,于是就上网开始找资料了,终于经过了几个钟头的努力,终于有了成果,下面文章就是对这个搭建步骤的描述。

如果你是一个了解可能还是很熟悉的程序猿,那么下面所描述的内容可以直接忽略了;如果你对scrapy第一次听说,并且还有点兴趣学习的话,可以先登录官网http://scrapy.org/基本浏览一下,然后可以按照一面的步骤来完成环境的搭建。

第一步:当然是安装python了,本人安装的是2.7.3版本;可以到python的官网下载然后双击运行,一路“下一步”即可完成安装。安装好后,将python的安装目录添加到系统变量中,这样才能够在控制台中输入python进入,如下图所示则说明安装python成功了

第二步:按照官网的提示,我们先安装pywin32,在http://sourceforge.net/projects/pywin32/files/这里点击进去后选择对应的版本(注意要与安装的python版本对应),下载后也是双击运行,直接下一步一路完成。

第三步:安装twisted,在其官网的下载页面中http://twistedmatrix.com/trac/wiki/Downloads可以看到其还依赖几个包

    1. 安装zope.interface, 从这里https://pypi.python.org/pypi/zope.interface#download下载

我选择了4.0.5版本,点击进去后,点击download按钮即可,下载完后也是双击运行,一路下一步即可完成。

打开cmd,进入python,按照下图显示输出的话表示正确安装了

    2. 安装pyopenssl, 从这里https://pypi.python.org/pypi/pyOpenSSL下载,注意要选择对应python的版本。

我选择了倒数第二个,安装成功后通过下面的方式验证:

    3. 安装twisted,在下载页面http://twistedmatrix.com/trac/wiki/Downloads中我们可以看到

    选择对应python的版本下载安装。

第三步:安装lxml,在这里https://pypi.python.org/pypi/lxml/下载,本人选择了3.2.3版本

最后一步:安装scrapy

在安装前,请先将easytool安装好

在这里http://pypi.python.org/packages/2.7/s/setuptools/setuptools-0.6c11.win32-py2.7.exe下载,安装好后,需要将python安装目录下的Scripts目录路径添加到系统变量中,因为下面就要用到。

下载scrapy,在这里https://pypi.python.org/pypi/Scrapy下载,下载完后,解压出来,运行cmd,cd到该解压目录下,在cmd中输入

easy_install Scrapy

完成scrapy的安装,然后在cmd中输入scrapy进行验证,如果出现下图所示,则说明安装成功了

到此,整个环境搭建成功!

后续将会继续完成使用scrapy进行爬虫的文章和部分代码。


转:https://www.cnblogs.com/hadis-yuki/p/4877995.html



推荐阅读
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Java实战之电影在线观看系统的实现
    本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述,然后展示了系统的效果图。接着介绍了系统的核心代码,包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明,包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 本文介绍了在Windows系统下安装Python、setuptools、pip和virtualenv的步骤,以及安装过程中需要注意的事项。详细介绍了Python2.7.4和Python3.3.2的安装路径,以及如何使用easy_install安装setuptools。同时提醒用户在安装完setuptools后,需要继续安装pip,并注意不要将Python的目录添加到系统的环境变量中。最后,还介绍了通过下载ez_setup.py来安装setuptools的方法。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • Python实现变声器功能(萝莉音御姐音)的方法及步骤
    本文介绍了使用Python实现变声器功能(萝莉音御姐音)的方法及步骤。首先登录百度AL开发平台,选择语音合成,创建应用并填写应用信息,获取Appid、API Key和Secret Key。然后安装pythonsdk,可以通过pip install baidu-aip或python setup.py install进行安装。最后,书写代码实现变声器功能,使用AipSpeech库进行语音合成,可以设置音量等参数。 ... [详细]
  • 本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术,可以实现在输入某个id后,通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用,以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况,并解释了JavaScript等待服务器响应的机制。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • 本文由编程笔记#小编整理,主要介绍了关于数论相关的知识,包括数论的算法和百度百科的链接。文章还介绍了欧几里得算法、辗转相除法、gcd、lcm和扩展欧几里得算法的使用方法。此外,文章还提到了数论在求解不定方程、模线性方程和乘法逆元方面的应用。摘要长度:184字。 ... [详细]
  • 本文主要复习了数据库的一些知识点,包括环境变量设置、表之间的引用关系等。同时介绍了一些常用的数据库命令及其使用方法,如创建数据库、查看已存在的数据库、切换数据库、创建表等操作。通过本文的学习,可以加深对数据库的理解和应用能力。 ... [详细]
author-avatar
王丽丽2502934407
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有