当前位置: 开发笔记 > 编程语言 > 正文

python爬虫需要安装什么

作者：风过无痕啦啦 | 来源：互联网 | 2022-09-26 04:17

python爬虫需要安装相关库：请求库，解析库，存储库和工具库。世界上80%的爬虫是基于Python开发的，学好爬虫技能，可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

回车后弹出chrome浏览器界面

3.4 安装其他浏览器

无界面浏览器phantomjs

下载网址：http://phantomjs.org/

下载完成后解压，把整个目录放到D:\Python3.6.0\Scripts\，把bin目录的路径添加到PATH变量

验证：

打开CMD

phantomjs
console.log(&＃39;phantomjs&＃39;)

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get(&＃39;http://www.baidu.com&＃39;)
driver.page_source

2. 解析库：

2.1 lxml (XPATH)

打开CMD

pip3 install lxml

或者从https://pypi.python.org下载，例如，lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下载whl文件

pip3 install 文件名.whl

2.2 beautifulsoup

打开CMD，需要先安装好lxml

pip3 install beautifulsoup4

验证

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&＃39;&＃39;,&＃39;lxml&＃39;)

2.3 pyquery（类似jquery语法）

打开CMD

pip3 install pyquery

验证安装结果

python
from pyquery import PyQuery as pq
doc = pq(&＃39;hi&＃39;)
result = doc(&＃39;html&＃39;).text()
result

3.2 pymongo（操作MongoDB，key-value）

安装

pip3 install pymongo

验证

python
import pymongo
client = pymongo.MongoClient(&＃39;localhost&＃39;)
db = client[&＃39;testdb&＃39;]
db[&＃39;table&＃39;].insert({&＃39;name&＃39;:&＃39;bob&＃39;})
db[&＃39;table&＃39;].find_one({&＃39;name&＃39;:&＃39;bob&＃39;})

4.2 Django（分布式爬虫维护系统）

pip3 install django

4.3 jupyter（运行在网页端的记事本，支持markdown，可以在网页上运行代码）

pip3 install jupyter

验证：

打开CMD

jupyter notebook

之后就可以在网页直接创建记事本，代码块和Markdown块，支持打印

【

推荐阅读

python
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
python
如何压缩网站页面以减少页面加载时间

本文介绍了影响网站打开时间的两个因素，即网页加载速度和网站页面大小。重点讲解了如何通过压缩网站页面来减少页面加载时间。具体包括图片压缩、Javascript压缩、CSS压缩和HTML压缩等方法，并推荐了相应的压缩工具。此外，还提到了一款Google Chrome插件——网页加载速度分析工具Speed Tracer。 ... [详细]

蜡笔小新 2023-12-09 09:17:00
less
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
string
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
python
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
python
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
python
Java实战之电影在线观看系统的实现

本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述，然后展示了系统的效果图。接着介绍了系统的核心代码，包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明，包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ... [详细]

蜡笔小新 2023-12-14 15:52:03
python
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
python
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
post
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
post
Ubuntu安装常用软件详细步骤

目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]

蜡笔小新 2023-12-12 21:26:41
post
前端人员必须知道的三个问题及其发展阶段

本文介绍了前端人员必须知道的三个问题，即前端都做哪些事、前端都需要哪些技术，以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外，还介绍了一些后端服务，如Node.js。 ... [详细]

蜡笔小新 2023-12-12 12:45:59
post
使用jQuery / AJAX实现两个div的动态更新

本文介绍了如何使用jQuery和AJAX来实现动态更新两个div的方法。通过调用PHP文件并返回JSON字符串，可以将不同的文本分别插入到两个div中，从而实现页面的动态更新。 ... [详细]

蜡笔小新 2023-12-11 10:07:32
post
jQuery图片预加载+等比例缩放

本文介绍了使用jQuery实现图片预加载和等比例缩放的方法，同时提供了演示和相关代码。该方法可以重置图片的宽度和高度，并使图片在水平和垂直方向上居中显示。 ... [详细]

蜡笔小新 2023-12-09 17:59:12
post
mui框架offcanvas侧滑超出部分隐藏无法滚动如何解决

web前端|js教程off-canvas,部分,超出web前端-js教程mui框架中off-canvas侧滑的一个缺点就是无法出现滚动条，因为它主要用途是设置类似于qq界面的那种格 ... [详细]

蜡笔小新 2023-10-17 20:40:03

风过无痕啦啦

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章