当前位置: 开发笔记 > 编程语言 > 正文

python3.8爬虫常用库_Python爬虫新手入门之初学lxml库

作者：丙尔金开发_448 | 来源：互联网 | 2023-06-13 14:36

1.爬虫是什么所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛

1.爬虫是什么

所谓爬虫&＃xff0c;就是按照一定的规则&＃xff0c;自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网&＃xff0c;我们的爬虫就是上面的一个蜘蛛&＃xff0c;不断的去抓取我们需要的信息。

2.爬虫三要素

抓取

分析

存储

3.爬虫的过程分析

当人类去访问一个网页时&＃xff0c;是如何进行的&＃xff1f;

①打开浏览器&＃xff0c;输入要访问的网址&＃xff0c;发起请求。

②等待服务器返回数据&＃xff0c;通过浏览器加载网页。

③从网页中找到自己需要的数据(文本、图片、文件等等)。

④保存自己需要的数据。

对于爬虫&＃xff0c;也是类似的。它模仿人类请求网页的过程&＃xff0c;但是又稍有不同。

首先&＃xff0c;对应于上面的①和②步骤&＃xff0c;我们要利用python实现请求一个网页的功能。

其次&＃xff0c;对应于上面的③步骤&＃xff0c;我们要利用python实现解析请求到的网页的功能。

最后&＃xff0c;对于上面的④步骤&＃xff0c;我们要利用python实现保存数据的功能。

因为是讲一个简单的爬虫嘛&＃xff0c;所以一些其他的复杂操作这里就不说了。下面&＃xff0c;针对上面几个功能&＃xff0c;逐一进行分析。

4.如何用python请求一个网页

作为一门拥有丰富类库的编程语言&＃xff0c;利用python请求网页完全不在话下。这里推荐一个非常好用的类库urllib.request。

4.1.抓取网页

urllib库使用

import urllib.request

response &＃61; urllib.request.urlopen("https://laoniu.blog.csdn.net/")

print(response.read().decode("utf-8"))

这样就可以抓取csdn我的主页的html文档

我们使用爬虫就是需要在网页中提取我们需要的数据&＃xff0c;接下来我们来学习抓取一下百度搜索页的热榜数据

4.2.如何解析网页呢

使用lxml库

lxml 是一种使用 Python 编写的库&＃xff0c;可以迅速、灵活地处理 XML 和 HTML。

它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)&＃xff0c;并且实现了常见的 ElementTree API。

安装

windows下安装

#pip方式安装

pip3 install lxml

#wheel方式安装

#下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl

linux下安装

yum install -y epel-release libxslt-devel libxml2-devel openssl-devel

pip3 install lxml

环境/版本一览&＃xff1a;

开发工具&＃xff1a;PyCharm 2020.2.3

python&＃xff1a;3.8.5

4.3.编写代码

import urllib.request

from lxml import etree

# 获取百度热榜

url &＃61; "https://www.baidu.com/s?ie&＃61;UTF-8&wd&＃61;1"

# 我们在请求头加入User-Agent参数&＃xff0c;这样可以让服务端认为此次请求是用户通过浏览器发起的正常请求&＃xff0c;防止被识别为爬虫程序请求导致直接拒绝访问

req &＃61; urllib.request.Request(url&＃61;url, headers&＃61;{

"User-Agent": "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"

})

# 发起请求

html_resp &＃61; urllib.request.urlopen(req).read().decode("utf-8")

到这里我们可以顺利获取百度的搜索页面html文档

我门需要看一下热搜排行榜的标签元素在哪里

找到第一条右键复制 XPath (后边说XPath是什么)

我们需要了解并使用XPath&＃xff0c;XPath即为XML路径语言(XML Path Language)&＃xff0c;它是一种用来确定XML文档中某部分位置的语言。

复制的内容结果是&＃xff1a; //*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody[1]/tr[1]

这xPath字符串表示现在在html定位的位置就是热点新闻第一行内容

5.XPath常用规则

表达式

描述

nodename

选取此节点的所有子节点

从当前节点选取直接子节点

从当前节点选取子孙节点

选取当前节点

选取当前节点的父节点

&＃64;

选取属性

通配符&＃xff0c;选择所有元素节点与元素名

&＃64;*

选取所有属性

[&＃64;attrib]

选取具有给定属性的所有元素

[&＃64;attrib&＃61;"value"]

选取给定属性具有给定值的所有元素

[tag]

选取所有具有指定元素的直接子节点

[tag&＃61;"text"]

选取所有具有指定元素并且文本内容是text节点

6.继续分析

那么我们要获取所有的热点新闻该怎么写呢

继续看网页

可以看到所有的热榜分别在三个

之下

修改一下刚才复制的XPath

//*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody[1]/tr[1] 改为 //*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody/tr

这样XPath就会定位到这三个tbody下的所有tr元素内容

我们继续看一下tr是不是我们想要的内容&＃xff0c;展开一个tr看看

淦&＃xff5e;还有一堆,,

这该怎么办。我们需要拿到数据是【标题】【访问链接】【热度】&＃xff0c;现在手里已经拿到的是所有的tr元素

紧接着从tr下手直接拿到下面所有标签的标题与超链接

标题的XPath: */a/&＃64;title超链接的XPath: */a/&＃64;href

*表示匹配tr下的所有元素 /a是在*找到第一个a标签 &＃64;是属性选择器 title和href就是要选择的素属性了

还剩下个热度&＃xff0c;let‘s me 继续操作&＃xff0c;直接选择tr下的第二个td XPath: td[2]

分析完毕&＃xff0c;把完整的代码贴出来

import urllib.request

from lxml import etree

# 获取百度热榜

url &＃61; "https://www.baidu.com/s?ie&＃61;UTF-8&wd&＃61;1"

req &＃61; urllib.request.Request(url&＃61;url, headers&＃61;{

"User-Agent": "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"

})

html_resp &＃61; urllib.request.urlopen(req).read().decode("utf-8")

html &＃61; etree.HTML(html_resp)#初始化生成一个XPath解析对象

_list &＃61; html.xpath("//*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody/tr")

print(f"article count : {len(_list)}")

for tr in _list:

title &＃61; tr.xpath("*/a/&＃64;title")[0]

href &＃61; tr.xpath("*/a/&＃64;href")[0]

hot &＃61; tr.xpath("string(td[2])").strip()

print(f"{hot}{title}https://www.baidu.com{href}")

点击运行&＃xff0c;程序啪就跑起来了&＃xff0c;很快啊&＃xff0c;数据全都过来了&＃xff0c;我全都接住了&＃xff0c;我笑了一下。

到此就完成了lxml xpath的基本使用&＃xff0c;更详细的xpath教程请看 &＃xff1a;https://www.w3school.com.cn/xpath/index.asp

爬虫三要素&＃xff0c;抓取数据完成了&＃xff0c;剩余的分析与存储就先不说了

总结

到此这篇关于Python爬虫新手入门之初学lxml库的文章就介绍到这了,更多相关Python爬虫入门之lxml库内容请搜索云海天教程以前的文章或继续浏览下面的相关文章希望大家以后多多支持云海天教程&＃xff01;

推荐阅读

https
延迟注入工具（python）的SQL脚本

本文介绍了一个延迟注入工具（python）的SQL脚本，包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试，并通过延迟时间来判断注入是否成功。 ... [详细]

蜡笔小新 2023-12-12 10:36:42
version
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
io
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
io
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
ip
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
io
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
io
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
io
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
io
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
get
开发笔记:Java是如何读取和写入浏览器Cookies的

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Java是如何读取和写入浏览器Cookies的相关的知识，希望对你有一定的参考价值。首先我 ... [详细]

蜡笔小新 2023-12-12 20:18:02
get
django视图函数的使用方法

本文介绍了django中视图函数的使用方法，包括如何接收Web请求并返回Web响应，以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]

蜡笔小新 2023-12-12 16:02:59
get
利用中间件模式简化代码逻辑

在编写业务代码时，常常会遇到复杂的业务逻辑导致代码冗长混乱的情况。为了解决这个问题，可以利用中间件模式来简化代码逻辑。中间件模式可以帮助我们更好地设计架构和代码，提高代码质量。本文介绍了中间件模式的基本概念和用法。 ... [详细]

蜡笔小新 2023-12-12 15:08:23
io
javaweb多图片打包下载，弹出提示框问题_html/css_WEBITnose

在springmvc框架中，前台ajax调用方法，对图片批量下载，如何弹出提示保存位置选框？Controller方法 ... [详细]

蜡笔小新 2023-12-12 14:56:31
io
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
io
iOS超签签名服务器搭建及其优劣势

本文介绍了搭建iOS超签签名服务器的原因和优势，包括不掉签、用户可以直接安装不需要信任、体验好等。同时也提到了超签的劣势，即一个证书只能安装100个，成本较高。文章还详细介绍了超签的实现原理，包括用户请求服务器安装mobileconfig文件、服务器调用苹果接口添加udid等步骤。最后，还提到了生成mobileconfig文件和导出AppleWorldwideDeveloperRelationsCertificationAuthority证书的方法。 ... [详细]

蜡笔小新 2023-12-11 20:23:23

丙尔金开发_448

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章