当前位置: 开发笔记 > 编程语言 > 正文

python添加lxml库_Python爬虫新手入门之初学lxml库

作者：有你真好cc_693 | 来源：互联网 | 2023-10-11 09:17

1.爬虫是什么所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛

1.爬虫是什么

所谓爬虫&＃xff0c;就是按照一定的规则&＃xff0c;自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网&＃xff0c;我们的爬虫就是上面的一个蜘蛛&＃xff0c;不断的去抓取我们需要的信息。

2.爬虫三要素

抓取

分析

存储

3.爬虫的过程分析

当人类去访问一个网页时&＃xff0c;是如何进行的&＃xff1f;

①打开浏览器&＃xff0c;输入要访问的网址&＃xff0c;发起请求。

②等待服务器返回数据&＃xff0c;通过浏览器加载网页。

③从网页中找到自己需要的数据(文本、图片、文件等等)。

④保存自己需要的数据。

对于爬虫&＃xff0c;也是类似的。它模仿人类请求网页的过程&＃xff0c;但是又稍有不同。

首先&＃xff0c;对应于上面的①和②步骤&＃xff0c;我们要利用python实现请求一个网页的功能。

其次&＃xff0c;对应于上面的③步骤&＃xff0c;我们要利用python实现解析请求到的网页的功能。

最后&＃xff0c;对于上面的④步骤&＃xff0c;我们要利用python实现保存数据的功能。

因为是讲一个简单的爬虫嘛&＃xff0c;所以一些其他的复杂操作这里就不说了。下面&＃xff0c;针对上面几个功能&＃xff0c;逐一进行分析。

4.如何用python请求一个网页

作为一门拥有丰富类库的编程语言&＃xff0c;利用python请求网页完全不在话下。这里推荐一个非常好用的类库urllib.request。

4.1.抓取网页

urllib库使用

import urllib.request

response &＃61; urllib.request.urlopen(&＃39;https://laoniu.blog.csdn.net/&＃39;)

print(response.read().decode(&＃39;utf-8&＃39;))

这样就可以抓取csdn我的主页的html文档

我们使用爬虫就是需要在网页中提取我们需要的数据&＃xff0c;接下来我们来学习抓取一下百度搜索页的热榜数据

4.2.如何解析网页呢

使用lxml库

lxml 是一种使用 Python 编写的库&＃xff0c;可以迅速、灵活地处理 XML 和 HTML。

它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)&＃xff0c;并且实现了常见的 ElementTree API。

安装

windows下安装

#pip方式安装

pip3 install lxml

#wheel方式安装

#下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl

linux下安装

yum install -y epel-release libxslt-devel libxml2-devel openssl-devel

pip3 install lxml

环境/版本一览&＃xff1a;

开发工具&＃xff1a;PyCharm 2020.2.3

python&＃xff1a;3.8.5

4.3.编写代码

import urllib.request

from lxml import etree

# 获取百度热榜

url &＃61; "https://www.baidu.com/s?ie&＃61;UTF-8&wd&＃61;1"

# 我们在请求头加入User-Agent参数&＃xff0c;这样可以让服务端认为此次请求是用户通过浏览器发起的正常请求&＃xff0c;防止被识别为爬虫程序请求导致直接拒绝访问

req &＃61; urllib.request.Request(url&＃61;url, headers&＃61;{

&＃39;User-Agent&＃39;: &＃39;User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&＃39;

})

# 发起请求

html_resp &＃61; urllib.request.urlopen(req).read().decode("utf-8")

到这里我们可以顺利获取百度的搜索页面html文档

我门需要看一下热搜排行榜的标签元素在哪里

找到第一条右键复制 XPath (后边说XPath是什么)

我们需要了解并使用XPath&＃xff0c;XPath即为XML路径语言(XML Path Language)&＃xff0c;它是一种用来确定XML文档中某部分位置的语言。

复制的内容结果是&＃xff1a; //*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody[1]/tr[1]

这xPath字符串表示现在在html定位的位置就是热点新闻第一行内容

5.XPath常用规则

表达式

描述

nodename

选取此节点的所有子节点

从当前节点选取直接子节点

从当前节点选取子孙节点

选取当前节点

选取当前节点的父节点

&＃64;

选取属性

通配符&＃xff0c;选择所有元素节点与元素名

&＃64;*

选取所有属性

[&＃64;attrib]

选取具有给定属性的所有元素

[&＃64;attrib&＃61;&＃39;value&＃39;]

选取给定属性具有给定值的所有元素

[tag]

选取所有具有指定元素的直接子节点

[tag&＃61;&＃39;text&＃39;]

选取所有具有指定元素并且文本内容是text节点

6.继续分析

那么我们要获取所有的热点新闻该怎么写呢

继续看网页

可以看到所有的热榜分别在三个

之下

修改一下刚才复制的XPath

//*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody[1]/tr[1] 改为 //*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody/tr

这样XPath就会定位到这三个tbody下的所有tr元素内容

我们继续看一下tr是不是我们想要的内容&＃xff0c;展开一个tr看看

淦&＃xff5e;还有一堆,,

这该怎么办。我们需要拿到数据是【标题】【访问链接】【热度】&＃xff0c;现在手里已经拿到的是所有的tr元素

紧接着从tr下手直接拿到下面所有标签的标题与超链接

标题的XPath: */a/&＃64;title超链接的XPath: */a/&＃64;href

*表示匹配tr下的所有元素 /a是在*找到第一个a标签 &＃64;是属性选择器 title和href就是要选择的素属性了

还剩下个热度&＃xff0c;let‘s me 继续操作&＃xff0c;直接选择tr下的第二个td XPath: td[2]

分析完毕&＃xff0c;把完整的代码贴出来

import urllib.request

from lxml import etree

# 获取百度热榜

url &＃61; "https://www.baidu.com/s?ie&＃61;UTF-8&wd&＃61;1"

req &＃61; urllib.request.Request(url&＃61;url, headers&＃61;{

&＃39;User-Agent&＃39;: &＃39;User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&＃39;

})

html_resp &＃61; urllib.request.urlopen(req).read().decode("utf-8")

html &＃61; etree.HTML(html_resp)#初始化生成一个XPath解析对象

_list &＃61; html.xpath("//*[&＃64;id&＃61;&＃39;con-ar&＃39;]/div[2]/div/div/table/tbody/tr")

print(f"article count : {len(_list)}")

for tr in _list:

title &＃61; tr.xpath("*/a/&＃64;title")[0]

href &＃61; tr.xpath("*/a/&＃64;href")[0]

hot &＃61; tr.xpath("string(td[2])").strip()

print(f"{hot}\t{title}\thttps://www.baidu.com{href}")

点击运行&＃xff0c;程序啪就跑起来了&＃xff0c;很快啊&＃xff0c;数据全都过来了&＃xff0c;我全都接住了&＃xff0c;我笑了一下。

到此就完成了lxml xpath的基本使用&＃xff0c;更详细的xpath教程请看 &＃xff1a;https://www.w3school.com.cn/xpath/index.asp

爬虫三要素&＃xff0c;抓取数据完成了&＃xff0c;剩余的分析与存储就先不说了

总结

到此这篇关于Python爬虫新手入门之初学lxml库的文章就介绍到这了,更多相关Python爬虫入门之lxml库内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们&＃xff01;

本文标题: Python爬虫新手入门之初学lxml库

本文地址: http://www.cppcns.com/jiaoben/python/370369.html

推荐阅读

https
gcdexgcd斐蜀定理的求解方法及应用

本文介绍了求解gcdexgcd斐蜀定理的迭代法和递归法，并解释了exgcd的概念和应用。exgcd是指对于不完全为0的非负整数a和b，gcd(a,b)表示a和b的最大公约数，必然存在整数对x和y，使得gcd(a,b)=ax+by。此外，本文还给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 17:48:30
https
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
perl
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
perl
收集一些好用的搜索引擎的替代品

本文介绍了一些好用的搜索引擎的替代品，包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外，还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]

蜡笔小新 2023-12-13 16:47:45
range
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
export
Go Cobra命令行工具入门教程

本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中，如Kubernetes、Hugo和Github CLI等。通过使用Cobra，我们可以快速创建命令行工具，适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]

蜡笔小新 2023-12-12 20:02:41
buffer
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
buffer
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
buffer
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
web
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
input
九度OnlineJudge之1002：Grading问题的解决方法

本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程，将每个考题分配给3个独立的专家，如果他们的评分不一致，则需要请一位裁判做出最终决定。文章详细描述了评分规则，并给出了解决该问题的程序。 ... [详细]

蜡笔小新 2023-12-14 13:00:09
input
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
range
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
input
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
input
HTML学习02 图像标签的使用和属性

本文介绍了HTML中图像标签的使用和属性，包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项，帮助读者更好地理解和应用图像标签。 ... [详细]

蜡笔小新 2023-12-13 11:31:26

有你真好cc_693

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章