python2爬虫_爬虫5_python2_使用BeautifulSoup解析数据

作者：junlingchen12 | 来源：互联网 | 2023-06-02 10:33

使用BeautifulSoup解析数据(感谢东哥)有的小伙伴们对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beau

使用 Beautiful Soup 解析数据(感谢东哥)

有的小伙伴们对写正则表达式的写法用得不熟练&＃xff0c;没关系&＃xff0c;我们还有一个更强大的工具&＃xff0c;叫Beautiful Soup&＃xff0c;有了它我们可以很方便地提取出HTML或XML标签中的内容&＃xff0c;实在是方便&＃xff0c;这一节就让我们一起来感受一下Beautiful Soup的魅力

1. Beautiful Soup的简介

简单来说&＃xff0c;Beautiful Soup是python的一个库&＃xff0c;最主要的功能是从网页抓取数据。官方解释如下&＃xff1a;

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱&＃xff0c;通过解析文档为用户提供需要抓取的数据&＃xff0c;因为简单&＃xff0c;所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码&＃xff0c;输出文档转换为utf-8编码。你不需要考虑编码方式&＃xff0c;除非文档没有指定一个编码方式&＃xff0c;这时&＃xff0c;Beautiful Soup就不能自动识别编码方式了。然后&＃xff0c;你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python解释器&＃xff0c;为用户灵活地提供不同的解析策略或强劲的速度。

2. 安装

下载地址:https://pypi.python.org/pypi/beautifulsoup4/4.3.2

官方文档&＃xff1a;http://beautifulsoup.readthedocs.org/zh_CN/latest

3. 使用

from bs4 import BeautifulSoup

我们创建一个字符串&＃xff0c;后面的例子我们便会用它来演示

html &＃61; """

The Dormouse&＃39;s story

The Dormouse&＃39;s story

Once upon a time there were three little sisters; and their names were

Lacie and

Tillie;

and they lived at the bottom of a well.

...

"""

创建 beautifulsoup 对象

soup &＃61; BeautifulSoup(html)

下面我们来打印一下 soup 对象的内容&＃xff0c;格式化输出

print soup.prettify()

3.1 找标签

直接打印标签

print soup.title

The Dormouse&＃39;s story

print soup.head

The Dormouse&＃39;s story

print soup.a

print soup.p

The Dormouse&＃39;s story

我们可以利用 soup加标签名轻松地获取这些标签的内容&＃xff0c;是不是感觉比正则表达式方便多了&＃xff1f;不过有一点是&＃xff0c;它查找的是在所有内容中的第一个符合要求的标签

对于标签&＃xff0c;它有两个重要的属性&＃xff0c;是 name 和 attrs&＃xff0c;下面我们分别来感受一下

print soup.name

print soup.head.name

#[document]

#head

soup 对象本身比较特殊&＃xff0c;它的 name 即为 [document]&＃xff0c;对于其他内部标签&＃xff0c;输出的值便为标签本身的名称

print soup.p.attrs

#{&＃39;class&＃39;: [&＃39;title&＃39;], &＃39;name&＃39;: &＃39;dromouse&＃39;}

在这里&＃xff0c;我们把 p 标签的所有属性打印输出了出来&＃xff0c;得到的类型是一个字典。

如果我们想要单独获取某个属性&＃xff0c;可以这样&＃xff0c;例如我们获取它的 class 叫什么

print soup.p[&＃39;class&＃39;]

#[&＃39;title&＃39;]

3.2 获取文字

既然我们已经得到了标签的内容&＃xff0c;那么问题来了&＃xff0c;我们要想获取标签内部的文字怎么办呢&＃xff1f;很简单&＃xff0c;用 .string 即可&＃xff0c;例

print soup.p.string

#The Dormouse&＃39;s story

3.3 CSS选择器

在CSS中&＃xff0c;标签名不加任何修饰&＃xff0c;类名前加点&＃xff0c;id名前加 #&＃xff0c;在这里我们也可以利用类似的方法来筛选元素&＃xff0c;用到的方法是 soup.select()&＃xff0c;返回类型是 list

3.3.1 通过标签名查找

print soup.select(&＃39;title&＃39;)

The Dormouse&＃39;s story]

3.3.2 通过类名查找

print soup.select(&＃39;.sister&＃39;)

#[, Lacie, Tillie]

3.3.3 通过 id 名查找

print soup.select(&＃39;#link1&＃39;)

#[]

3.3.4 组合查找

组合查找即和写 class 文件时&＃xff0c;标签名与类名、id名进行的组合原理是一样的&＃xff0c;例如查找 p 标签中&＃xff0c;id 等于 link1的内容&＃xff0c;二者需要用空格分开

print soup.select(&＃39;p #link1&＃39;)

#[]

3.3.5 直接子标签查找

print soup.select("head > title")

The Dormouse&＃39;s story]

3.3.6 属性查找

查找时还可以加入属性元素&＃xff0c;属性需要用中括号括起来&＃xff0c;注意属性和标签属于同一节点&＃xff0c;所以中间不能加空格&＃xff0c;否则会无法匹配到

print soup.select(&＃39;a[class&＃61;"sister"]&＃39;)

#[, Lacie, Tillie]

print soup.select(&＃39;a[href&＃61;"http://example.com/elsie"]&＃39;)

#[]

同样&＃xff0c;属性仍然可以与上述查找方式组合&＃xff0c;不在同一节点的空格隔开&＃xff0c;同一节点的不加空格

print soup.select(&＃39;p a[href&＃61;"http://example.com/elsie"]&＃39;)

#[]

推荐阅读

io
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
object
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
io
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
io
Java String与StringBuffer的区别及其应用场景

本文主要介绍了Java中String和StringBuffer的区别，String是不可变的，而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象，内存使用上要优于String类。因此，在需要频繁对字符串进行修改的情况下，使用StringBuffer更加适合。同时，文章还介绍了String和StringBuffer的应用场景。 ... [详细]

蜡笔小新 2023-12-13 19:21:06
io
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
get
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
io
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
sum
求解hdu 1003 java题目的动态规划优化方法

本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ... [详细]

蜡笔小新 2023-12-14 13:11:00
get
Hibernate基础映射

在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]

蜡笔小新 2023-12-14 10:57:47
object
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
io
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
object
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
get
ASP.NET Tips: 获取插入记录的ID的方法详解

本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法，包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数，以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时，还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说，本文提供了一些有用的技巧和建议。 ... [详细]

蜡笔小新 2023-12-13 17:03:18
get
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
get
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30

junlingchen12

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章