热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python3中bs4的使用_Python3bs4库BeautifulSoup爬虫网页解析入门

一、4种BeautifulSoup库解析器:BeautifulSoup解析器常配合网络爬虫解析返回的网页文档1、bs4的HTML解析器:安装bs4

一、4种BeautifulSoup库解析器:

BeautifulSoup解析器常配合网络爬虫解析返回的网页文档

1、bs4的HTML解析器:

安装bs4库:pip install bs4

解析用法:BeautifulSoup(mk,‘html.parser’)

2、lxml的HTML解析器:

安装lxml库:pip install lxml:

解析用法:BeautifulSoup(mk,‘lxml’)

3、lxml的XML解析器:

安装lxml库:pip install lxml:

解析用法:BeautifulSoup(mk,‘xml’)

4、html5lib的解析器:

安装html5lib库:pip install html5lib:

解析用法:BeautifulSoup(mk,‘html5lib’)

bs4库BeautifulSoup解析器解析页面示例:

#!/usr/bin/python

# coding = utf-8

from bs4 import BeautifulSoup

import requests

url = 'https://blog.csdn.net/qq_43054896'

try:

r = requests.get(url)

r.raise_for_status()

# bs4库BeautifulSoup解析返回页面内容

soup = BeautifulSoup(r.text,'html.parser')

except:

print('error')

二、BeautifulSoup元素的5种基本属性

BeautifulSoup解析器以一对对的标签作为信息元素。

1、tag&#xff1a;标签&#xff0c;最基本的信息组织单元&#xff0c;<>和>标明开头和结尾

1、soup.find_all() 等价于 soup()

2、.find_all(...) 等价于 (...)

2、name&#xff1a;标签的名字&#xff0c;如

的名字为 ‘p’ &#xff0c;调用格式&#xff1a; p.name

3、attributes&#xff1a;标签属性&#xff0c;字典形式组织&#xff0c;调用格式&#xff1a;p.attrs

4、navigableString&#xff1a;标签内非属性字符串&#xff0c;如

中的字符串&#xff0c;调用格式&#xff1a;p.string

5、comment&#xff1a;标签内字符串注释部分

标签基本属性调用实例&#xff1a;

#!/usr/bin/python

# coding &#61; utf-8

from bs4 import BeautifulSoup

import requests

url &#61; &#39;https://blog.csdn.net/qq_43054896&#39;

try:

r &#61; requests.get(url)

r.raise_for_status()

soup &#61; BeautifulSoup(r.text,&#39;html.parser&#39;)

tag &#61; soup(&#39;a&#39;)[0]

#第一个 &#39;a&#39; 标签的3个基本属性

print(tag)

print(&#39;name:&#39;, tag.name)

print(&#39;attributes:&#39;, tag.attrs)

print(&#39;string:&#39;, tag.string)

except:

print(&#39;error&#39;)

运行结果&#xff1a;

20200322180129588.png

三、BeautifulSoup对标签树的3种遍历方式

soup &#61; BeautifulSoup(r.text,&#39;html.parser&#39;)

1、下行遍历

所含属性&#xff1a;

&#xff08;1&#xff09;tag.contents&#xff1a;子节点列表&#xff0c;将的所有子节点存入此列表

soup.find(&#39;head&#39;).contents

&#xff08;2&#xff09;tag.children&#xff1a;子节点迭代类型&#xff0c;与.contents类似&#xff0c;用于循环遍历子节点

soup.find(&#39;head&#39;).children

&#xff08;3&#xff09;tag.descendants&#xff1a;子孙节点迭代类型&#xff0c;包含所有子孙节点&#xff0c;用于循环遍历

soup.find(&#39;head&#39;).descendants

2、上行遍历

所含属性&#xff1a;

&#xff08;1&#xff09;tag.parent&#xff1a;节点父标签

soup.find(&#39;a&#39;).parent

&#xff08;2&#xff09;tag.parents&#xff1a;节点先辈标签迭代类型&#xff0c;用于循环遍历先辈节点

soup.find(&#39;head&#39;).parents

3、平行遍历&#xff08;只允许在同一个父节点下进行平行遍历&#xff09;

所含属性&#xff1a;

&#xff08;1&#xff09;tag.next_sibling&#xff1a;返回安装HTML文本顺序的下一个平行节点标签

soup.find(&#39;head&#39;).next_sibling

&#xff08;2&#xff09;tag.next_siblings&#xff1a;迭代类型&#xff0c;返回按照HTML文本顺序的后续所有平行节点标签

soup.find(&#39;head&#39;).next_siblings

&#xff08;3&#xff09;tag.previous_sibling&#xff1a;返回按照HTML文本顺序的上一个平行节点标签

soup.find(&#39;head&#39;).previous_sibling

&#xff08;4&#xff09;tag.previous_siblings&#xff1a;迭代类型&#xff0c;返回按照HTML文本顺序的前续所有平行节点的标签

soup.find(&#39;head&#39;).previous_siblings

四、BeautifulSoup信息检索与提取

soup &#61; BeautifulSoup(r.text,&#39;html.parser&#39;)

soup.find_all(name, attrs, recursive, string, **kwargs)

1、检索方法的参数

&#xff08;1&#xff09;name&#xff1a;对标签名称的检索&#xff0c;为str类

soup.find_all(&#39;a&#39;)

#或

soup.find_all(name &#61;&#39;a&#39;)

&#xff08;2&#xff09;attrs&#xff1a;对标签属性值的检索&#xff0c;为str类

&#xff08;3&#xff09;recursive&#xff1a;是否对全部子孙检索&#xff0c;默认为True

&#xff08;4&#xff09;string&#xff1a;检索标签封装的字符串

soup.find_all(&#39;a&#39;, string&#61;&#39;周里昂&#39;)

&#xff08;5&#xff09;limit &#xff1a;限制返回结果的数量

soup.find_all(&#39;a&#39;, string&#61;&#39;周里昂&#39;,limit&#61;2)

以下为标签中属性所对应的参数&#xff08;attrs 键值对中&#xff0c;键单独成为一个参数&#xff09;&#xff1a;

&#xff08;6&#xff09;text &#xff1a;检索文档中的字符串内容&#xff0c;接受传值类型&#xff1a;字符串 、正则表达式 、列表、True

soup.find_all(&#39;a&#39;,text&#61;&#39;周里昂&#39;)

soup.find_all(&#39;a&#39;,text&#61;[&#39;周里昂&#39;, &#39;ctf&#39;])

&#xff08;7&#xff09;id&#xff1a;标签的 ‘id’ 属性

soup.find_all(&#39;a&#39;, id&#61;&#39;link1&#39;)

&#xff08;8&#xff09; class_ &#xff1a;检索指定 CSS 类名的tag&#xff0c;接受传值类型&#xff1a;字符串 、正则表达式 、列表、True、方法

soup.find_all(&#39;a&#39;, class_&#61;&#39;http://example.com&#39;)

还有一些属性参数省略……

2、检索方法

&#xff08;1&#xff09;find_all()&#xff1a;检索文档中的所有指定标签&#xff0c;返回一个 list

&#xff08;2&#xff09;find()&#xff1a;检索指定标签且只返回一个结果&#xff0c;返回一个 str

&#xff08;3&#xff09;find_parent()&#xff1a;在先辈节点中检索&#xff0c;返回一个 str

&#xff08;4&#xff09;find_parents()&#xff1a;先辈节点中检索&#xff0c;返回一个 list

&#xff08;5&#xff09;find_next_sibling()&#xff1a;在后续平行节点中检索&#xff0c;返回一个 str

&#xff08;6&#xff09;find_next_siblings()&#xff1a;在后续平行节点中检索&#xff0c;返回一个 list

&#xff08;7&#xff09;find_previous_sibling()&#xff1a;在前序平行节点中检索&#xff0c;返回一个 str

&#xff08;8&#xff09;find_previous_siblings()&#xff1a;在前序平行节点中检索&#xff0c;返回一个 list



推荐阅读
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • ASP.NET2.0数据教程之十四:使用FormView的模板
    本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观,与GridView和DetailsView不同,FormView使用模板来呈现,可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • PHP图片截取方法及应用实例
    本文介绍了使用PHP动态切割JPEG图片的方法,并提供了应用实例,包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用,以及图片切割的具体步骤。同时,还提供了一些注意事项和优化建议。通过本文的学习,读者可以掌握PHP图片截取的技巧,实现自己的需求。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • 本文介绍了解决IE678伪类不兼容问题的方法,包括少用CSS3和HTML5独有的属性,使用CSS hacker,使用last-child清除浮动、批量添加标签、去掉list item最后一个的border-right等技巧。同时还介绍了使用after清除浮动时加上IE独有属性zoom:1的处理方法。另外,本文还提到可以使用jQuery代替批量添加标签的功能,以及使用负边距和CSS2选择器element+element去掉list item最后一个的border-right的方法。 ... [详细]
author-avatar
Just忽略我_559
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有