当前位置: 开发笔记 > 编程语言 > 正文

Day02爬虫学习入门第二天:正则,bs4,xpath,爬虫实战

作者：山间农夫的家 | 来源：互联网 | 2023-10-12 17:31

虽然今天很累，但是其实也没有学很多东西，还是来整理一下，以免忘记，之后会自己去爬一些网站数据…今天主要学了bs4和xpath

虽然今天很累&＃xff0c;但是其实也没有学很多东西&＃xff0c;还是来整理一下&＃xff0c;以免忘记&＃xff0c;之后会自己去爬一些网站数据…
今天主要学了bs4和xpath&＃xff0c;分为这两个部分来整理笔记&＃xff1a;

文章目录

- 1.bs4解析
- 2.xpath解析

1.bs4解析

为什么需要在爬虫中使用数据解析
- 就是为了可以实现聚焦爬虫
数据解析的通用原理&＃xff08;解析的数据指挥存在于标签之间或者属性中&＃xff09;
- html是用来展示数据
- 原理流程&＃xff1a;
  - 标签定位
  - 数据的提取
bs4数据解析的解析原理/流程
- 实例化一个BeautifulSoup的对象&＃xff0c;且将等待被解析的数据加载到该对象中
  - 方式1&＃xff1a;
    - BeautifulSoup(fp,‘lxml’) #解析本地存储的html文件
  - 方式2&＃xff1a;
    - BeautifulSoup(page_text,‘lxml’) #解析互联网上请求到的页面数据
- 调用BeautifulSoup对象中的相关方法和属性进行标签定位和数据的提取
  - 标签定位
    - soup.tagName:返回第一次出现的tagName标签
    - 属性定位&＃xff1a;soup.find(‘tagName’,attrName&＃61;‘value’)
    - findALL和find的用法一样&＃xff0c;但是返回值不同
    - 选择器定位&＃xff1a;select(‘selector’)
  - 数据的提取
    - 提取标签中存在的数据
      - .string:取出标签直系的文本内容
      - .text:取出标签中所有的文本内容
    - 提取标签属性中存储的数据
      - tagName[‘attrName’]
环境的安装&＃xff1a;
- pip install bs4
- pip install lxml

直接用一个例子来看&＃xff0c;使用bs4爬取某网站上面三国演义的内容&＃xff0c;需要添加headers

### 使用bs4解析三国演义的内容 import requests url &＃61; &＃39;http://shicimingju.com/book/sanguoyanyi.html&＃39; page_text &＃61; requests.get(url,headers&＃61;headers).text #首页的页面源码数据 fp &＃61; open(&＃39;./sanguo.txt&＃39;,&＃39;w&＃39;,encoding&＃61;&＃39;utf-8&＃39;) #数据解析(章节标题&＃xff0c;详情页的url) soup &＃61; BeautifulSoup(page_text,&＃39;lxml&＃39;) #定位到了所有标题对应的a标签 a_list &＃61; soup.select(&＃39;.book-mulu > ul > li >a&＃39;) # >表示一个层级 for a in a_list:title &＃61; a.stringdetail_url &＃61; &＃39;http://shicimingju.com&＃39;&＃43;a[&＃39;href&＃39;]#解析提取章节内容page_text_detail &＃61; requests.get(url&＃61;detail_url,headers&＃61;headers).text#解析详情页中的章节内容soup &＃61; BeautifulSoup(page_text_detail,&＃39;lxml&＃39;)content &＃61; soup.find(&＃39;div&＃39;,class_&＃61;&＃39;chapter_content&＃39;).text#写入文件fp.write(title&＃43;&＃39;:&＃39;&＃43;content&＃43;&＃39;\n&＃39;)print(title,&＃39;下载成功&＃39;)

2.xpath解析

html标签结构
- 是一个树状的结构
xpath解析原理
- 实例化一个etree对象&＃xff0c;且将被解析的数据加载到该对象中
  - 解析本地存储的html文档&＃xff1a;
    - etree.parse(‘fileName’)
  - 解析网上爬取的html数据&＃xff1a;
    - etree.parse(page_text)
- 使用etree对象中的xpath方法结合不同的xpath表达式实现标签定位和数据提取
  - 标签定位
    - 最左侧的/&＃xff1a;必须要从根标签开始逐层的定位目标标签
    - 非最左侧的/&＃xff1a;表示一个层级
    - 非最左侧的//&＃xff1a;表示多个层级
    - 最左侧的//&＃xff1a;可以从任意位置定义目标标签
    - 属性定位&＃xff1a;//tagName[&＃64;attrName&＃61;‘value’]
    - 索引定位&＃xff1a;//tagName[index]&＃xff0c;index索引从1开始
    - 模糊匹配
      - //div[contains(&＃64;class,“ng”)] :定位到class属性中包含ng的div标签
      - //div[starts-with[&＃64;class,“ta”]] :定位到clss属性值中是以ta开头的div标签
  - 数据提取
    - 取标签中的数据
      - /text():直系文本内容
      - //text():所有的文本内容
    - 取属性中的数据
      - tagName/&＃64;attrName

下面介绍爬取图片数据和图片名称并将其保存到本地的例子&＃xff0c;需要添加headers

import requests import os dirName &＃61; &＃39;img&＃39; # if os.path.exists(dirName): # os.mkdir(dirName) url &＃61; &＃39;http://pic.netbian.com/4kdongman/index_%d.html&＃39; for page in range(1,6):if page &＃61;&＃61; 1:new_url &＃61; &＃39;http://pic.netbian.com/4kdongman/&＃39;else:new_url &＃61; format(url%page) #表示非第一页的urlresponse &＃61; requests.get(new_url,headers&＃61;headers)response.encoding&＃61;&＃39;gbk&＃39;page_text &＃61; response.text # page_text &＃61; requests.get(new_url,headers&＃61;headers).text#数据解析&＃xff1a;图片地址和图片名称tree &＃61; etree.HTML(page_text)#定位到了所有的li标签li_list &＃61; tree.xpath(&＃39;//div[&＃64;class&＃61;"slist"]/ul/li&＃39;)for li in li_list:img_src &＃61; &＃39;http://pic.netbian.com&＃39;&＃43;li.xpath(&＃39;./a/img/&＃64;src&＃39;)[0] #局部的数据解析&＃xff0c;./表示的就是xpath调用者对应的标签img_name &＃61; li.xpath(&＃39;./a/img/&＃64;alt&＃39;)[0]&＃43;&＃39;.jpg&＃39; # print(img_src,img_name)img_data &＃61; requests.get(img_src,headers&＃61;headers).contentfilePath &＃61; dirName&＃43;&＃39;/&＃39;&＃43;img_namewith open(filePath,&＃39;wb&＃39;) as fp:fp.write(img_data)print(img_name,&＃39;下载成功&＃39;)

今天就先写这么多了…还没学tableau&＃xff0c;/(ㄒoㄒ)/~~&＃xff0c;要加油呀
在这里插入图片描述

推荐阅读

text
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
python
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
php
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
go
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
go
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
go
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
text
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
select
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
text
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
php
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
python
CentOS安装Python2.7.2的步骤和注意事项

本文介绍了在CentOS上安装Python2.7.2的详细步骤，包括下载、解压、编译和安装等操作。同时提供了一些注意事项，以及测试安装是否成功的方法。 ... [详细]

蜡笔小新 2023-12-12 13:54:31
python
树莓派Linux基础（一）：查看文件系统的命令行操作

本文介绍了在树莓派上通过SSH服务使用命令行查看文件系统的操作，包括cd命令用于变更目录、pwd命令用于显示当前目录位置、ls命令用于显示文件和目录列表。详细讲解了这些命令的使用方法和注意事项。 ... [详细]

蜡笔小新 2023-12-14 13:33:39
php
在mac环境下使用nginx配置nodejs代理服务器的步骤

本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤，包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]

蜡笔小新 2023-12-13 10:34:21
php
如何通过conda安装Selenium的wheel文件

本文介绍了如何通过conda安装Selenium的wheel文件，包括查看环境、卸载旧版本、下载新版本的wheel文件以及安装操作的步骤。同时提供了使用清华源的方法。 ... [详细]

蜡笔小新 2023-12-12 21:09:47
process
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06

山间农夫的家

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章