详解Python之urllib爬虫、request模块和parse模块

作者：乌龟北京飘 | 来源：互联网 | 2022-09-26 01:19

urllib是Python中用来处理URL的工具包，本文利用该工具包进行爬虫开发讲解，毕竟爬虫应用开发在Web互联网数据采集中十分重要。文章目录urllibrequest模块访问URLRequest类其他类parse模块解析URL转义URLrobots.txt文件

也可以通过GitHub下载最新代码：

git clone git://github.com/shazow/urllib3.git
python setup.py install

urllib3参考文档：https://urllib3.readthedocs.io/en/latest/

request模块

urllib.request模块定义了身份认证、重定向、COOKIEs等应用中打开url的函数和类。

再简单介绍下request包，该包用于高级的非底层的HTTP客户端接口，容错能力比request模块强大。request使用的是urllib3，它继承了urllib2的特性，支持HTTP连接保持和连接池，支持使用COOKIE保持会话、文件上传、自动解压缩、Unicode响应、HTTP(S)代理等。更多具体可参考文档http://requests.readthedocs.io。

下面将介绍urllib.request模块常用函数和类。

访问URL

一、urlopen()

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=false,cOntext=None)

该函数用于抓取URL数据，十分重要。带有如上所示的参数，除了URL参数外（字符串或Request对象）其余参数都有默认值。

①URL参数

from urllib import requestwith request.urlopen("http://www.baidu.com") as f:
    print(f.status)
    print(f.getheaders())#运行结果如下200[(&＃39;Bdpagetype&＃39;, &＃39;1&＃39;), (&＃39;Bdqid&＃39;, &＃39;0x8583c98f0000787e&＃39;), (&＃39;Cache-Control&＃39;, &＃39;private&＃39;), (&＃39;Content-Type&＃39;, &＃39;text/html;charset=utf-8&＃39;), (&＃39;Date&＃39;, &＃39;Fri, 19 Mar 2021 08:26:03 GMT&＃39;), (&＃39;Expires&＃39;, &＃39;Fri, 19 Mar 2021 08:25:27 GMT&＃39;), (&＃39;P3p&＃39;, &＃39;CP=" OTI DSP COR IVA OUR IND COM "&＃39;), (&＃39;P3p&＃39;, &＃39;CP=" OTI DSP COR IVA OUR IND COM "&＃39;), (&＃39;Server&＃39;, &＃39;BWS/1.1&＃39;), (&＃39;Set-COOKIE&＃39;, &＃39;BAIDUID=B050D0981EE3A706D726852655C9FA21:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com&＃39;), (&＃39;Set-COOKIE&＃39;, &＃39;BIDUPSID=B050D0981EE3A706D726852655C9FA21; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com&＃39;), (&＃39;Set-COOKIE&＃39;, &＃39;PSTM=1616142363; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com&＃39;), (&＃39;Set-COOKIE&＃39;, &＃39;BAIDUID=B050D0981EE3A706FA20DF440C89F27F:FG=1; max-age=31536000; expires=Sat, 19-Mar-22 08:26:03 GMT; domain=.baidu.com; path=/; version=1; comment=bd&＃39;), (&＃39;Set-COOKIE&＃39;, &＃39;BDSVRTM=0; path=/&＃39;), (&＃39;Set-COOKIE&＃39;, &＃39;BD_HOME=1; path=/&＃39;), (&＃39;Set-COOKIE&＃39;, &＃39;H_PS_PSSID=33272_33710_33690_33594_33600_33624_33714_33265; path=/; domain=.baidu.com&＃39;), (&＃39;Traceid&＃39;, &＃39;161614236308368819309620754845011048574&＃39;), (&＃39;Vary&＃39;, &＃39;Accept-Encoding&＃39;), (&＃39;Vary&＃39;, &＃39;Accept-Encoding&＃39;), (&＃39;X-Ua-Compatible&＃39;, &＃39;IE=Edge,chrome=1&＃39;), (&＃39;Connection&＃39;, &＃39;close&＃39;), (&＃39;Transfer-Encoding&＃39;, &＃39;chunked&＃39;)]

②data参数
如果向服务器发送数据，那么data参数必须是一个有数据的byes对象，否则为None。在Python3.2之后可以是一个iterable对象。若是，则headers中必须带有Content-Length参数。HTTP请求使用POST方法时，data必须有数据；使用GET方法时，data写None即可。

from urllib import parsefrom urllib import request
data = bytes(parse.urlencode({"pro":"value"}),encoding="utf8")respOnse= request.urlopen("http://httpbin.org/post",data=data)print(response.read())#运行结果如下b&＃39;{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "pro": "value"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "9", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.9", \n    "X-Amzn-Trace-Id": "Root=1-60545f5e-7428b29435ce744004d98afa"\n  }, \n  "json": null, \n  "origin": "112.48.80.243", \n  "url": "http://httpbin.org/post"\n}\n&＃39;

对数据进行POST请求，需要转码bytes类型或者iterable类型。这里通过bytes()进行字节转换，考虑到第一个参数为字符串，所以需要利用parse模块（下面会讲）的urlencode()方法对上传的数据进行字符串转换，同时指定编码格式为utf8。测试网址httpbin.org可以提供HTTP测试，从返回的内容可以看出提交以表单form作为属性、以字典作为属性值。

③timeout参数
该参数是可选的，以秒为单位指定一个超时时间，若超过该时间则任何操作都会被阻止，如果没有指定，那么默认会取sock.GLOBAL_DEFAULT_TIMEOUT对应的值。该参数仅对http、https、ftp连接有效。

超时后会抛出urllib.error.URLError:异常，可以用try…except来处理异常。

from urllib import request
respOnse= request.urlopen("http://httpbin.org/get",timeout=1)print(response.read())#运行结果如下b&＃39;{\n  "args": {}, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.9", \n    "X-Amzn-Trace-Id": "Root=1-605469dd-76a6d963171127c213d9a9ab"\n  }, \n  "origin": "112.48.80.243", \n  "url": "http://httpbin.org/get"\n}\n&＃39;

④返回对象的常用方法和属性
除了前三个urlopen()常用参数外，该函数返回用作context manager(上下文管理器)的类文件对象，并包含如下方法：

geturl()：返回请求的URL，通常重定向后的URL照样能获取到
info()：返回httplib.HTTPMessage对象，表示远程服务器返回的头信息
getcode()：返回响应后的HTTP状态码
status属性：返回响应后的HTTP状态码
msg属性：请求结果

from urllib import request
respOnse= request.urlopen("http://httpbin.org/get")print(response.geturl())print("===========")print(response.info())print("===========")print(response.getcode())print("===========")print(response.status)print("===========")print(response.msg)

运行结果：

前面介绍的urlopen()方法可以满足一般基本URL请求，如果需要添加headers信息，就要考虑更为强大的Request类了。Request类是URL请求的抽象，包含了许多参数，并定义了一系列属性和方法。

一、定义

class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)

参数url是有效网址的字符串，同urlopen()方法中一样，data参数也是。
headers是一个字典，可以通过add_header()以键值进行调用。通常用于爬虫爬取数据时或者Web请求时更改User-Agent标头值参数来进行请求。
origin_req_host是原始请求主机，比如请求的是针对HTML文档中的图像的，则该请求主机是包含图像页面所在的主机。
Unverifiable指示请求是否是无法验证的。
method指示使用的是HTTP请求方法。常用的有GET、POST、PUT、DELETE等，

代码示例：

from urllib import requestfrom urllib import parse
data = parse.urlencode({"name":"baidu"}).encode(&＃39;utf-8&＃39;)headers = {&＃39;User-Agent&＃39;:&＃39;wzlodq&＃39;}req = request.Request(url="http://httpbin.org/post",data=data,headers=headers,method="POST")respOnse= request.urlopen(req)print(response.read())#运行结果如下b&＃39;{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "name": "baidu"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "10", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "wzlodq", \n    "X-Amzn-Trace-Id": "Root=1-605491a4-1fcf3df01a8b3c3e22b5edce"\n  }, \n  "json": null, \n  "origin": "112.48.80.34", \n  "url": "http://httpbin.org/post"\n}\n&＃39;

注意data参数和前面一样需是字节流类型的，不同的是调用Request类进行请求。

二、属性方法

①Request.full_url
full_url属性包含setter、getter和deleter。如果原始请求URL片段存在，那么得到的full_url将返回原始请求的URL片段，通过添加修饰器@property将原始URL传递给构造函数。

（插播反爬信息）博主CSDN地址：https://wzlodq.blog.csdn.net/

⑥Request.add_header(key,val)：向请求中添加标头。

from urllib import requestfrom urllib import parse
data = bytes(parse.urlencode({&＃39;name&＃39;:&＃39;baidu&＃39;}),encoding=&＃39;utf-8&＃39;)req = request.Request(&＃39;http://httpbin.org/post&＃39;,data,method=&＃39;POST&＃39;)req.add_header(&＃39;User-agent&＃39;,&＃39;test&＃39;)respOnse= request.urlopen(req)print(response.read().decode(&＃39;utf-8&＃39;))

大量免费学习推荐，敬请访问python教程(视频)

以上就是详解Python之urllib爬虫、request模块和parse模块的详细内容，更多请关注其它相关文章！

推荐阅读

python
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
python
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
io
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
python
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
io
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
python
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
cookie
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
cookie
禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版

VNCViewerforMac是一款运行在Mac平台上的远程桌面工具，vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机，操作简 ... [详细]

蜡笔小新 2023-12-14 12:55:15
python
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
java
Java验证码——kaptcha的使用配置及样式

本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置，包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]

蜡笔小新 2023-12-13 13:58:25
python
Python开源库和第三方包的常用框架及库

本文介绍了Python开源库和第三方包中常用的框架和库，包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架，涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]

蜡笔小新 2023-12-11 18:24:06
import
分享css中提升优先级属性!important的用法总结

web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]

蜡笔小新 2023-12-11 11:25:16
go
2016 linux发行版排行_灵越7590 安装 linux (manjarognome)

RT之前做了一次灵越7590黑苹果炒作业的文章，希望能够分享给更多不想折腾的人。kawauso：教你如何给灵越7590黑苹果抄作业zhuanlan.z ... [详细]

蜡笔小新 2023-12-10 19:11:07
java
Node.js学习笔记(一)package.json及cnpm

本文介绍了Node.js中包的概念，以及如何使用包来统一管理具有相互依赖关系的模块。同时还介绍了NPM（Node Package Manager）的基本介绍和使用方法，以及如何通过NPM下载第三方模块。 ... [详细]

蜡笔小新 2023-12-10 18:26:02

乌龟北京飘

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章