热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python爬虫入门:深入解析HTTP协议与Requests库的应用

HTTP协议:HTTP(Hypertext Transfer Protocol):即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。HTTP协议对资

HTTP协议:

HTTP(Hypertext Transfer Protocol):即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。

HTTP协议对资源的操作:

Python爬虫:HTTP协议、Requests库(爬虫学习第一天) - 文章图片

Requests库提供了HTTP所有的基本请求方式。官方介绍:http://www.python-requests.org/en/master

Requests库的6个主要方法:

Python爬虫:HTTP协议、Requests库(爬虫学习第一天) - 文章图片

Requests库的异常:

Python爬虫:HTTP协议、Requests库(爬虫学习第一天) - 文章图片

Requests库的两个重要对象:Request(请求)、Response(相应)。Request对象支持多种请求方法;Response对象包含服务器返回的所有信息,也包含请求的Request信息。

Response对象的属性:

Python爬虫:HTTP协议、Requests库(爬虫学习第一天) - 文章图片

其中,r.encoding指:如果header中不存在charset,则认为编码为ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等于200。

HTTP协议与Requests库对比:

Python爬虫:HTTP协议、Requests库(爬虫学习第一天) - 文章图片

爬取网页的通用代码框架:

1 try:
2 r = requests.get(url,timeout = 30)
3 r.raise_for_status()
4 # 如果状态不是200,引发HTTPError异常
5 r.encoding = r.apparent_encoding
6 return r.text
7 except:
8 return '产生异常'

例如,获取PMCAFF首页的信息:

1 import requests
2
3 def getHtmlText(url):
4 try:
5 r = requests.get(url,timeout = 30)
6 r.raise_for_status()
7 r.encoding = r.apparent_encoding
8 return r.text
9 except:
10 return '产生异常'
11
12 if __name__ == '__main__':
13 url = 'https://www.pmcaff.com/'
14 print(getHtmlText(url))

爬取网页的通用代码框架:操作环境:win,Python 3.6

参考资料:中国大学MOOC课程《Python网络爬虫与信息提取》


推荐阅读
  • css 网站页面内容占位加载动画效果的实现
    阅读目录阐述index.htmlindex.jsindex.css阐述内容占位动画效果,这个也是我们经常在一些网站上看到的效果,这种效果的设计 ... [详细]
  • 反向代理是一种重要的网络技术,用于提升Web服务器的性能和安全性,同时保护内部网络不受外部攻击。本文将探讨反向代理的基本概念、与其他代理类型的区别,并详细介绍如何使用Squid配置反向代理。 ... [详细]
  • 本文提供了关于如何解决u8云服务器显示离线以及无法登录的问题的详细指南,包括可能的原因分析和解决方案。 ... [详细]
  • 前言叨逼叨iOS上传文件,可能有很多第三方的框架之类的,比如AFN或者Alamofire之类的框架,但是今天要谈论的是原生的API是如何进行文件上传。兵 ... [详细]
  • 掌握数据库引擎存储过程与系统视图查询:DBA与BI开发者的必备技能
    本文介绍了如何利用数据库引擎存储过程及系统视图查询数据库结构和对象信息,为数据库管理员(DBA)和商业智能(BI)开发人员提供实用的基础知识。文章涵盖了一系列常用的SQL Server存储过程和系统视图,帮助读者快速获取数据库的相关信息。 ... [详细]
  • 文章目录17、less17-UpdateQuery-Errorbased-String18、less18-HeaderInjection-ErrorBased-string19、l ... [详细]
  • 本文介绍了如何在 MATLAB 中通过图形用户界面(GUI)进行文件输入输出(I/O),特别是针对文本和数值数据的读取。这对于项目仿真和其他需要处理外部数据的应用非常重要。 ... [详细]
  • 本文介绍了如何通过Java代码实现Excel文件的上传,并将其中的数据读取后存储到数据库中。同时,记录了操作日志以确保操作的可追溯性。 ... [详细]
  • 本文详细探讨了如何在 SparkSQL 中创建 DataFrame,涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分,本文将持续更新以提供最新信息。 ... [详细]
  • 本文介绍了如何在C++中使用new关键字动态创建一维和二维数组,并详细解释了常见的错误及其解决方案。 ... [详细]
  • 优化 DropDownList 与 TextBox 的交互体验
    本文介绍了一种解决方案,通过在 DropDownList 前添加一个 TextBox 来提升用户体验。当选项过多时,用户可以通过在 TextBox 中输入关键词来快速定位并选择相应的选项。 ... [详细]
  • Flask框架下MySQL数据库的集成与应用
    本文详细探讨了如何在Flask框架中集成和使用MySQL数据库,通过具体的实例和代码演示,帮助开发者更好地理解和掌握Flask与MySQL的结合使用。 ... [详细]
  • 解决LINQ分页时数据丢失的问题
    在使用LINQ进行数据分页的过程中,遇到了一个导致部分数据在翻页时消失的问题。经过仔细排查,发现这一现象与聚集索引的选择密切相关。 ... [详细]
  • 本文档详细介绍了如何使用XIB文件创建和管理具有不同高度的单元格,通过具体的代码示例展示了在iOS开发中实现这一功能的方法。 ... [详细]
  • 深入解析JavaScript中的require与import差异
    本文深入探讨了JavaScript中require与import的主要区别,并通过实际案例详细说明了它们的工作原理及应用场景,对于开发者理解和使用这两种模块加载方式具有重要指导意义。 ... [详细]
author-avatar
十字彩虹00
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有