热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

爬虫1.1-基础知识:学习使用requests库

目录爬虫-基础知识+requests库1.状态返回码2.URL各个字段解释2.requests库3.requests库爬虫的基本流程

目录

  • 爬虫-基础知识+requests库
    • 1. 状态返回码
    • 2. URL各个字段解释
    • 2. requests库
    • 3. requests库爬虫的基本流程

爬虫-基础知识+requests库

关于html的知识,可以到w3school中进行了解学习。http://www.w3school.com.cn/html/index.asp,水平有限,这里不多提及。

1. 状态返回码

标志这这一次的请求状态,成功或失败,失败原因大概是什么

200:请求正常,服务器正常返回数据。 不代表爬去到正确信息了
301:永久重定向,比如访问www.jingdong.com 会重定向到www.jd.com
302:临时重定向,比如访问一个需要登陆的网站时,因为没有登陆会重定向到登陆页面
400:请求的url在服务器上找不到。url错误
403:服务器拒绝,权限不够
500:服务器内部错误,服务器出现bug

2. URL各个字段解释

URL:scheme://host:port/path/?query-string=xxx#anchor
scheme: 代表的是访问的协议,http https ftp...
host:主机名,域名,baidu.com
port:端口号,一般浏览器默认80
path:查询路径,文件在服务器中的位置
query-string:查询字符串,例如www.baidu.com/s?wd=python
anchor:锚点,前端用于给关键词定位的

示例

https://www.baidu.com/s?ie=UTF-8&wd=python

https://baike.baidu.com/item/html标签/6999473?fr=aladdin#2

2. requests库

requests库是python中一个非常强大的网络请求库,常用来写一些小爬虫、

浏览器抓包:使用谷歌浏览器,按F12点击Network,再按F5刷新页面即可抓包查看请求头(Requst Headers)和

表单(Form Data)数据,拷贝到自己的代码中即可防止被服务器发现一个爬虫。

get请求:

import requests
respOnse= requests.get(url, headers=headers)
print(response.content.decode('utf-8')) 
# 网页编码不全都是utf-8格式,也有可能是gbk,可以在浏览器中右键查看网页源代码,一般在最开头几行有标识 utf-8或则gb2313
# headers配置件下方代码块。

headers 是需要构建的请求头字典,配置见下方代码块。
网页源代码:response.content.decode('utf-8') 最好自己解码, temp.text自动解码,但可能出错
其他属性response.encoding响应头编码 response.status_code查看响应码 response.url 查看url

post请求:

import requests
data = {
    'username': 'xxx',
    'password': 'xx',
    'random': 'xxxx',
}
headers = {
    'COOKIE': "xxx",
    'Referer': 'xx',
    'User-Agent': 'xxxx'
}
respOnse= requests.post(url, data=data, headers=headers)

其中url应该是可以接受post请求的url

data是提交的表单,需要在浏览器中先检查好格式,然后在代码中模仿

headers是请求头,为字典形式,一般需要加入'User-Agent' 'COOKIE' 'Referer'字段,这几个字段的知识百度即可,注意headers通常都是需要添加的,如果没有添加,很可能被识别为爬虫,从而被服务器拒绝访问。

代理:

proxy = {'http':'ip:port'}
temp = requests.get(url, headers=headers, params=params, proxies=proxy) 

从参数来看似乎可以加入多个代理ip,内部有自动处理方法

会话:
s = requests.Session() 创建会话类
s.post/get (url1,xxx) 成功后会保存COOKIE等信息 然后再访问其他网页即可
s.get(url2)

处理HTTPS协议时,证书不被信任,直接request.get(url, verify=False)

更多实战代码,请查看其他笔记。

3. requests库爬虫的基本流程

前面提到requests库适用于小爬虫,对于整站爬取这种工作是不适宜的,原因在于url防重控制和异步问题。

3.1 爬虫框架

第一步,分析需要爬取页面的规则,例如爬取拉勾网搜索python关键词之后的全部岗位,拉勾网先给出一个职位简介列表,点击没一个简介即可进入每个职位的详情页,而我们的爬虫正是需要解析这些详情页里面的内容。根据浏览器的user-agent, COOKIE, referer等字段伪造请求头。

第二步,分析url变化规则,例如boss直聘网的python职位列表变化在于page=x,所以只要在代码中加入

for x in (1, max+1) ,就可以遍历所有的列表,在其中取得详情页的url,其中max为网站中给出的最大值。

https://www.zhipin.com/c101270100/?query=python&page=4

第三步,使用xpath或者正则,在列表页中提取出详情页的url并访问,利用xpath或者正则表达式提取想要的信息

第四步,将信息存储(json, csv, txt等)

3.2 一个样例代码

# 古诗文网爬虫,正则表达式提取信息

import re
import csv
import requests


# 头部
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    'COOKIE': 'sec_tc=AQAAAOnYGRKNjAwAc6jZqzitZLqPPmaN; Hm_lvt_04660099568f561a75456483228a9516=1543214277; ASP.NET_SessiOnId=q2b21uwthctq4aad0vbc5x5e; Hm_lpvt_04660099568f561a75456483228a9516=1543214320',
    'referer': 'https://www.gushiwen.org/default_1.aspx',
}

# 处理页面信息的函数
def parse_page(url):
    global data  # data是列表,用于存储每篇古诗字典
    respOnse= requests.get(url, headers=HEADERS)
    response_text = response.text
    # 四个正则表达式 选中大范围再缩小范围,   .*?作用是非贪婪模式 获取两个标签之间的所有内容
    titles = re.findall(r'.*?(.*?)', response_text,re.DOTALL)
    dynasties = re.findall(r'

.*?(.*?)', response_text) authors = re.findall(r'.*?(.*?)', response_text) cOntens= re.findall(r'

(.*?)
', response_text, re.DOTALL) poeminfo = {} for i in contens: contens[contens.index(i)] = re.sub(r'<.*?>', "", i).strip() # .strip()函数用于去除\n 空格等 # zip函数是将多个列表依次打包,[1,2] [3,4]会被组合成(1,3) (2,4) for value in zip(titles, dynasties, authors, contens,): title, dynasty, author, cOntent= value # 这里相当于解包并对应取值 poeminfo = { 'title': title, 'dynasty': dynasty, 'author': author, 'content': content } data.append(poeminfo) # 存入列表 def get_url(): url_list = [] base_url = 'https://www.gushiwen.org/default_{}.aspx' for i in range(1, 100): url = base_url.format(i) url_list.append(url) return url_list def csv_write(data): # 构造头部 csv_headers = ['title', 'dynasty', 'author', 'content'] with open('gushici.csv', 'w', encoding='utf-8', newline='') as fp: writer = csv.DictWriter(fp, csv_headers) writer.writeheader() writer.writerows(data) fp.close() if __name__ == '__main__': data = [] list = get_url() for url in list: parse_page(url) for i in data: print(i) print("=" * 50) print(url) print("=" * 50) csv_write(data) # 将获取的数据写入csv文件

推荐阅读
  • 本文将介绍如何利用Python爬虫技术抓取国内主流在线学习平台的数据,并以51CTO学院为例,进行详细的技术解析和实践操作。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 本文介绍了Python编程中的字符串操作基础知识,包括字符串拼接、索引、子序列选择和查找。此外,还探讨了如何利用字符串处理技术从HTML代码中提取超链接信息,为简单的网页抓取打下基础。 ... [详细]
  • Python3 中使用 lxml 模块解析 XPath 数据详解
    XPath 是一种用于在 XML 文档中查找信息的路径语言,同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]
  • 随着毕业设计的结束,我终于有时间更新我的博客了。这次,我将分享如何在自己的服务器上搭建 Bitwarden,一个广受好评的开源密码管理工具。 ... [详细]
  • 本文探讨了URL在网络通信中的作用及其结构,重点介绍了如何在iOS中使用URLComponents类解析URL,并讨论了URL在应用间跳转和本地文件访问中的应用。 ... [详细]
  • 如何在UIWebView中加载本地图片
    本文详细介绍了如何在UIWebView中加载本地图片的方法,这对于需要在应用内展示静态页面和富文本内容的场景非常有用。 ... [详细]
  • 本文介绍了JSP的基本概念、常用标签及其功能,并通过示例详细说明了如何在JSP页面中使用Java代码。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文探讨了在不使用服务器控件的情况下,如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式,还介绍了其他可行的技术方案。 ... [详细]
  • 本文详细介绍如何使用Samba软件配置CIFS文件共享服务,涵盖安装、配置、权限管理及多用户挂载等关键步骤。通过具体示例和命令行操作,帮助读者快速搭建并优化Samba服务器。 ... [详细]
  • 本文详细介绍了在使用 SmartUpload 组件进行文件上传时,如何正确配置和查找文件保存路径。通过具体的代码示例和步骤说明,帮助开发者快速解决上传路径配置的问题。 ... [详细]
  • thereissomethingstrangeinmycode.Imsuretoforgetsomethingbutidontknowwhat.Itryto ... [详细]
author-avatar
三封封封_391
这个家伙很懒,什么也没留下!
Tags | 热门标签
RankList | 热门文章
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有