热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

爬虫1.1-基础知识:学习使用requests库

目录爬虫-基础知识+requests库1.状态返回码2.URL各个字段解释2.requests库3.requests库爬虫的基本流程

目录

  • 爬虫-基础知识+requests库
    • 1. 状态返回码
    • 2. URL各个字段解释
    • 2. requests库
    • 3. requests库爬虫的基本流程

爬虫-基础知识+requests库

关于html的知识,可以到w3school中进行了解学习。http://www.w3school.com.cn/html/index.asp,水平有限,这里不多提及。

1. 状态返回码

标志这这一次的请求状态,成功或失败,失败原因大概是什么

200:请求正常,服务器正常返回数据。 不代表爬去到正确信息了
301:永久重定向,比如访问www.jingdong.com 会重定向到www.jd.com
302:临时重定向,比如访问一个需要登陆的网站时,因为没有登陆会重定向到登陆页面
400:请求的url在服务器上找不到。url错误
403:服务器拒绝,权限不够
500:服务器内部错误,服务器出现bug

2. URL各个字段解释

URL:scheme://host:port/path/?query-string=xxx#anchor
scheme: 代表的是访问的协议,http https ftp...
host:主机名,域名,baidu.com
port:端口号,一般浏览器默认80
path:查询路径,文件在服务器中的位置
query-string:查询字符串,例如www.baidu.com/s?wd=python
anchor:锚点,前端用于给关键词定位的

示例

https://www.baidu.com/s?ie=UTF-8&wd=python

https://baike.baidu.com/item/html标签/6999473?fr=aladdin#2

2. requests库

requests库是python中一个非常强大的网络请求库,常用来写一些小爬虫、

浏览器抓包:使用谷歌浏览器,按F12点击Network,再按F5刷新页面即可抓包查看请求头(Requst Headers)和

表单(Form Data)数据,拷贝到自己的代码中即可防止被服务器发现一个爬虫。

get请求:

import requests
respOnse= requests.get(url, headers=headers)
print(response.content.decode('utf-8')) 
# 网页编码不全都是utf-8格式,也有可能是gbk,可以在浏览器中右键查看网页源代码,一般在最开头几行有标识 utf-8或则gb2313
# headers配置件下方代码块。

headers 是需要构建的请求头字典,配置见下方代码块。
网页源代码:response.content.decode('utf-8') 最好自己解码, temp.text自动解码,但可能出错
其他属性response.encoding响应头编码 response.status_code查看响应码 response.url 查看url

post请求:

import requests
data = {
    'username': 'xxx',
    'password': 'xx',
    'random': 'xxxx',
}
headers = {
    'COOKIE': "xxx",
    'Referer': 'xx',
    'User-Agent': 'xxxx'
}
respOnse= requests.post(url, data=data, headers=headers)

其中url应该是可以接受post请求的url

data是提交的表单,需要在浏览器中先检查好格式,然后在代码中模仿

headers是请求头,为字典形式,一般需要加入'User-Agent' 'COOKIE' 'Referer'字段,这几个字段的知识百度即可,注意headers通常都是需要添加的,如果没有添加,很可能被识别为爬虫,从而被服务器拒绝访问。

代理:

proxy = {'http':'ip:port'}
temp = requests.get(url, headers=headers, params=params, proxies=proxy) 

从参数来看似乎可以加入多个代理ip,内部有自动处理方法

会话:
s = requests.Session() 创建会话类
s.post/get (url1,xxx) 成功后会保存COOKIE等信息 然后再访问其他网页即可
s.get(url2)

处理HTTPS协议时,证书不被信任,直接request.get(url, verify=False)

更多实战代码,请查看其他笔记。

3. requests库爬虫的基本流程

前面提到requests库适用于小爬虫,对于整站爬取这种工作是不适宜的,原因在于url防重控制和异步问题。

3.1 爬虫框架

第一步,分析需要爬取页面的规则,例如爬取拉勾网搜索python关键词之后的全部岗位,拉勾网先给出一个职位简介列表,点击没一个简介即可进入每个职位的详情页,而我们的爬虫正是需要解析这些详情页里面的内容。根据浏览器的user-agent, COOKIE, referer等字段伪造请求头。

第二步,分析url变化规则,例如boss直聘网的python职位列表变化在于page=x,所以只要在代码中加入

for x in (1, max+1) ,就可以遍历所有的列表,在其中取得详情页的url,其中max为网站中给出的最大值。

https://www.zhipin.com/c101270100/?query=python&page=4

第三步,使用xpath或者正则,在列表页中提取出详情页的url并访问,利用xpath或者正则表达式提取想要的信息

第四步,将信息存储(json, csv, txt等)

3.2 一个样例代码

# 古诗文网爬虫,正则表达式提取信息

import re
import csv
import requests


# 头部
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    'COOKIE': 'sec_tc=AQAAAOnYGRKNjAwAc6jZqzitZLqPPmaN; Hm_lvt_04660099568f561a75456483228a9516=1543214277; ASP.NET_SessiOnId=q2b21uwthctq4aad0vbc5x5e; Hm_lpvt_04660099568f561a75456483228a9516=1543214320',
    'referer': 'https://www.gushiwen.org/default_1.aspx',
}

# 处理页面信息的函数
def parse_page(url):
    global data  # data是列表,用于存储每篇古诗字典
    respOnse= requests.get(url, headers=HEADERS)
    response_text = response.text
    # 四个正则表达式 选中大范围再缩小范围,   .*?作用是非贪婪模式 获取两个标签之间的所有内容
    titles = re.findall(r'.*?(.*?)', response_text,re.DOTALL)
    dynasties = re.findall(r'

.*?(.*?)', response_text) authors = re.findall(r'.*?(.*?)', response_text) cOntens= re.findall(r'

(.*?)
', response_text, re.DOTALL) poeminfo = {} for i in contens: contens[contens.index(i)] = re.sub(r'<.*?>', "", i).strip() # .strip()函数用于去除\n 空格等 # zip函数是将多个列表依次打包,[1,2] [3,4]会被组合成(1,3) (2,4) for value in zip(titles, dynasties, authors, contens,): title, dynasty, author, cOntent= value # 这里相当于解包并对应取值 poeminfo = { 'title': title, 'dynasty': dynasty, 'author': author, 'content': content } data.append(poeminfo) # 存入列表 def get_url(): url_list = [] base_url = 'https://www.gushiwen.org/default_{}.aspx' for i in range(1, 100): url = base_url.format(i) url_list.append(url) return url_list def csv_write(data): # 构造头部 csv_headers = ['title', 'dynasty', 'author', 'content'] with open('gushici.csv', 'w', encoding='utf-8', newline='') as fp: writer = csv.DictWriter(fp, csv_headers) writer.writeheader() writer.writerows(data) fp.close() if __name__ == '__main__': data = [] list = get_url() for url in list: parse_page(url) for i in data: print(i) print("=" * 50) print(url) print("=" * 50) csv_write(data) # 将获取的数据写入csv文件

推荐阅读
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 欢乐的票圈重构之旅——RecyclerView的头尾布局增加
    项目重构的Git地址:https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集:http:www.jianshu.comno ... [详细]
  • 本文介绍了响应式页面的概念和实现方式,包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点,提出了选择方案的建议。同时,对于响应式页面的需求和背景进行了讨论,解释了为什么需要响应式页面。 ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文详细介绍了PHP中与URL处理相关的三个函数:http_build_query、parse_str和查询字符串的解析。通过示例和语法说明,讲解了这些函数的使用方法和作用,帮助读者更好地理解和应用。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 怎么在PHP项目中实现一个HTTP断点续传功能发布时间:2021-01-1916:26:06来源:亿速云阅读:96作者:Le ... [详细]
  • 本文介绍了django中视图函数的使用方法,包括如何接收Web请求并返回Web响应,以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
author-avatar
三封封封_391
这个家伙很懒,什么也没留下!
Tags | 热门标签
RankList | 热门文章
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有