Python爬虫：为什么你爬取不到网页数据：爬虫突然爬不到数据

作者：爱你想你疼你吻你_514 | 来源：互联网 | 2023-06-04 10:40

本文主要分享【爬虫突然爬不到数据】，技术文章【Python爬虫：为什么你爬取不到网页数据】为【il_持之以恒_li】投稿，如果你遇到Python,爬虫相关问题，本文相关知识或能到你。爬虫突然爬不到数

本文主要分享【爬虫突然爬不到数据】，技术文章【Python爬虫：为什么你爬取不到网页数据】为【il_持之以恒_li】投稿，如果你遇到Python,爬虫相关问题，本文相关知识或能到你。

爬虫突然爬不到数据

前言：

之前小编写了一篇关于爬虫为什么爬取不到数据文章（文章链接为：https://liuze.blog.csdn.net/article/details/105965562），但是当时小编也是胡乱编写的，其实里面有很多问题的，现在小编重新发布一篇关于爬虫爬取不到数据文章，希望各位读者更加了解爬虫。

请添加图片描述

1. 最基础的爬虫

通常编写爬虫代码，使用如下三行代码就可以实现一个网页的基本访问了。

from urllib import request

rsp = request.urlopen(url='某某网站')
print(rsp.read().decode('编码'))

或者

import requests

rsp = requests.get(url='某某网站')
print(rsp.text)

但是，有的网站你使用上述方式访问时，有可能出现一下情况：

直接报错；没有报错，但是给出相应的响应码，如403；没有报错，但是输出信息没有在浏览器上看到的那么多（这有可能是网页使用了动态加载的原因）。 2. 添加请求头的爬虫

上述讲到的三种情况，怎样解决呢？基本方式是添加一个请求头（请求头的字段通常只需添加user-agent字段即可，用来模拟浏览器访问；然而有的网站用Python爬虫来访问时，可能还要添加其他字段，最好是把这个网页所有请求头字段信息全部添加上；有的网页全部请求头字段信息全部添加上，然而也访问不到数据，这种情况小编也没有什么好的解决办法，不知道使用selenium模块直接操控浏览器是否可以，没有试过）。

如用urllib模块来访问bilibili网站时会报错，如下：

请添加图片描述

但是添加请求头之后，就可以正常访问了。

请添加图片描述

参考代码如下：

from urllib import request

url = 'https://www.bilibili.com/'

headers = {
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4507.400'
}

req = request.Request(url=url,headers=headers)
rsp = request.urlopen(req)
print(rsp.read().decode('utf-8'))

如用urllib模块来访问百度网站时会出现如下情况：

请添加图片描述

很显然，这个网页不可能就这么点代码标签，添加一个请求头之后，如下：

请添加图片描述

3. 动态网页加载的数据

提到动态网页，读者首先可以去看看小编的这篇文章：Python爬虫：什么是静态网页(数据)，什么是动态网页(数据)，小编学习过后端知识，大体知道为什么用上述方式访问不到相应的数据。why（大概是这样吧！也有可能讲的不对，希望读者指正[如果有错误的话]，一般而言，我们用爬虫爬取得到的数据是当前网页已经完全加载的，然而动态网页使用了ajax技术，而执行者一段ajax代码好像是网页完全加载之后才执行的，因此你用爬虫爬取不到那部分数据。）
此时，你有两种解决方式：

找到这个ajax的相关网页链接，访问这个链接，从而得到相关数据；直接使用selenium这个模块，操作浏览器访问。

如果读者使用第1种解决方式，有可能你访问的那个链接一些参数是加密的，这时你需要利用js断点（使用谷歌浏览器），找到那段加密参数加密之前的数据信息和相关的一些js加密函数，找到加密之前的数据信息的组合规则。关于js加密函数，如果简单的话，直接用Python模拟出加密效果即可；如果复杂的话，最好使用execjs或者其他Python模块下的一些方法去执行这些js加密函数。
上述关于使用第1种解决方式，小编过去做过的有Python爬虫爬取酷狗音乐、网易云音乐、斗鱼视频等。有兴趣的读者可以去看看小编的爬虫专栏，链接为：https://blog.csdn.net/qq_45404396/category_9687415.html，当然，有一些文章发表在博客园，博客主页为：https://www.cnblogs.com/liuze-2/

4. 总结

有的读者也许会问，如果我ip封掉了，怎样爬取网页数据，其实，使用相关ip代理即可，读者可以去看看小编的爬虫专栏，里面有讲ip代理的相关文章。另外，还有一些高大上的反爬措施，小编并不是很了解，就不在这一一赘述了，如果未来小编真的了解到了，到时候再在本文章后加上吧！

本文《Python爬虫：为什么你爬取不到网页数据》版权归il_持之以恒_li所有，引用Python爬虫：为什么你爬取不到网页数据需遵循CC 4.0 BY-SA版权协议。

推荐阅读

ip
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
ip
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
ip
Python爬取豆瓣数据实现过程解析

这篇文章主要介绍了Python爬取豆瓣数据实现过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值, ... [详细]

蜡笔小新 2023-10-16 12:46:01
import
Scrapy 爬取图片

1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]

蜡笔小新 2023-10-14 15:02:27
ip
python爬虫如何使用代理ip,Python ip代理

博主使用代理IP来自于网上免费提供高匿IP的这个网站用到的库frombs4importBeautifulSoupimportrandomimporturllib.re ... [详细]

蜡笔小新 2023-10-13 18:52:58
import
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
python
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
js
延迟注入工具（python）的SQL脚本

本文介绍了一个延迟注入工具（python）的SQL脚本，包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试，并通过延迟时间来判断注入是否成功。 ... [详细]

蜡笔小新 2023-12-12 10:36:42
python
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
python
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
ip
开发笔记:正则表达式python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了正则表达式python相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-13 18:34:35
ip
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
php
PHP二维数组根据某个字段排序的方法

本文介绍了一种在PHP中对二维数组根据某个字段进行排序的方法，以年龄字段为例，按照倒序的方式进行排序，并给出了具体的代码实现。 ... [详细]

蜡笔小新 2023-12-11 10:56:01
format
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
string
NetCore WebAPI开发探索及部署方法详解

本文介绍了NetCore WebAPI开发的探索过程，包括新建项目、运行接口获取数据、跨平台部署等。同时还提供了客户端访问代码示例，包括Post函数、服务器post地址、api参数等。详细讲解了部署模式选择、框架依赖和独立部署的区别，以及在Windows和Linux平台上的部署方法。 ... [详细]

蜡笔小新 2023-12-09 18:38:28

爱你想你疼你吻你_514

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章