当前位置: 开发笔记 > 编程语言 > 正文

爬虫python需要什么软件Python爬虫需要学习那些东西？

作者：周月醉 | 来源：互联网 | 2023-10-11 14:01

基础爬虫过程基础的爬虫其实很简单的，主要过程就是：发送请求，并获取响应数据；解析响应数据，获取想要的那部分

基础爬虫过程

基础的爬虫其实很简单的&＃xff0c;主要过程就是&＃xff1a;发送请求&＃xff0c;并获取响应数据&＃xff1b;

解析响应数据&＃xff0c;获取想要的那部分数据&＃xff1b;

存储解析出来的数据&＃xff1b;

基础的爬虫事例

比如我们想写一个爬虫程序&＃xff0c;自动为我们获取bing搜索首页的备案号。 />bing搜索首页及备案号

1.首先我们就要找到能获取bing首页的URL&＃xff0c;这里不用找&＃xff0c;就是&＃xff1a;https://cn.bing.com/。然后我们就向这个URL发送一个get请求&＃xff0c;并得到响应内容。 />用浏览器请求bing搜索首页获取到的响应头 />用浏览器请求bing搜索首页获取到的响应体

2.然后用正则规则去匹配响应中介于“京ICP备”和“号”中间的内容&＃xff1b;

3.最终将解析出来的备案号&＃xff0c;存储至一个叫bing.txt的文件中&＃xff1b;

对应的完整代码如下&＃xff1a;

# coding&＃61;"utf-8"

# 导入requests库&＃xff0c;用于实现HTTP请求

import requests

# 导入正则库

import re

# 请求bing搜索首页&＃xff0c;并获取响应

response &＃61; requests.get("https://cn.bing.com/")

# 响应头部内容

print(response.headers)

#响应体内容

print(response.text)

# 解析响应内容&＃xff0c;获取其中我们想要的备案号

number &＃61; re.findall(r&＃39;京ICP备(.&＃43;?)号&＃39;, response.text)[0]

print(number)

# 将备案号存储到txt文件中

f &＃61; open("bing.txt", &＃39;a&＃39;)

f.write("bing搜索的备案号为&＃xff1a;%s" % number)

f.close()

程序运行后最终输入的结果如下&＃xff08;对比一下&＃xff0c;是不是和浏览器获取到的内容一致&＃xff09;&＃xff1a; />程序运行打印的响应头和响应体 />保存至txt文件的备案号

基础爬虫需要学习的内容

基于上面一个简单的实例&＃xff0c;应该了解到&＃xff0c;基础爬虫部分&＃xff0c;我们只需要掌握以下内容即可。

1.获取URL

也就是大家常说的接口&＃xff0c;大概意思就是你从哪个URL才能获取到你想要的数据。简单的我们从浏览器中就可以看到。然而如果是想要获取App的数据呢&＃xff1f;所以这里还需要需求一个基本的抓包工具的使用&＃xff08;常见的抓包工具有Fiddler、Wireshark等&＃xff0c;新手推荐用Fiddler&＃xff09; />

2.模拟发送基本的请求

当获取到URL之后&＃xff0c;我们需要模拟请求一下&＃xff0c;看看是否可行。这里推荐大家写代码之前先用postman工具进行模拟请求&＃xff0c;请求没问题后再写代码。学习两种常见请求类型的传参方式&＃xff08;get请求、post请求&＃xff09;。并且掌握请求中的基本参数&＃xff0c;比如&＃xff1a;user-agent、host、origin、COOKIE、表单参数等。 />使用postman进行模拟请求

3.数据解析

数据解析方面就比较固定了&＃xff0c;掌握基本的正则匹配、Beautifulsoup、Xpath、json解析即可。其中正则匹配性能最好&＃xff0c;但是研究正则规则比较麻烦&＃xff0c;Beautifulsoup语法人性化&＃xff0c;最简单&＃xff0c;但是性能差一些&＃xff0c;所以我一般选这种的xpath解析。推荐大家安装浏览器插件Xpath Helper&＃xff0c;可以直接在浏览器中先模拟解析。 />Xpath Helper插件进行模拟解析

4.数据存储

数据存储最常见的当然是存储至数据库了&＃xff0c;当然也有存储值excel、存储为json文件等等的。这里只需要掌握python操作数据库就够走遍天下了&＃xff0c;并且有精力的情况下最好将MySQL、Sqlite3、Mongodb、Redis都学习一下。

爬虫进阶需要学习的内容

了解了上面整个过程后&＃xff0c;基本写一下基础的爬虫就没问题了。但是实际项目中往往还需要一些进阶的内容&＃xff08;这也就是所谓的入门简单&＃xff0c;深入还是有一些细碎的知识&＃xff09;&＃xff1a;攻克对方的反爬虫&＃xff0c;这也是爬虫的重中之重&＃xff0c;这一步突破不了&＃xff0c;后面基本免谈&＃xff1b;

提高爬虫的效率&＃xff0c;这里主要是突破反爬虫限制后&＃xff0c;进一步提升数据获取的速度&＃xff1b;

提升爬虫程序的稳定性&＃xff0c;保证爬虫可以长久运行不出错&＃xff1b;

常见的反爬虫内容上的反爬虫&＃xff0c;比如内容中加了很多和主要书籍无关的数据&＃xff0c;浏览器中不会显示&＃xff0c;但是影响我们代码解析&＃xff0c;又或者用图片代替文本等等。所以需要我们熟练的灵活使用各种解析特性&＃xff0c;必要时还需要来个图像识别什么的。

机器验证&＃xff0c;常见的就是验证码了&＃xff0c;当然还有IP访问频率限制等。这里需要学习基本的代理池搭建&＃xff08;代理池的搭建可以参考我这篇文章&＃xff09;&＃xff0c;图像识别&＃xff0c;甚至机器学习等。MeetUp&＃xff1a;利用Python打造免费、高可用、高匿名的IP代理池zhuanlan.zhihu.com

3. 请求上的反爬虫&＃xff0c;比如请求中需要需要携带一些变化的参数&＃xff0c;这部分参数可能是登录的COOKIE信息&＃xff0c;可能是加密算法生成的参数等等。需要我们学习模拟登录&＃xff0c;js调试&＃xff0c;甚至App逆向分析等。

备注&＃xff1a;有时候我们也不能硬碰硬的去分析那些反爬虫&＃xff0c;大家都是程序员&＃xff0c;要学会找漏洞&＃xff0c;少掉一些头发哈~所以这里面有个基本的思路&＃xff0c;具体可以参考我这篇文章MeetUp&＃xff1a;抖音短视频无水印解析爬虫&＃xff0c;换个角度让爬虫更简单zhuanlan.zhihu.com

提高爬虫效率

学会写基本的爬虫调度&＃xff0c;意思就是调度请求、解析、数据保存这几件事情的一个方法。然后配合多进程和多线程来提升效率&＃xff0c;多线程方面&＃xff0c;爬虫上推荐大家多使用协程。有时候问了进一步提升效率和爬虫的稳定性&＃xff0c;还会将不同的事情放在不用的服务器上去完成&＃xff08;分布式爬虫部署&＃xff09;&＃xff0c;比如调度一个中央服务器&＃xff0c;然后分配A服务器去完成请求&＃xff0c;分配B去进行数据解析&＃xff0c;分配C去进行数据下载保存等等。

提升爬虫健壮性

这个在大型项目中是尤为重要的&＃xff0c;比如我们有1000万条数据需要获取&＃xff0c;但是获取到500万条的时候程序出错了&＃xff0c;这时候怎么处理呢&＃xff1f;是修复BUG&＃xff0c;放弃这500万数据&＃xff0c;重新开始呢&＃xff1f;还是断点继续呢&＃xff1f;基本的我们要知道哪里可能出错&＃xff0c;添上对应的错误捕获并记录哪条数据出了什么错误&＃xff0c;后续可针对出错的数据再单独爬取。如果想要做的更智能化一点&＃xff0c;我们就需要记录程序再哪个节点出错的&＃xff0c;当我们修复BUG后&＃xff0c;程序下次运行时&＃xff0c;程序能自动从此处开始。关于断点呢&＃xff0c;具体业务得具体对待&＃xff0c;没有固定的方式&＃xff0c;不过有几个通用的点可能都会用到&＃xff0c;那就是数据重复排查&＃xff0c;通过是否重复来判断是否继续。常见的去重就有&＃xff1a;数据库去重&＃xff08;查数据是否存在&＃xff09;、缓存去重&＃xff08;利用Redis中的set类型&＃xff09;、内存去重&＃xff08;HashSet、Bit-Map等等&＃xff09;

本人产品汪一枚&＃xff0c;爱好设计&＃xff0c;业余Coding&＃xff0c;总结的不好还望大佬轻喷&＃xff01;同时也欢迎大家一起交流学习~

推荐阅读

python
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
python
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
python
Python连接服务器失败：使用aiohttp模拟服务器出现错误问题及解决方法

本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题，并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息，同时也提到了相关的警告信息和函数的替代方案。通过阅读本文，读者可以了解到如何解决Python连接服务器失败的问题，并对aiohttp模块有更深入的了解。 ... [详细]

蜡笔小新 2023-12-13 12:37:59
python
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
python
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
python
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
python
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
select
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
object
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
md5
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
python
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
python
收集一些好用的搜索引擎的替代品

本文介绍了一些好用的搜索引擎的替代品，包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外，还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]

蜡笔小新 2023-12-13 16:47:45
python
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
python
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15

周月醉

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章