热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬虫岗位招聘_Python爬虫系列2抓取拉钩网2020年最新互联网岗位招聘信息

序言2019年即将逝去,转眼即将迎来2020年,一个全新的十年,一个互联网全新的时代:物联网时代,古语云&#x

序言

2019年即将逝去,转眼即将迎来2020年,一个全新的十年,一个互联网全新的时代:物联网时代,古语云:十年磨一剑,古时候烽火传递、飞鸽传书,交流信息很不方便。古人就幻想着有千里眼和顺风耳。能看到千里之外的地方和听到很远地方的声音。从2000年至2010年这十年,古人的愿望变成了现实;我们见证了全智能手机的发展历程;以及2010年至2020年的移动互联网从早期的2G网络过渡至3G到现在的4G网络甚至到目前已经慢慢普及但尚未成熟的5G网络的发展历程;我们也坚信未来的万物互联距离现如今的我们也并不是一件很遥远的事情。

今天抓取这个文章也是来源于我的一个学员,在帮助解决之后,顺变写成我的第二篇博客供大家学习使用。如果本文对你有些帮助-还请点赞👍关注!将持续更新更多新的文章。

image

- 实战

分析网站结构,确定我们要抓取的数据内容

通过 Chrome 浏览器右键检查查看 network 并对网站结构进行分析发现我们在 ajax 请求界面中,可以看到这些返回的数据正是网站页面中Python岗位招聘的详情信息。

[图片上传失败...(image-c04b3f-1600501598132)]

之后我们在查看headers的时候发现该网站请求的方式是Post请求,也就是说在请求的过程中需要携带Form Data数据,这一块在第一篇博客中也分析过,甚至请求的是另一种Post携带方式。

image

在多次对网页界面进行分析评测的时候,发现在点击第二页的时候Form Data的携带格式发生了变化。可以看到 pn=2 肯定是咱们的当前的页数。

image

第一步:不管三七二十一 ,先请求拿到数据在说

import requests

url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

# 发送携带的数据

form_data = {

'first': 'false',

'pn': 2,

'kd': 'python',

}

result=requests.post(url,data=form_data).text

print(result)

OUT:

{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.246.154.37","state":2408}

在直接请求界面的时候我们发现网站有反爬机制,不让我们请求《"msg":"您操作太频繁,请稍后再访问"》,我们携带请求头伪装一下,不行

image

这里我用了一种可以快速生成headers以及COOKIE的工具:https://curl.trillworks.com/ 用法如下:

image

image

我怀疑该网站具有多重反爬策略,当我在次添加COOKIEs试一下的时候;我们发现数据可以正常获取了;难道就这么简单就解决拉勾网数据获取的问题了吗?然而机智的我察觉到事情并没有想像的那么简单;

image

我的最终解决方案是共用 session,就是说我们在每次请求界面的时候先获取session然后原地更新我们的session之后在进行数据的抓取,最后拿到想要的数据。

image

第二步:对数据进行分解

import requests

import time

# 第一步 : 请求数据

def get_requests_data(url, form_data):

# 伪装浏览器

headers = {

'Origin': 'https://www.lagou.com',

'X-Anit-Forge-Code': '0',

'Accept-Encoding': 'gzip, deflate, br',

'Accept-Language': 'zh-CN,zh;q=0.9',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',

'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',

'Accept': 'application/json, text/Javascript, */*; q=0.01',

'X-Requested-With': 'XMLHttpRequest',

'Connection': 'keep-alive',

'X-Anit-Forge-Token': 'None',

}

time.sleep(3)

# 获取session

session_data = requests.session()

# 更新

session_data.headers.update(headers)

session_data.get("https://www.lagou.com/jobs/list_Python?px=new&city=%E5%85%A8%E5%9B%BD")

# 使用session发送post请求获取url及携带的参数保存到本地session中。

content = session_data.post(url=url, data=form_data)

result_data_list = result['content']['positionResult']['result']

for item_data in result_data_list:

list_data = []

list_data.append(item_data['city']) # 岗位对应城市

list_data.append(item_data['companyFullName']) # 公司全名

list_data.append(item_data['companyLabelList']) # 福利待遇

list_data.append(item_data['district']) # 工作地点

list_data.append(item_data['education']) # 学历要求

list_data.append(item_data['formatCreateTime']) # 发布时间

list_data.append(item_data['positionName']) # 职位名称

list_data.append(item_data['salary']) # 薪资

return list_data

if __name__ == '__main__':

url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

# 发送携带的数据

form_data = {

'first': 'false',

'pn': 2,

'kd': 'python',

}

info_list=get_requests_data(url, form_data)

print(info_list)

运行结果:

image

第三步:对解析数据进行存储

这里通过 excel 表格的形式进行存储;

需要 pip install xlwt 安装一下 xlwt 库.

import xlwt

info_result = []

title = ['城市', '公司名称', '福利待遇', '工作地点', '学历要求', '发布时间', '职位名称', '薪资']

info_result.append(title)

# 获取请求返回数据

info_list=get_requests_data(url, form_data)

# 创建workbook,即excel

workbook = xlwt.Workbook(encoding='utf-8')

worksheet = workbook.add_sheet('lg_lagou', cell_overwrite_ok=True)

# 遍历 枚举

for item, title_data in enumerate(info_list):

for item_data, content_data in enumerate(title_data):

worksheet.write(item, item_data, content_data)

workbook.save('lg_lagou.xls')

最终显示数据内容

image

在这个浮躁的时代;竟然还有人能坚持篇篇原创;

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

支持原创。感谢!



推荐阅读
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 利用Visual Basic开发SAP接口程序初探的方法与原理
    本文介绍了利用Visual Basic开发SAP接口程序的方法与原理,以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图,在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型,并强调本文主要不讨论SAP R/3函数的开发,而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例,讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快,性能和稳定性也不错,适合初学者学习和使用。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 拥抱Android Design Support Library新变化(导航视图、悬浮ActionBar)
    转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一,为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]
  • springmvc学习笔记(十):控制器业务方法中通过注解实现封装Javabean接收表单提交的数据
    本文介绍了在springmvc学习笔记系列的第十篇中,控制器的业务方法中如何通过注解实现封装Javabean来接收表单提交的数据。同时还讨论了当有多个注册表单且字段完全相同时,如何将其交给同一个控制器处理。 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
author-avatar
汤侑亦_473
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有