热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python3.6爬虫库_python3.6之抓取LaGou网爬虫职位详解

目标:抓取LaGou网爬虫职位,下载于数据库MongoDB,并可视化于pycharm。我们采用:requests(获取)——

目标:抓取LaGou网爬虫职位,下载于数据库MongoDB,并可视化于pycharm。

我们采用:requests(获取)——MongoDB——PyCharm可视化

废话不多说,先上结果与代码:

前言:

①:安装PyMongo(pip install pymongo),这是Python操作MongoDB的驱动程序

②:抓取页面,如图

现重点讲解代码四个部分:

一:MongoDB

这将建立连接到默认主机(localhost)和端口(27017)

mongodb的详细功用可前往官网

二:真实的urls

异步加载中,真实的url并非https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=,真正的url需要我们通过抓包获取,流程如图:

所以我们得出真实url:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0

三:请求方法post (之前的文章都是get)

通过抓包我们可以看出拉钩网的请求方法是post,所以我们要加入请求表单form_data

四:请求头(headers)

每个网站的请求头都会不一样,但爬取的网站,都有例子,大家初期,跟着选就行,如图:

大家可以对比下我第四篇知乎的请求头

总结:

数据库是学习Python爬虫的必经之路,大家记得安装哦

MongoDB、pycharm可视化的安装,我都会在知乎上发表

下一篇文章,将学习使用函数实现LaGou翻页

有不清楚的地方,大家可以留言,点赞,我看到了,会第一时间回复你

近来考试与课程设计,很久没有更新,还望大家谅解

本系列文章同步跟新于微信公众号:工科男雷先生。知乎:雷之



推荐阅读
author-avatar
爱吃橘子的金XiaRui
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有