项目案例分析

作者：黑_猫__警_长 | 来源：互联网 | 2023-06-07 14:18

需求分析题目：爬取裁判文书网(https:wenshu.court.gov.cn)，包含“宇通客车股份有限公司”涉及的案号，发布日期&#

需求分析

题目&＃xff1a;爬取裁判文书网(https://wenshu.court.gov.cn/)&＃xff0c;
包含“宇通客车股份有限公司”涉及的案号&＃xff0c;发布日期&＃xff0c;案由&＃xff0c;案件名称&＃xff0c;链接等信息。
在这里插入图片描述

分析思路

快速开发&＃xff1a;使用selenium&＃43;Chrome&＃43;mongodb的解决方案

为了能快速拿到数据&＃xff0c;选择使用selenium&＃43;Chrome来抓数据。
打开网站主页&＃xff0c;在搜索框输入搜索内容&＃xff0c;点击搜索时&＃xff0c;提示需登录&＃xff0c;所以需注册一个账号&＃xff0c;且使用selenium实现账号的登录。
登录后&＃xff0c;再输入搜索内容“宇通客车股份有限公司”&＃xff0c;点击搜索&＃xff0c;就会获得服务端的响应数据。分析响应页面中数据内容的结构&＃xff0c;发现每页有五个案件&＃xff0c;均在类属性为"LM_list"的div元素块中。
获取页面中的5个div节点&＃xff0c;逐一的解析其中的目标数据。
然后模拟人点击“下一页”&＃xff0c;浏览器加载到数据后&＃xff0c;同样的方法解析页面的数据&＃xff0c;直到最后一页。所有解析的数据存入mongodb数据库。
爬取过程中&＃xff0c;注意给浏览器足够的时间&＃xff0c;加载数据&＃xff0c;渲染页面&＃xff0c;否则selenium无法从浏览器解析元素节点&＃xff0c;从而出现异常。
如果过多的关注爬取效率问题&＃xff0c;就需要使用requests/scrapy库来实现&＃xff0c;或者搭建分布式爬虫。

以上&＃xff0c;解决问题&＃xff01;

项目代码

from selenium import webdriver import pymongo import time import random import logging logging.basicConfig(level&＃61;logging.INFO,format&＃61;"%(asctime)s %(message)s")def parse_data(i):"""定义函数&＃xff1a;解析每一页的案例"""logging.info("正在解析第%d个页面..."%i)#解析第一页的数据,默认一页有5个案件&＃xff0c;在5个div块&＃xff0c;class&＃61;&＃39;LM_list&＃39;divs &＃61; browser.find_elements_by_class_name(&＃39;LM_list&＃39;)for d in divs:data &＃61; {}data["case_name"] &＃61; d.find_element_by_xpath(&＃39;./div[2]/h4/a&＃39;).textdata["case_link"] &＃61; d.find_element_by_xpath(&＃39;./div[2]/h4/a&＃39;).get_attribute("href")data["court_name"] &＃61; d.find_element_by_xpath(&＃39;./div[3]/span[1]&＃39;).textdata["case_id"] &＃61; d.find_element_by_xpath(&＃39;./div[3]/span[2]&＃39;).textdata["release_time"] &＃61; d.find_element_by_xpath(&＃39;./div[3]/span[3]&＃39;).textdata["case_reason"] &＃61; d.find_element_by_xpath(&＃39;./div[4]/p&＃39;).text#案例数据入库c1.insert_one(data)if __name__&＃61;&＃61;"__main__":#1.请求主页&＃xff0c;完成登录#打开浏览器browser &＃61; webdriver.Chrome()#get请求裁判网主页url &＃61; "https://wenshu.court.gov.cn/"browser.get(url)time.sleep(random.uniform(1,3)) #给浏览器时间&＃xff0c;完成页面的加载#最大化窗口browser.maximize_window()#模拟登录#在主页窗口找到"登录"节点,点击登录browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"loginLi"]/a&＃39;).click()time.sleep(random.uniform(0.5,1.5))#账号、密码输入框&＃xff0c;在页面内的iframe子页面内&＃xff0c;所以需切换到iframe节点#找到iframe节点iframe &＃61; browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"contentIframe"]&＃39;)#切换进去browser.switch_to.frame(iframe)#在iframe内的子页面查找账号、密码输入框#找到账号输入框,并输入账号browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"root"]/div/form/div/div[1]/div/div/div/input&＃39;).send_keys("account")time.sleep(random.uniform(1,3)) #模拟人的操作延时&＃xff0c;防止反爬#找到密码输入框&＃xff0c;并输入密码browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"root"]/div/form/div/div[2]/div/div/div/input&＃39;).send_keys("password")time.sleep(random.uniform(1,3)) #模拟人的操作延时&＃xff0c;防止反爬#找到登录按钮&＃xff0c;点击登录browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"root"]/div/form/div/div[3]/span&＃39;).click()time.sleep(random.uniform(3,5)) #给浏览器时间&＃xff0c;完成页面的加载#到此&＃xff0c;成功登录&＃xff01;#2. 在搜索框内&＃xff0c;输入"宇通客车股份有限公司"#找到搜索框browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"_view_1540966814000"]/div/div[1]/div[2]/input&＃39;).send_keys("宇通客车股份有限公司")time.sleep(random.uniform(0.5,1)) #模拟人的操作延时&＃xff0c;防止反爬#找到搜索按钮&＃xff0c;进行点击搜索browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"_view_1540966814000"]/div/div[1]/div[3]&＃39;).click()time.sleep(random.uniform(2,5)) #给浏览器时间&＃xff0c;加载数据#到此&＃xff0c;完成搜索功能&＃xff0c;并加载到数据#3.解析目标数据"""court_name:法院名称case_id:案号release_time:发布时间case_reason:案由case_name:案件名称case_link:案件的连接数据存入mongodb"""#连接mongo 数据库mongo &＃61; pymongo.MongoClient("localhost",27017)case &＃61; mongo["case"]c1 &＃61; case["case_c1"]#分页获取数据browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")time.sleep(random.uniform(2,3))i &＃61; 1while browser.find_element_by_link_text(&＃39;下一页&＃39;).get_attribute("class") &＃61;&＃61; " pageButton":#解析默认的当前页面的数据&＃xff0c;并存入mongodbparse_data(i)#点击 ‘下一页’browser.find_element_by_link_text(&＃39;下一页&＃39;).click()time.sleep(random.uniform(1,2)) #给浏览器时间&＃xff0c;加载数据#滚动条滑动到最下browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")time.sleep(random.uniform(0.5,1.5))i &＃43;&＃61; 1#控制抓取10页if i &＃61;&＃61; 10:break#解析最后一页数据&＃xff0c;此时页面中“下一页”不可点击#解析当前页面的数据&＃xff0c;并存入mongodbparse_data(i)time.sleep(5)#关闭浏览器browser.quit()
数据存储

在这里插入图片描述

目前&＃xff0c;控制程序抓了10页&＃xff0c;共50个案件。

项目的缺点

抓取的效率低&＃xff0c;selenium&＃43;Chrome组合的特性决定的
可以设置无头浏览器&＃xff0c;只在内存渲染页面&＃xff0c;提高效率
代码的结构&＃xff0c;可以优化&＃xff0c;实现面向对象
创建scrapy/scrapy-redis项目

常用的反爬机制

检查请求头
User-Agent
COOKIE
Referer
检查IP的访问频率
使用代理IP
检查同一个账户发请求的频率
设置一定的访问延时
使用不同的COOKIEs&＃xff0c;模拟不同的账户
js请求加密
解析加密算法&＃xff0c;使用python构造加密数据&＃xff0c;发请求
图形验证码
简单的图形验证码-----pytesseract/ tesseract-ocr
滑块验证-------selenium模拟人的滑动&＃xff0c;先快&＃xff0c;后慢

推荐阅读

web
pymongo 的几个常用操作

学到了MongoDBMongo是一个基于分布式文件存储的数据库,由C++编写,旨在为Web应用提供可拓展的高性能数据存储解决方案.它介于关系数据库和非关系数据库之间,在非关系数据 ... [详细]

蜡笔小新 2023-10-13 10:17:50
web
如何用 Python 在 MongoDB 中导入 JSON 文件？

如何用Python在MongoDB中导入JSON文件？ ... [详细]

蜡笔小新 2023-09-14 18:28:34
install
（廿二）Python：MongoDB存储

大部分情况下爬取的数据特别灵活，不一定只有指定的几个字段数据，这时候就需要将数据存储在非关系型数据库中了，MongoDB是由C语言编写的& ... [详细]

蜡笔小新 2023-09-13 17:06:56
install
如何用 Python 为 MongoDB Collection 创建索引？

如何用Python为MongoDBCollection创建索引？ ... [详细]

蜡笔小新 2023-09-12 15:38:02
web
python 哪些比赛项目_Python 的练手项目有哪些值得推荐？

谢邀。---2016.09.20补充---GitHub-gregmalcolmpython_koans:PythonKoans是个不错的练手项目，我还曾经给它贡献过代 ... [详细]

蜡笔小新 2023-10-13 09:08:03
tree
爬虫实践-爬取简书网用户动态信息

jianshuwanguser.py:importrequestsfromlxmlimportetreeimportpymongoclientpymongo.MongoClie ... [详细]

蜡笔小新 2023-10-12 18:37:57
email
TypeError：“位置”类型的对象不可JSON序列化文本地址点坐标原始命题响应文本地址+点坐标

我正在为我的Flask网络应用程序使用geopy库。我想将我从模态（html ... [详细]

蜡笔小新 2023-09-25 14:40:42
grid
Python爬虫使用MongoDB 提示No connection adapters were found for如何解决？

Python爬虫使用MongoDB 提示No connection adapters were found for如何解决？ ... [详细]

蜡笔小新 2023-09-17 18:18:42
grid
pymongo 介绍和使用示例

背景最近项目中用到了mongodb，并且用python的pymongo包操作。本文就把目前遇到的问题和学习经历做个小结，方便日后查询。Mongodb启动安装mongodbhttp ... [详细]

蜡笔小新 2023-09-16 15:39:07
web
postman测试登录后的接口_使用postman进行接口测试的方法(测试用户管理模块)

本文介绍了使用postman进行接口测试的方法，以测试用户管理模块为例。首先需要下载并安装postman，然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时，可以进行异常测试，包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]

蜡笔小新 2023-12-14 10:29:45
web
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
version
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
version
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
web
django视图函数的使用方法

本文介绍了django中视图函数的使用方法，包括如何接收Web请求并返回Web响应，以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]

蜡笔小新 2023-12-12 16:02:59
web
python爬抖音数据（爬虫抖音数据）

本文目录一览：1、python语言主要是做什么的 ... [详细]

蜡笔小新 2023-09-14 09:31:34

黑_猫__警_长

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章