当前位置: 开发笔记 > 编程语言 > 正文

Python爬虫：某网站cookie参数__jsl_clearance_s生成分析（一）

作者：手机用户2502918505 | 来源：互联网 | 2023-09-16 13:59

Python爬虫：某网站cookie参数__jsl_clearance_s生成分析（一）,Go语言社区,Golang程序员人脉社

逛论坛发现一个求助帖，想获取数据但网站有COOKIE反爬，闲来无事就分析了一下COOKIE参数生成方法~

2021-01-04更新：如果此篇看不懂，可直接看第二篇，只要是网站使用的是同一家公司的服务，这个参数获取方式都是一样的。

目标：生成COOKIE中的__jsl_clearance_s参数

工具：chrome/firefox浏览器、fiddler、pychram、python3.7、解混淆专解测试版V0.1

模块：requests、re、execjs、json

分析：

首先打开浏览器，和fiddler抓包工具，发现浏览器进行了三次请求，前两次响应的状态码为521，响应内容都是一段js代码，第三次请求响应得到正常内容，并且携带了两个COOKIE参数；

在这里插入图片描述
通过三次请求对比，发现第三次请求COOKIE中的__jsl_clearance_s参数和第二次请求中的并不一样；
先看看第一次响应的结果，为一段js，这段js代码为浏览器设置了一个COOKIE；

这里直接利用正则将这段代码提取出来，再利用execjs模块执行，即可得到这个COOKIE：

# 提取js代码
js_clearance = re.findall('COOKIE=(.*?);location', response.text)[0]
# 执行后获得COOKIE参数js_clearance
result = execjs.eval(js_clearance).split(';')[0]

通过观察第二个请求，第二个请求再次得到一段js代码，并且携带了两个COOKIE参数，一个__jsluid_s、一个__jsl_clearance_s，而__jsl_clearance_s就是刚刚利用js生成的，__jsluid_s是第一次请求后为浏览器设置的；

继续分析得知第二次请求需要携带这两个COOKIE参数才能得到第二段js代码。这段js代码是混淆过的，利用解混淆专解测试版V0.1进行解混淆，得到正确的js代码；

简单解读COOKIE生成方法就是调用go方法并传入一个对象，最后该方法为浏览器设置一个COOKIE。那么思路就简单了，直接将js代码保存为本地文件，利用execjs模块执行代码调用go方法并传入需要的参数就能得到COOKIE；因为变量名都是混淆的，为了方便解读，修改一下js代码中的go函数：

function go(data) {
    var chars = data["chars"]["length"];
    for (var i = 0; i < chars; i++) {
      for (var j = 0; j < chars; j++) {
        var COOKIE = data["bts"][0] + data["chars"]["substr"](i, 1) + data["chars"]["substr"](j, 1) + data["bts"][1];
        if (hash(COOKIE) == data["ct"]) {
          return COOKIE;
        }
      }
    }
}

修改前go函数是主要作用是通过组合一段字符串加密后进行对比，得到正确COOKIE然后设置到浏览器，修改后是直接return返回正确COOKIE）；

js代码修改完成后保存到本地，js测试后发现有时会报错，多次抓包发现有三种加密方式，分别为md5、sha1、sha256，传入对象的参数ha的值不同，加密方式不同。那么思路有了，按上面的方法分别保存三套js加密代码，通过参数中的ha值判断使用哪一种加密，执行即可正确得到COOKIE；

# 提取js代码中的参数并转字典
parameter = json.loads(re.findall(r';go((.*?))', response.text)[0])
js_file = ''
# 判断需要使用的js代码
if parameter['ha'] == 'sha1':
    js_file = 'sha1.js'
elif parameter['ha'] == 'sha256':
    js_file = 'sha256.js'
elif parameter['ha'] == 'md5':
    js_file = 'md5.js'

整个请求过程利用session保持会话，最后得到的COOKIE添加进去进行第三次请求，即可得到正确响应内容。

总结：这个__jsl_clearance_s获取比较简单，懂一点js即可搞定，如果不懂也没关系，代码拿去。另外更新了一篇纯python实现获取，原理其实都是一样，可以看看。

本篇源代码：前往github

推荐阅读

search
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
search
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
version
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
request
如何在codeigniter中识别angularjs请求

本文讨论了如何在codeigniter中识别来自angularjs的请求，并提供了两种方法的代码示例。作者尝试了$this->input->is_ajax_request()和自定义函数is_ajax()，但都没有成功。最后，作者展示了一个ajax请求的示例代码。 ... [详细]

蜡笔小新 2023-12-12 12:37:07
request
Spring常用注解（绝对经典），全靠这份Java知识点PDF大全

本文介绍了Spring常用注解和注入bean的注解，包括@Bean、@Autowired、@Inject等，同时提供了一个Java知识点PDF大全的资源链接。其中详细介绍了ColorFactoryBean的使用，以及@Autowired和@Inject的区别和用法。此外，还提到了@Required属性的配置和使用。 ... [详细]

蜡笔小新 2023-12-12 10:15:07
request
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
request
python限制递归次数（python最大公约数递归）

本文目录一览：1、python为什么要进行递归限制 ... [详细]

蜡笔小新 2023-12-11 17:39:02
request
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
search
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
php
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
request
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
php
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
request
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15
php
利用中间件模式简化代码逻辑

在编写业务代码时，常常会遇到复杂的业务逻辑导致代码冗长混乱的情况。为了解决这个问题，可以利用中间件模式来简化代码逻辑。中间件模式可以帮助我们更好地设计架构和代码，提高代码质量。本文介绍了中间件模式的基本概念和用法。 ... [详细]

蜡笔小新 2023-12-12 15:08:23
php
uniapp开发H5解决跨域问题的两种代理方法

本文介绍了uniapp开发H5解决跨域问题的两种代理方法，分别是在manifest.json文件和vue.config.js文件中设置代理。通过设置代理根域名和配置路径别名，可以实现H5页面的跨域访问。同时还介绍了如何开启内网穿透，让外网的人可以访问到本地调试的H5页面。 ... [详细]

蜡笔小新 2023-12-11 17:56:21

手机用户2502918505

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章