当前位置: 开发笔记 > 编程语言 > 正文

python自动登陆网页原理

作者：强毛 | 来源：互联网 | 2023-10-15 20:10

有些网站设置了权限，只有在登录了之后才能爬取网站的内容，如何模拟登录，目前的方法主要是利用浏览器cookie模拟登录。浏览器访问服务器的过程在用户访问网页时，不论是通过URL输入域名或I

有些网站设置了权限，只有在登录了之后才能爬取网站的内容，如何模拟登录，目前的方法主要是利用浏览器COOKIE模拟登录。

浏览器访问服务器的过程

在用户访问网页时，不论是通过URL输入域名或IP，还是点击链接，浏览器向WEB服务器发出了一个HTTP请求（Http Request），WEB服务器接收到客户端浏览器的请求之后，响应客户端的请求，发回相应的响应信息（Http Response），浏览器解析引擎，排版引擎分析返回的内容，呈现给用户。WEB应用程序在于服务器交互的过程中，HTTP请求和响应时发送的都是一个消息结构。

Http消息

当浏览器向服务器发送请求的时候，发出http请求消息报文，服务器返回数据时，发出http响应消息报文，这两种类型的消息都是由一个起始行，消息头，一个指示消息头结束的空行和可选的消息体组成。http请求消息中，起始行包括请求方法,请求的资源， HTTP协议的版本号，消息头包含各种属性，消息体包含数据，GET请求并没有消息主体，因此在消息头后的空白行中没有其他数据。Http响应消息中，起始行包括HTTP协议版本，http状态码和状态，消息头包含各种属性，消息体包含服务器返回的数据内容。

如下图从fiddler抓取的http请求和http响应，GET请求内容为空，故消息头之后的空行和消息体都为空。

服务器发送的响应消息如下，浏览器正常接收到服务器发回的http报文

从上可以看到，COOKIE在http请求和http响应的头信息中，COOKIE是消息头的一种很重要的属性。

什么是COOKIE？
　　当用户通过浏览器首次访问一个域名时，访问的WEB服务器会给客户端发送数据，以保持WEB服务器与客户端之间的状态保持，这些数据就是COOKIE，它是 Internet 站点创建的 ,为了辨别用户身份而储存在用户本地终端上的数据，COOKIE中的信息一般都是经过加密的，COOKIE存在缓存中或者硬盘中，在硬盘中的是一些小文本文件,当你访问该网站时，就会读取对应网站的COOKIE信息，COOKIE有效地提升了我们的上网体验。一般而言，一旦将 COOKIE 保存在计算机上，则只有创建该 COOKIE 的网站才能读取它。

为什么需要COOKIE

Http协议是一个无状态的面向连接的协议，Http协议是基于tcp/ip协议层之上的协议，当客户端与服务器建立连接之后，它们之间的TCP连接一直都是保持的，至于保持的时间是多久，是通过服务器端来设置的，当客户端再一次访问该服务器时，会继续使用上一次建立的连接，但是，由于Http协议是无状态的，WEB服务器并不知道这两个请求是否同一个客户端，这两次请求之间是独立的。为了解决这个问题， Web程序引入了COOKIE机制来维护状态.COOKIE可以记录用户的登录状态，通常web服务器会在用户登录成功后下发一个签名来标记session的有效性，这样免去了用户多次认证和登录网站。记录用户的访问状态。

COOKIE的种类

会话COOKIE(Session COOKIE)：这个类型的COOKIE只在会话期间内有效，保存在浏览器的缓存之中，用户访问网站时，会话COOKIE被创建，当关闭浏览器的时候，它会被浏览器删除。持久COOKIE(Persistent COOKIE): 这个类型的COOKIE长期在用户会话中生效。当你设置COOKIE的属性Max-Age为1个月的话，那么在这个月里每个相关URL的http请求中都会带有这个COOKIE。所以它可以记录很多用户初始化或自定义化的信息，比如什么时候第一次登录及弱登录态等。 Secure COOKIE：安全COOKIE是在https访问下的COOKIE形态，以确保COOKIE在从客户端传递到Server的过程中始终加密的。 HttpOnly COOKIE ：这个类型的COOKIE只能在http(https)请求上传递，对客户端脚本语言无效，从而有效避免了跨站攻击。第三方COOKIE：第一方COOKIE是当前访问的域名或子域名下的生成的COOKIE。第三方COOKIE:第三方COOKIE是第三方域名创建的COOKIE。

COOKIE的构成

COOKIE是http消息头中的一种属性，包括：COOKIE名字（Name）COOKIE的值（Value），COOKIE的过期时间（Expires / Max-Age），COOKIE作用路径（Path），COOKIE所在域名（Domain），使用COOKIE进行安全连接（Secure）。前两个参数是COOKIE应用的必要条件，另外，还包括COOKIE大小（Size，不同浏览器对COOKIE个数及大小限制是有差异的）。

python模拟登录

设置一个COOKIE处理对象，它负责将COOKIE添加到http请求中，并能从http响应中得到COOKIE ，向网站登录页面发送一个请求Request, 包括登录url，POST请求的数据，Http header 利用urllib2.urlopen发送请求，接收WEB服务器的Response。首先我们查看登陆页面源码

当我们使用urllib处理url的时候，实际上是通过urllib2.OpenerDirector实例进行工作，他会自己调用资源进行各种操作如通过协议、打开url、处理COOKIE等。而urlopen方法使用的是默认的opener来处理问题，基本的urlopen()函数不支持验证、COOKIE或其他的HTTP高级功能。要支持这些功能，必须使用build_opener()函数来创建自己的自定义Opener对象。
COOKIElib模块定义了自动处理HTTP COOKIEs的类，用来访问那些需要COOKIE数据的网站，COOKIElib模块包括COOKIEJar，FileCOOKIEJar，COOKIEPolicy，DefaultCOOKIEPolicy，COOKIE及FileCOOKIEJar的子类MozillaCOOKIEJar和LWPCOOKIEJar，COOKIEJar对象可以管理HTTP COOKIEs，将COOKIE添加到http请求中，并能从http响应中得到COOKIE，FileCOOKIEJar对象主要是从文件中读取COOKIE或创建COOKIE，其中，MozillaCOOKIEJar是为了创建与Mozilla浏览器COOKIEs.txt兼容的FileCOOKIEJar实例，LWPCOOKIEJar是为了创建与libwww-perl的Set-COOKIE3文件格式兼容的FileCOOKIEJar实例，用LWPCOOKIEJar保存的COOKIE文件易于人类阅读。默认的是FileCOOKIEJar没有save函数,而MozillaCOOKIEJar或LWPCOOKIEJar都已经实现了。所以可以用MozillaCOOKIEJar或LWPCOOKIEJar，去自动实现COOKIE的save。

示例:

#! /usr/bin/env python#coding:utf-8
 
import sys
import re
import urllib2
import urllib
import requests
import COOKIElib
 
## 这段代码是用于解决中文报错的问题  
reload(sys)  
sys.setdefaultencoding("utf8")  
#####################################################
#登录人人
loginurl = 'http://www.renren.com/PLogin.do'
logindomain = 'renren.com'
 
class Login(object):
     
    def __init__(self):
        self.name = ''
        self.passwprd = ''
        self.domain = ''
 
        self.cj = COOKIElib.LWPCOOKIEJar()            
        self.opener = urllib2.build_opener(urllib2.HTTPCOOKIEProcessor(self.cj)) 
        urllib2.install_opener(self.opener)    
     
    def setLoginInfo(self,username,password,domain):
        '''设置用户登录信息'''
        self.name = username
        self.pwd = password
        self.domain = domain
 
    def login(self):
        '''登录网站'''
        loginparams = {'domain':self.domain,'email':self.name, 'password':self.pwd}
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36'}
        req = urllib2.Request(loginurl, urllib.urlencode(loginparams),headers=headers)  
        response = urllib2.urlopen(req)
        self.operate = self.opener.open(req)
        thePage = response.read()        
         
if __name__ == '__main__':   
    userlogin = Login()
    username = 'username'
    password = 'password'
    domain = logindomain
    userlogin.setLoginInfo(username,password,domain)
    userlogin.login()

推荐阅读

python
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
cookie
单页面应用 VS 多页面应用的区别和适用场景

本文主要介绍了单页面应用（SPA）和多页面应用（MPA）的区别和适用场景。单页面应用只有一个主页面，所有内容都包含在主页面中，页面切换快但需要做相关的调优；多页面应用有多个独立的页面，每个页面都要加载相关资源，页面切换慢但适用于对SEO要求较高的应用。文章还提到了两者在资源加载、过渡动画、路由模式和数据传递方面的差异。 ... [详细]

蜡笔小新 2023-12-10 19:31:50
cookie
LVS 实现负载均衡的原理

LVS实现负载均衡的原理LVS负载均衡负载均衡集群是LoadBalance集群。是一种将网络上的访问流量分布于各个节点，以降低服务器压力，更好的向客户端 ... [详细]

蜡笔小新 2023-12-10 12:10:22
md5
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
get
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
get
CentOS安装Python2.7.2的步骤和注意事项

本文介绍了在CentOS上安装Python2.7.2的详细步骤，包括下载、解压、编译和安装等操作。同时提供了一些注意事项，以及测试安装是否成功的方法。 ... [详细]

蜡笔小新 2023-12-12 13:54:31
get
如何进行Web.Config自定义配置节的配置转换

本文讨论了如何使用Web.Config进行自定义配置节的配置转换。作者提到，他将msbuild设置为详细模式，但转换却忽略了带有替换转换的自定义部分的存在。 ... [详细]

蜡笔小新 2023-12-11 17:54:55
get
OkHttp3的基本使用及其特性

本文介绍了OkHttp3的基本使用和特性，包括支持HTTP/2、连接池、GZIP压缩、缓存等功能。同时还提到了OkHttp3的适用平台和源码阅读计划。文章还介绍了OkHttp3的请求/响应API的设计和使用方式，包括阻塞式的同步请求和带回调的异步请求。 ... [详细]

蜡笔小新 2023-12-10 22:46:04
cookie
.NetCoreWebApi生成Swagger接口文档的使用方法

本文介绍了使用.NetCoreWebApi生成Swagger接口文档的方法，并详细说明了Swagger的定义和功能。通过使用Swagger，可以实现接口和服务的可视化，方便测试人员进行接口测试。同时，还提供了Github链接和具体的步骤，包括创建WebApi工程、引入swagger的包、配置XML文档文件和跨域处理。通过本文，读者可以了解到如何使用Swagger生成接口文档，并加深对Swagger的理解。 ... [详细]

蜡笔小新 2023-12-09 19:33:41
md5
Java大文件HTTP断点续传到服务器该怎么做？

最近由于笔者所在的研发集团产品需要，需要支持高性能的大文件http上传，并且要求支持http断点续传。这里在简要归纳一下，方便记忆 ... [详细]

蜡笔小新 2023-10-17 11:10:27
md5
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
object
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
request
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
main
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
bit
网卡工作原理及网络知识分享

本文介绍了网卡的工作原理，包括CSMA/CD、ARP欺骗等网络知识。网卡是负责整台计算机的网络通信，没有它，计算机将成为信息孤岛。文章通过一个对话的形式，生动形象地讲述了网卡的工作原理，并介绍了集线器Hub时代的网络构成。对于想学习网络知识的读者来说，本文是一篇不错的参考资料。 ... [详细]

蜡笔小新 2023-12-11 12:01:41

强毛

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章