热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:Python模拟登陆练习——imooc.com登陆

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python模拟登陆练习——imooc.com登陆相关的知识,希望对你有一定的参考价值。写下这篇文章的时候

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python模拟登陆练习——imooc.com登陆相关的知识,希望对你有一定的参考价值。


写下这篇文章的时候,是博主学习python的第三天( 也许是第四天:( ),python是博主接触的第二门解释型语言(第一门是Javascript)。

讲真在很久之前就想要用博客记录自己的学习历程了,然而就像写日记一样,写着写着就放弃了-。-

so今天决定给自己一个好的开端~

博主的学习方式是直奔目的,遇到问题百度各种博客,网站,百度找不到google找,就这样。这种学习方式是真的见效快,但显而易见,基础会比较薄弱。

因此学习python的基本语法,就直奔爬虫了!

-----------------------------------以上是一段大前言---------------------------------------------

今天博主要把三天学习spider的过程,经验分享出来,希望能给一些新手们指点一下道路,也给自己的python生涯刻一道痕迹。

博主愚以为,模拟登陆网站无非有两种方式:



  1. 一是手动收取COOKIE。

    在浏览器登陆网站并完成登录后,然后打开开发者工具,随便访问某页面,根据实际情况找一条request,把COOKIE复制下来。



  2. 二是python收取COOKIE。

    这也是本篇文章详细阐述的。见下。



现在让博主以imooc.com为例讲解一下网站的模拟登陆


 开始

博主习惯用urllib2+COOKIElib的方式写爬虫,所以代码的一开始是这样的:


#coding=utf8
import sys
reload(sys)
sys.setdefaultencoding(
utf8)
import urllib2
import urllib
import COOKIElib
#以上是套路
#
以下创建一个COOKIEjar管理COOKIE,同时创建opener并安装到urllib2中
cj = COOKIElib.COOKIEJar()
opener
= urllib2.build_opener(urllib2.HTTPCOOKIEProcessor(cj))
urllib2.install_opener(opener)
opener.addheaders
=[(user-agent,Mozilla/5.0)]

 

opener.addheaders可以以list的形式添加header,非常方便


 然后

COOKIE是一种服务器记录用户信息的小文件,尽管有时候会侵犯大家的隐私,但是在存储用户的登录信息实现自动登陆的方式还是很方便的。

它的工作流程是这样的:



  1. 首先服务器会在第一次访问网站时向浏览器返回一个response,其中会有几条set-COOKIE的信息,于是浏览器默默帮你把它记录到COOKIE中去

  2. 当你点击登陆,输入用户名、密码等必要信息后,浏览器会将你的信息连同以上COOKIEs中的某些一并post给服务器

  3. 登陆成功后浏览器又收到服务器的悄悄话——得到几条重要COOKIE并保存下来

  4. 如果此时你没关闭浏览器,在访问该网站其他页面时,浏览器会把某些COOKIE发送给服务器,这时候你发现你已经自动登录了

  5. 如果登陆时你选择了“自动登录”“7天内自动登陆”诸如此类checkbox,浏览器还会得到一些长久的COOKIE(十天半个月的)以便你明天登陆,后天登陆。。。。

了解COOKIE的工作原理后,我们访问一下主页,把COOKIE搞下来


博主是这样写的:


#先写下几条url
url_login = http://www.imooc.com/passport/user/login
url_index
= http://www.imooc.com
url_test
= http://www.imooc.com/user/setbindsns
data
= {
username:*********,
password:*******,
verify:‘‘,
remember:1,
pwencode:0,
referer:http://www.imooc.com
}
data_encoded
= urllib.urlencode(data)
#get主页获取COOKIE
req_index = urllib2.Request(url_index)
res_index
= opener.open(req_index)

我们可以打印下COOKIE看看:


print cj._COOKIEs

 


 {‘www.imooc.com‘: {‘/‘: {‘PHPSESSID‘: COOKIE(version=0, name=‘PHPSESSID‘, value=‘3q1c66hds4h054f19ciqb4rtg2‘, port=None, port_specified=False, domain=‘www.imooc.com‘, domain_specified=False, domain_initial_dot=False, path=‘/‘, path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={}, rfc2109=False)}}, ‘.imooc.com‘: {‘/‘: {‘imooc_isnew_ct‘: COOKIE(version=0, name=‘imooc_isnew_ct‘, value=‘1486280759‘, port=None, port_specified=False, domain=‘.imooc.com‘, domain_specified=True, domain_initial_dot=True, path=‘/‘, path_specified=True, secure=False, expires=1517816759, discard=False, comment=None, comment_url=None, rest={}, rfc2109=False), ‘cvde‘: COOKIE(version=0, name=‘cvde‘, value=‘5896d8376631d-1‘, port=None, port_specified=False, domain=‘.imooc.com‘, domain_specified=True, domain_initial_dot=True, path=‘/‘, path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={}, rfc2109=False), ‘imooc_isnew‘: COOKIE(version=0, name=‘imooc_isnew‘, value=‘1‘, port=None, port_specified=False, domain=‘.imooc.com‘, domain_specified=True, domain_initial_dot=True, path=‘/‘, path_specified=True, secure=False, expires=1517816759, discard=False, comment=None, comment_url=None, rest={}, rfc2109=False), ‘imooc_uuid‘: COOKIE(version=0, name=‘imooc_uuid‘, value=‘d6a73549-4d53-47b6-90bc-28888d3438b8‘, port=None, port_specified=False, domain=‘.imooc.com‘, domain_specified=True, domain_initial_dot=True, path=‘/‘, path_specified=True, secure=False, expires=1517816759, discard=False, comment=None, comment_url=None, rest={}, rfc2109=False)}}}

这是什么,我不知道。Let it go.


然后

那我们带着COOKIE去登陆吧!不知道带哪一条?全带走!


req_login = urllib2.Request(url_login,data_encoded)
res_login
= opener.open(req_login)

 

我们试着把结果打印在html上:


imooc = open(e:/imooc.html,w)
imooc.write(res_login.read())
imooc.close()

 当我们打开: 技术分享

 这TM好像不是个html,通常情况下他会返回一个html,然而这串符号难住了学了3天python的小白。

注意到一条信息: “msg” : "\\u6210\\u529f"显然是unicode格式的字符串,简单转化后,他的意思是 :“成功” 

博主窃喜。既然成功了,那么有效信息一定存在于这串符号中。 

到此,正确的思路是,拿着这2条url,uid用开发者工具继续搜索相关信息。

。。

然而博主走了一条小弯路。


逆向分析大法

博主决定把登陆之后的COOKIEs复制下来,逐条测试登陆需要的COOKIE

很简单,一条一条的删,看什么时候能登陆就好了。。。

。。。。

经过筛选,博主找到2条我们需要的COOKIE:loginstate、apsid。

于是博主决定在近百条COOKIE中找一下apsid这条信息

。。。

找到了!

技术分享

 

而访问的url就是我们得到的2条之一!只是带了几个参数

实践证明这2条随便选一条get一下就得到我们需要的COOKIE了。


窃喜

我们需要3个参数:token(url已经附带)、callback、 _(下划线-。-)

经验证 ,callback参数是固定值。

好的,那我们搜索一下下划线的值。

查下COOKIE,发现它是imooc_isnew_ct的值

到这里基本已经大功告成了~

全部代码:


#coding=utf8
#
最后版本
import sys
reload(sys)
sys.setdefaultencoding(
utf8)
import urllib2
import urllib
import COOKIElib
cj
= COOKIElib.COOKIEJar()
opener
= urllib2.build_opener(urllib2.HTTPCOOKIEProcessor(cj))
urllib2.install_opener(opener)
opener.addheaders
=[(user-agent,Mozilla/5.0)]
url_login
= http://www.imooc.com/passport/user/login
url_index
= http://www.imooc.com
url_test
= http://www.imooc.com/user/setbindsns
data
= {
username:13153154784,
password:liuweidong,
verify:‘‘,
remember:1,
pwencode:0,
referer:http://www.imooc.com
}
data_encoded
= urllib.urlencode(data)
#get主页获取COOKIE
req_index = urllib2.Request(url_index)
res_index
= opener.open(req_index)
print cj._COOKIEs
print
#post登陆页面
req_login = urllib2.Request(url_login,data_encoded)
res_login
= opener.open(req_login)
print res_login.read()
res_dict
= eval(res_login.read())
url_ssologin
= res_dict[data][url][0]
print url_ssologin
import re
url_ssologin
= re.sub(r\\\\/,/,url_ssologin)
print url_ssologin
params
= {
callback:jQuery19106404770042720387_1486274878204,
_: str(cj._COOKIEs[.imooc.com][/][imooc_isnew_ct])[23:33]
}
url_ssologin
= url_ssologin+&+urllib.urlencode(params)
#sso登陆页面
req_sso = urllib2.Request(url_ssologin)
res_sso
= opener.open(req_sso)
# print res_sso.read()
#
print cj._COOKIEs[‘.imooc.com‘][‘/‘][‘loginstate‘]

req_test
= urllib2.Request(url_test)
res_test
= opener.open(req_test)
imooc
= open(c:/users/asus/desktop/imooc.html,w)
imooc.write(res_test.read())
imooc.close()

 

博主其实遇到了好多问题,走了好多弯路,感谢某dalao的无私帮助:)

第一次写博客,欢迎技术交流与指正~

 


推荐阅读
  • 关键词:Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]
  • Go Cobra命令行工具入门教程
    本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中,如Kubernetes、Hugo和Github CLI等。通过使用Cobra,我们可以快速创建命令行工具,适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]
  • 本文介绍了django中视图函数的使用方法,包括如何接收Web请求并返回Web响应,以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]
  • Skywalking系列博客1安装单机版 Skywalking的快速安装方法
    本文介绍了如何快速安装单机版的Skywalking,包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本文介绍了Perl的测试框架Test::Base,它是一个数据驱动的测试框架,可以自动进行单元测试,省去手工编写测试程序的麻烦。与Test::More完全兼容,使用方法简单。以plural函数为例,展示了Test::Base的使用方法。 ... [详细]
  • 在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
    像不少公司内部不同团队都会自己研发自己工具产品,当各个产品逐渐成熟,到达了一定的发展瓶颈,同时每个产品都有着自己的入口,用户 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤,包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • 本文介绍了使用cacti监控mssql 2005运行资源情况的操作步骤,包括安装必要的工具和驱动,测试mssql的连接,配置监控脚本等。通过php连接mssql来获取SQL 2005性能计算器的值,实现对mssql的监控。详细的操作步骤和代码请参考附件。 ... [详细]
  • 延迟注入工具(python)的SQL脚本
    本文介绍了一个延迟注入工具(python)的SQL脚本,包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试,并通过延迟时间来判断注入是否成功。 ... [详细]
author-avatar
Toby_魚5902
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有