热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pythonclick()打开新网页_网页自动化开发(第三章)

Selenium常用功能在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可

9707a1d8671227feac148984659523a9.png

 Selenium常用功能

在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可用ie和firefox)、查找并定位网页元素以及网页元素的操控。本节中,我们讲述Selenium的一些常用功能,如设置浏览器的参数、浏览器多窗口切换、设置等待时间、文件的上传与下载、COOKIEs处理以及frame框架操作。设置浏览器的参数是在定义driver的时候设置chrome_options参数,该参数是一个Options类所实例化的对象。其中常用的参数是设置浏览器是否可视化和浏览器的请求头等信息,前者可以加快代码的运行速度,后者可以有效地防止网站的反爬虫检测。具体的代码如下:line(17-20)

#!/usr/bin/python# -*- coding: UTF-8 -*-import jsonimport timeimport seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byclass GetSessionAndToken(): def __init__(self): chrome_options = Options() chrome_options.add_argument('accept=application/json, text/plain, */*') chrome_options.add_argument('accept-language=en-US,en;q=0.9')        UserAgent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' chrome_options.add_argument('User-Agent=' + UserAgent) self.driver = webdriver.Chrome(chrome_options=chrome_options)    #登录时候,最好加上time.sleep(),本地网络比较差,加上了延时 # 登录系统,具体到自己系统时需要自行修改 def login_system(self): try: url = 'https://portal.taobao-qa.com/' self.driver.maximize_window() # driver.minimize_window() self.driver.get(url) time.sleep(10) # '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button' self.driver.find_element_by_xpath( '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button').click() time.sleep(10) # 输入邮箱            self.driver.find_element_by_xpath('//*[@id="i0116"]').send_keys('taobao@tianmao.com') time.sleep(10) # Next self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(10) self.driver.find_element_by_xpath('//*[@id="i0118"]').send_keys('XXXXXXX') time.sleep(10) # sign in self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) # yes self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) print(self.driver.get_COOKIEs()); # print(COOKIEs) # COOKIEs = driver.get_COOKIE('AuthSessionId') # print(COOKIEs) except selenium.common.exceptions.NoSuchElementException: print("Error Message: no such element: Unable to locate element") def get_sessionid(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫sessionId,得具体看目标系统把sessionid存到哪个变量中 sessionid = self.driver.execute_script('return Storage.COOKIEs("AuthSessionId");') return sessionid # 获取token def get_token(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫token,得具体看目标系统把token存到哪个变量中 token = self.driver.execute_script('return sessionStorage.getItem("token");') # print(f"{token}") return token def __del__(self): # 退出程序时关闭浏览器 self.driver.close()if __name__ == "__main__": obj = GetSessionAndToken() obj.login_system()

上面代码基本都在一个界面下完成,打开浏览器,有时候会有多个新的页面打开,那么就需要通过Selenium的切换不同的页面来完成

例如:分别打开2个窗口,中间进行切换

def changepage(self): url = "https://www.iqiyi.com/" # 爱奇艺首页 self.driver.get(url) #百度窗口首页 js = 'window.open("http://www.baidu.com")' self.driver.execute_script(js)        # 获取当前显示的窗口信息        current_windows = self.driver.current_window_handle # 获取浏览器的全部窗口信息 self.handles = self.driver.window_handles # 设置延时 time.sleep(3) self.driver.switch_to_window(self.handles[0]) time.sleep(3) self.driver.switch_to_window(self.handles[1])

cf21bd9e0ca957648daad3d383a2f5ab.png

6和7行,定义了js的定义,execute_script的方法,浏览器很多是用到Javascript来实现,功能是很强大的。selenium的运行速度往往比网页快,这里加上了sleep()等待时间,让Selenium与网页响应尽量的达到同步。延时用Python中的time库的sleep实现。也可以设置隐形等待,

driver.implicitly_wait(30)上面设置30秒等待时间,网页只要在30秒内完成加载就会执行下一步,如果超过30秒,就会抛出异常,隐形设置时间,设置这个driver周期来作用的,只要设置一次就可以。

显性等待能够根据判断条件而进行灵活地等待,程序每隔一段时间检测一次,如果检测结果与条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间为止,然后抛出TimeoutException异常。显性等待的使用涉及到多个模块,包括By、expected_conditions和WebDriverWait,各个模块说明如下。

  •  By:设置元素定位方式

定位方式共8种:

ID、XPATH、LINK_TEXT、PARTIAL_LINK_TEXT、NAME、TAG_NAME、CLASS_NAME、CSS_SELECTOR。

expected_conditions:验证网页元素是否存在,提供了多种验证方式。

  • WebDriverWait的参数说明如下。

  • driver:浏览器对象driver。

  • timeout:超时时间,等待的最长时间。

  • poll_frequency:检测时间的间隔。

  • ignored_exceptions:忽略的异常,如果在调用until或until_not的过程中抛出的异常在这个参数里,则不中断代码,继续等待,如果抛出的异常在这个参数之外,则中断代码并抛出异常。默认值为NoSuchElementException。

  • until:条件判断,参数必须为expected_conditions对象。如果网页里某个元素与条件符合,则中断等待并执行下一个步骤。

  • until_not:与until的逻辑相反。

隐性等待和显性等待相比于time.sleep这种强制等待更为灵活和智能,可解决各种网络延误的问题,隐性等待和显性等待可以同时使用,但最长的等待时间取决于两者之间的最大数,如上述代码的隐性等待时间为30,显性等待时间为20,则该代码的最长等待时间为隐性等待时间。



推荐阅读
  • web.py开发web 第八章 Formalchemy 服务端验证方法
    本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例,详细说明了对各字段的验证要求,包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 图像因存在错误而无法显示 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的,最大不能超过XX ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • 开发笔记:Java是如何读取和写入浏览器Cookies的
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Java是如何读取和写入浏览器Cookies的相关的知识,希望对你有一定的参考价值。首先我 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • 本文讨论了编写可保护的代码的重要性,包括提高代码的可读性、可调试性和直观性。同时介绍了优化代码的方法,如代码格式化、解释函数和提炼函数等。还提到了一些常见的坏代码味道,如不规范的命名、重复代码、过长的函数和参数列表等。最后,介绍了如何处理数据泥团和进行函数重构,以提高代码质量和可维护性。 ... [详细]
  • 如何在HTML中获取鼠标的当前位置
    本文介绍了在HTML中获取鼠标当前位置的三种方法,分别是相对于屏幕的位置、相对于窗口的位置以及考虑了页面滚动因素的位置。通过这些方法可以准确获取鼠标的坐标信息。 ... [详细]
  • JS实现一键分享功能
    本文介绍了如何使用JS实现一键分享功能,并提供了2019独角兽企业招聘Python工程师的标准。同时,给出了分享到QQ空间、新浪微博和人人网的链接。 ... [详细]
  • Activiti7流程定义开发笔记
    本文介绍了Activiti7流程定义的开发笔记,包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式,以及生成流程图的方法。还介绍了流程定义部署的概念和步骤,包括将bpmn和png文件添加部署到activiti数据库中的方法,以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]
author-avatar
mobiledu2502886767
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有