最近在写一个爬虫,需要爬取京东的商品信息。本来第一天还爬的好好的,第二天就提示要登录才能进去搜索页面了。
上网找的办法是添加COOKIE来实现自动登录。我写了一个程序,使用selenium+chrome,先手动登录一次之后,把COOKIE保存到数据库里,然后当需要登录时,自动从数据库里面读取COOKIE,并设置上去。
网上的代码大都是这样,但是事实证明这是不行的,没法登陆上去。
直到我看到一篇文章之后,才意识到,可能是因为COOKIE里面有些内容需要被替换,才能继续使用,于是我就加了一个重新构造COOKIE的代码,就能实现登录了!
代码片段:
def set_COOKIE(browser, url):log.logger.info("正在设置COOKIE。...")global current_ckidcurrent_ckid, COOKIE = utils.get_valid_COOKIE(url)# 在这里获取到了COOKIEif COOKIE is not None:browser.delete_all_COOKIEs()for ck in COOKIE:# print(ck)COOKIE_dict = {"domain": ".jd.com", # 火狐浏览器不用填写,谷歌要需要'name': ck.get('name'),'value': ck.get('value'),"expires": "",'path': '/','httpOnly': False,'HostOnly': False,'Secure': False}browser.add_COOKIE(COOKIE_dict)# browser.refresh()time.sleep(3)else:log.logger.warning("无可用COOKIE, 停止抓取...")
转载请注明来源:Selenium添加COOKIE来实现自动登录 | 龙进的博客