热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python浏览器怎么设置_python爬虫之浏览器伪装设置

之前使用爬虫去爬取网页的时候,user-agent对应的是python自己的名字,这将会告诉网站管理员;我就是爬虫哦,我来爬

之前使用爬虫去爬取网页的时候,user-agent对应的是python自己的名字,这将会告诉网站管理员;我就是爬虫哦,我来爬取信息了,说不准就不能爬取信息了,因此,在实际操作中可以采用修改user-agent的方法,将怕从伪装成浏览器,从而不暴露自己,具体操作和演示如下:

首先导入第三方requests库和并获取url,这里以豆瓣为例,并用r.request.hedaers获取返回信息的头部信息,可以看到这里的user-agent为python-requests/2.18.4'

>>> import requests

>>> r=requests.get('http://www.douban.com/')

>>> r.request.headers

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

接下来进行替换:

>>> kv={'user-agent':'Mozilla/5.0'}

>>> r=requests.get('http://www.douban.com/',headers=kv)

>>> r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

首先构造字典:

kv={'user-agent':'Mozilla/5.0'}

然后将headers的中user-agent替换为kv的键值对,如下操作

r=requests.get('http://www.douban.com/',headers=kv)

再次获取头部信息:

r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

可以看到此时的头部信息已经替换为了Mozilla/5.0了。

以上就是伪装浏览器了

欢迎交流



推荐阅读
author-avatar
mobiledu2502885407
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有