问

python - pyspider 遇到防爬页面怎么处理？

哥哥很霸道_277 发布于 2022-10-28 06:55

遇到页面防爬，返回页面说需要验证是否是机器人输入验证码这种情况要怎么处理？这时候这个页面返回的是200，爬虫认为正常爬过页面了，但是实际并没有获得有效数据。
是通过判断抓没抓到数据，然后抛异常重新爬吗？这种情应该怎么处理

不知道我通过抛异常重爬这种方法是否正确？

4 个回答

使用代理ip来抓取网页吧，我个人觉得sleep()或者更换header信息都没什么用，因为有的网站是限制你ip在一段时间内的访问量，但网上那些代理ip的存活率很低，好做法是维护着一个代理池，把抓取的ip可以用的维护，不可用的去除，但效率真的不好

2022-10-29 12:05 回答

mobiledu2502868523
我认为应该加上相应的header信息，伪装成浏览器来进行访问。

2022-10-29 12:11 回答

mobiledu2502921883
你可以先验证本页面是否需要验证码，如果不需要直接爬；需要的话就把这个地址存下来。
当你的爬虫爬完了所有的地址，回过头再来处理这些需要需要的验证码的地址。

同时，为什么会出现爬虫被发现，我觉得你应该手工去访问几个页面，看看在headers里面是否有某些特定信息，包括不限于Rerferer。同时你需要注意：

代理IP qiyeboy/IPProxys
模拟UA
适当的休眠

我觉得你应该还是去用浏览器访问试试，看看header里面会不会出现特定的信息，还有去看看网页源码有没有什么js的限制

朋友一个很二的限制爬虫方法：不加载favicon就被认定为爬虫2333

2022-10-29 12:12 回答

西乡塘化民以精神
抛出异常，让 pyspider 自己重试（前提是没被封 ip）

2022-10-29 12:15 回答

mobiledu2502903113

撰写答案

今天，你开发时遇到什么问题呢？

热门标签