这是逻辑思维的微信公众号地址:http://mp.weixin.qq.com/profile?src=3×tamp=1475768533&ver=1&signature=WuQBZj2062fY9CO-nA8EqWxenuWJ9MUgKYKLX7rK9bkJ7KN1uJm62tWYcvV2CrZ4vryVP7*yYBuEqTXVFRJzOQ==
但是我是通过weixin.sogou.com
这个通过公众号名称搜索进去,然后获取到对应的网址的.
但是这样感觉非常麻烦,因为搜狗的反爬虫做得很厉害,时不时出现验证码不说,还要换ip~
如果这样,等于是要放请求一次了~
有没有比较好的方法,可以直接构建出公众号的请求网址..
对了顺便问下,这个采集微信的文章,一定要:
大量的代理ip?
验证码识别?
搜狗的反爬虫确实厉害,但是出现验证码不是坏事,反而是好事,从无奈的角度。。。之前设计的过程是使用:requests抓取搜索结果,得到具体的网页url,然后抓取里面内容。为了防止出现验证码导致内容抓取不完全,最后是通过添加判断页面是否进入验证码界面来调用虚拟浏览器,人工填入验证码,当然这个部分你可以使用opencv之类的,进行图像识别,主要看划算不划算。
PS:已经使用过代理和大量IP了,都没有上述方法好用。而且实际上,出现验证码次数不多,而通过代理ip等基本上次次出现验证码,不知道搜狗的反爬虫策略是什么,有点厉害啊。
还试验过,代理+tor的 不过最后还是不行。。。
试试神箭手云爬虫平台的微信公众号文章[多公众号] 采集爬虫支持云端自动采集,实时更新~
爬虫链接:http://www.shenjianshou.cn/in...
你给的公众号的地址其实存在过期的可能,有时间戳,有签名,存在不能打开的可能性。