问

python - 知道一个微信公众号以后,如何采集指定的文章?

如虎添一2012 发布于 2022-10-26 21:57

这是逻辑思维的微信公众号地址:
http://mp.weixin.qq.com/profile?src=3×tamp=1475768533&ver=1&signature=WuQBZj2062fY9CO-nA8EqWxenuWJ9MUgKYKLX7rK9bkJ7KN1uJm62tWYcvV2CrZ4vryVP7*yYBuEqTXVFRJzOQ==

但是我是通过weixin.sogou.com这个通过公众号名称搜索进去,然后获取到对应的网址的.
但是这样感觉非常麻烦,因为搜狗的反爬虫做得很厉害,时不时出现验证码不说,还要换ip~
如果这样,等于是要放请求一次了~

有没有比较好的方法,可以直接构建出公众号的请求网址..
对了顺便问下,这个采集微信的文章,一定要:

大量的代理ip?
验证码识别?

3 个回答

搜狗的反爬虫确实厉害，但是出现验证码不是坏事，反而是好事，从无奈的角度。。。之前设计的过程是使用：requests抓取搜索结果，得到具体的网页url，然后抓取里面内容。为了防止出现验证码导致内容抓取不完全，最后是通过添加判断页面是否进入验证码界面来调用虚拟浏览器，人工填入验证码，当然这个部分你可以使用opencv之类的，进行图像识别，主要看划算不划算。
PS：已经使用过代理和大量IP了，都没有上述方法好用。而且实际上，出现验证码次数不多，而通过代理ip等基本上次次出现验证码，不知道搜狗的反爬虫策略是什么，有点厉害啊。
还试验过，代理+tor的不过最后还是不行。。。

2022-10-27 01:21 回答

沉稳之固_300
试试神箭手云爬虫平台的微信公众号文章[多公众号] 采集爬虫支持云端自动采集，实时更新~
爬虫链接：http://www.shenjianshou.cn/in...

2022-10-27 01:21 回答

有你世界就很美_484
你给的公众号的地址其实存在过期的可能，有时间戳，有签名，存在不能打开的可能性。

2022-10-27 01:21 回答

402-928

撰写答案

今天，你开发时遇到什么问题呢？

热门标签

PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有