python - 知道一个微信公众号以后,如何采集指定的文章?

 如虎添一2012 发布于 2022-10-26 21:57

这是逻辑思维的微信公众号地址:
http://mp.weixin.qq.com/profile?src=3×tamp=1475768533&ver=1&signature=WuQBZj2062fY9CO-nA8EqWxenuWJ9MUgKYKLX7rK9bkJ7KN1uJm62tWYcvV2CrZ4vryVP7*yYBuEqTXVFRJzOQ==

但是我是通过weixin.sogou.com这个通过公众号名称搜索进去,然后获取到对应的网址的.
但是这样感觉非常麻烦,因为搜狗的反爬虫做得很厉害,时不时出现验证码不说,还要换ip~
如果这样,等于是要放请求一次了~

有没有比较好的方法,可以直接构建出公众号的请求网址..
对了顺便问下,这个采集微信的文章,一定要:

  1. 大量的代理ip?

  2. 验证码识别?

3 个回答
  • 搜狗的反爬虫确实厉害,但是出现验证码不是坏事,反而是好事,从无奈的角度。。。之前设计的过程是使用:requests抓取搜索结果,得到具体的网页url,然后抓取里面内容。为了防止出现验证码导致内容抓取不完全,最后是通过添加判断页面是否进入验证码界面来调用虚拟浏览器,人工填入验证码,当然这个部分你可以使用opencv之类的,进行图像识别,主要看划算不划算。
    PS:已经使用过代理和大量IP了,都没有上述方法好用。而且实际上,出现验证码次数不多,而通过代理ip等基本上次次出现验证码,不知道搜狗的反爬虫策略是什么,有点厉害啊。
    还试验过,代理+tor的 不过最后还是不行。。。

    2022-10-27 01:21 回答
  • 试试神箭手云爬虫平台的微信公众号文章[多公众号] 采集爬虫支持云端自动采集,实时更新~
    爬虫链接:http://www.shenjianshou.cn/in...

    2022-10-27 01:21 回答
  • 你给的公众号的地址其实存在过期的可能,有时间戳,有签名,存在不能打开的可能性。

    2022-10-27 01:21 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有