python - 如何爬取URL不变的网站内容

 布瓜Pourqu2502854853 发布于 2022-10-29 20:03
[3]
function __doPostBack(eventTarget, eventArgument) {
    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }

对于这种翻页方式,怎么用爬虫爬取呢?网站翻页后URL没有发生改变。我之前使用bs4和selenium模拟翻页操作再爬取,可是数据量太大,这种方法速度太慢。80%的时间都浪费在翻页上。

2 个回答
  • 估计是有 AJAX 请求吧,直接抓请求得了

    2022-10-31 18:43 回答
  • 这个问题得具体到网址去分析,不同网址会有不同的处理方式。
    现在假设在比较常见的情况下,可以用这种方法:

    1. 打开浏览器调试模式

    2. 点击下一页,查看对应的网络请求的Response,这个响应通常就是下一页的URL

    3. 查看该请求的请求头和请求参数,分析找出规律

    4. 使用python模拟HTTP请求来批量获得URL

    5. 爬取信息,推荐LXML进行HTML解析

    至于如何模拟HTTP请求,可参考 python模拟HTTP请求

    2022-10-31 18:44 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有