Python请求:检查URL是否不是HTML网页

 寒空动烟雪 发布于 2022-12-27 10:28

所以我有一个使用这样的东西的爬虫:

#if ".mp3" in baseUrl[0] or ".pdf" in baseUrl[0]:
if baseUrl[0][-4] == "." and ".htm" not in baseUrl[0]:
    raise Exception
html = requests.get(baseUrl[0], timeout=3).text

这非常有效.会发生什么,如果.mp4或.m4a等文件进入爬虫而不是HTML页面,那么当我尝试运行脚本时,脚本会挂起并在linux中打印:

Killed

是否有更有效的方法来捕获这些非HTML页面?

1 个回答
  • 您可以发送头请求并检查内容类型.如果它的text/html那么只进行

    r = requests.head(url)
    if "text/html" in r.headers["content-type"]:
        html = requests.get(url).text
    else:
        print "non html page"
    

    如果您只想提出单一要求,

    r = requests.get(url)
    if "text/html" in r.headers["content-type"]:    
        html = r.text
    else:
        print "non html page"
    

    2022-12-27 10:29 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有