python - BeautifulSoup获取的tag不完整。

 啊健oo 发布于 2022-10-31 06:21

1.问题描述
通过urllib2.urlopen().read()打印出的html源码中tbody有多对tr标签,但是使用soup.findAll("tbody")获取的tr标签就只有两对,而且内容不全,希望大神帮助。

2. 源代码:

# -*- coding: UTF-8 –*-
import urllib2
from bs4 import BeautifulSoup

Url = 'http://guojijuzhuqufh.fang.com/chengjiao/'

response = urllib2.urlopen(Url)
text = response.read().decode('gbk')
soup = BeautifulSoup(text, "lxml")
tbodyList = soup.findAll("tbody")

for li in tbodyList:
    print li

3. 网页部分源代码

> 
>                             
>                                 
>                                 
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                 
>                                 
> 
>                                 
>                                 
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
> 
>                                 
>                                 
> 
>                             

4.运行结果

C:\Python27\python.exe D:/Users/Brill/PycharmProjects/FangSpider/FTXData/test.py
Process finished with exit code 0

5. 结果截图

1 个回答
  • 原因是因为这个html的文件是不规范的html 导致不同的html parser对他的结果不一样 可以考虑换parser

    soup = BeautifulSoup(text, 'html.parser')

    结果是成功的

    2022-10-31 22:38 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有
     
成交日期成交价单价户型建筑面积楼层朝向服务经纪人来源
2016-07-26197万19777元/㎡2室2厅100㎡高层/32层南向计谋房天下成交
2016-05-27200万20078元/㎡2室2厅100㎡高层/32层西南向杜小波房天下成交
2016-05-10286万22236元/㎡3室2厅129㎡高层/31层南向计谋房天下成交
2016-04-04182万18336元/㎡2室2厅99㎡高层/32层--李方宏房天下成交
2016-03-20185万18587元/㎡2室1厅100㎡低层/32层--张巧芊房天下成交
2016-02-28335万18376元/㎡4室2厅182㎡高层/32层南北向陈三元房天下成交
2016-01-04328万19197元/㎡4室2厅171㎡中层/32层南北向刘媛媛房天下成交
2015-12-09168.5万16962元/㎡2室2厅99㎡高层/32层--陈三元房天下成交
2015-08-10186万15067元/㎡3室2厅123㎡高层/32层--谭文龙房天下成交
2015-07-10215万16716元/㎡3室2厅129㎡中层/32层东西向左亚凤房天下成交
成交日期 成交价 单价 户型 建筑面积 楼层 朝向 服务经纪人 来源
2016-07-26 197万 19777元/㎡ 2室2厅 100㎡ 高层/32层 南向 计谋 房天下成交
2016-05-27 200万 20078元/㎡ 2室2厅 100㎡ 高层/32层 西南向 杜小波