网页爬虫 - python+selenium+firefox爬虫,页面元素可以定位到,但是打印page_source却显示不出来该元素?爬虫

 飞松安步当车9_U 发布于 2022-10-28 19:11

用python+selenium+firefox爬取网易云音乐指定音乐精彩评论,switch到iframe了,也可以定位到该元素,但是我打印driver.page_source却显示不全?


driver = webdriver.Firefox()
driver.maximize_window()
driver.set_page_load_timeout(10)

try:
    driver.get("http://music.163.com/#/song?id=31877470")
except selenium.common.exceptions.TimeoutException:
    print("time out of 10 s")
    driver.execute_script('window.stop()')

print("休眠结束")
driver.switch_to.frame("contentFrame")
time.sleep(5)
print(driver.find_element_by_id('comment-box').text)
bsObj = BeautifulSoup(driver.page_source)
print(driver.page_source)   

这时候能通过driver输出精彩评论:

这是输出的page_source的部分截图,可以看到在p id="comment-box"后并没有精彩评论的内容,这部分源码没有。

3 个回答
  • 请问大神使用driver.page_source方法获取APP内嵌的webView的源码,好多标签也是空的?该怎样处理?

    2022-10-30 03:54 回答
  • 运行了一下你的代码,是有的啊。看截图,在p id="comment-box"的不知道多少辈孙子p里

    2022-10-30 03:56 回答
  • #encoding=utf-8
    from selenium import webdriver
    driver = webdriver.Chrome()#用的谷歌,到http://chromedriver.storage.googleapis.com/index.htm 下载
    driver.maximize_window()
    driver.set_page_load_timeout(10)
    
    try:
        driver.get("http://music.163.com/#/song?id=31877470")
    except selenium.common.exceptions.TimeoutException:
        print("time out of 10 s")
        driver.execute_script('window.stop()')
    
    print(u"休眠结束")
    driver.switch_to.frame("contentFrame")
    time.sleep(5)
    print(driver.find_element_by_id('comment-box').text.encode('GBK', 'ignore'))
    bsObj = BeautifulSoup(driver.page_source)
    source = driver.page_source.encode('GBK', 'ignore')
    open('163.txt','w').write(source)#163.txt文件可以看到精彩评论的
    #print(driver.page_source.encode('GBK', 'ignore'))
    2022-10-30 03:57 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有