热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

#Pythonpyquerycar之家案例

查看页面源码案例1.提取页面源代码2.解析页面源代码,提取数据importrequestsfrompyqueryimportPyQueryfo

查看页面源码

在这里插入图片描述


案例

"""
1. 提取页面源代码
2. 解析页面源代码,提取数据"""

import requests
from pyquery import PyQuery
f = open("qingchezhijia.csv",mode='w',encoding='utf-8') # 创建文件def get_page_source(url): # 定义函数 访问页面resp = requests.get(url)resp.encoding = "gbk"# print(resp.text)return resp.textdef parse_page_source(html): # 解析 并找准定位doc =PyQuery(html)mt_list = doc(".mt-10").items() # class ="mt-10"for mt in mt_list: # 拿到每一个# 判断是否有汽车经销商if not mt("div >dl:nth-child(3)>dt:contains(购车经销商)"):# 向 地点 后添加购车经销商进去mt("div >dl:nth-child(2)").after(PyQuery("""

购车经销商
 
"""))# 提取购买的车型# 想要在已经提取的内容中获得第一个怎么办? .eq(0)# nth - child(1) 在css进行选择的时候,选取第1个位置的内容car =mt("div>dl:nth-child(1)>dd").eq(0).text().replace("\n","").replace(" ","")place = mt("div>dl:nth-child(2)>dd").eq(0).text()time = mt("div>dl:nth-child(4)>dd").eq(0).text()price = mt("div>dl:nth-child(5)>dd").eq(0).text().replace("万元","")youhao = mt("div>dl:nth-child(6)>dd >p:nth-child(1)").eq(0).text().replace("升/百公里","")kilometer = mt("div>dl:nth-child(6)>dd >p:nth-child(2)").eq(0).text().replace("公里","")# for i in range(8):# other = mt("div>div>dl>dd").text().split()# i+=1other = mt("div>div>dl>dd").text().split()# kongjian = mt("div>dl:nth-child(7)>dd").eq(0).text()# kongjian = mt("div>dl:nth-child(7)>dd >p:nth-child(1)")# kongjian = mt("div>div>dl")[1].text()# print(car,other)# 存储到文件中.....f.write(f"购买车型:{car},购买地点:{place},购买时间:{time},购车购买价:{price},油耗:{youhao},目前行驶:{kilometer},其它:{other}\n") # 爬取想要的数据存放在文件中# print(other)def main(): # 定义函数 并调用函数url = "https://k.autohome.com.cn/146/"# 1.提取页面源代码html = get_page_source(url)# 2.解析页面源代码,提取数据parse_page_source(html)if __name__ == '__main__': # 调用函数 => 主函数(main)main()

运行结果:

在这里插入图片描述


推荐阅读
  • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
    本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • 模板引擎StringTemplate的使用方法和特点
    本文介绍了模板引擎StringTemplate的使用方法和特点,包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时,还介绍了StringTemplate语法中的属性和普通字符的使用方法,并提供了向模板填充属性的示例代码。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因,文件需要分割成多个部分发送,因此无法按顺序接收。文章中提供了merge2.php的源码,通过使用shuffle函数打乱文件读取顺序,实现了乱序合并文件的功能。同时,还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]
  • 标题: ... [详细]
  • ASP.NET2.0数据教程之十四:使用FormView的模板
    本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观,与GridView和DetailsView不同,FormView使用模板来呈现,可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]
  • 摘要: 在测试数据中,生成中文姓名是一个常见的需求。本文介绍了使用C#编写的随机生成中文姓名的方法,并分享了相关代码。作者欢迎读者提出意见和建议。 ... [详细]
  • 本文介绍了一个Python函数same_set,用于判断两个相等长度的数组是否包含相同的元素。函数会忽略元素的顺序和重复次数,如果两个数组包含相同的元素,则返回1,否则返回0。文章还提供了函数的具体实现代码和样例输入输出。 ... [详细]
  • Python基础知识:注释、输出和input交互
    本文介绍了Python基础知识,包括注释的使用、输出函数print的用法以及input函数的交互功能。其中涉及到字符串和整数的类型转换等内容。 ... [详细]
  • Python教学练习二Python1-12练习二一、判断季节用户输入月份,判断这个月是哪个季节?3,4,5月----春 ... [详细]
  • 本文详细介绍了使用C#实现Word模版打印的方案。包括添加COM引用、新建Word操作类、开启Word进程、加载模版文件等步骤。通过该方案可以实现C#对Word文档的打印功能。 ... [详细]
  • 本文介绍了使用readlink命令获取文件的完整路径的简单方法,并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]
  • 本文介绍了使用C++Builder实现获取USB优盘序列号的方法,包括相关的代码和说明。通过该方法,可以获取指定盘符的USB优盘序列号,并将其存放在缓冲中。该方法可以在Windows系统中有效地获取USB优盘序列号,并且适用于C++Builder开发环境。 ... [详细]
author-avatar
唯爱-U澄_155
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有