当前位置: 开发笔记 > 编程语言 > 正文

Python3.5爬虫之由浅入深（三、html转excel）

作者：小阳阳93_967 | 来源：互联网 | 2023-07-19 14:54

Python3.5爬虫之由浅入深（三、html转excel）Python3.5爬虫之由浅入深（一、get网页）望共同进步转载请注明地址：http:blog.csdn.ne

Python3.5 爬虫之由浅入深（三、html转excel）

Python3.5 爬虫之由浅入深（一、get网页）

望共同进步

转载请注明地址：http://blog.csdn.net/weixin_39701039/article/details/79544265

这里虽然是关于html转excel，看上去好像和爬虫没有关系，但是我们再爬虫的过程中，把抓取下来的网页html等转换成excel是不是更方便以后文件的处理呢

先上代码了：

#coding:utf-8
#python3.5.1

import requests


url = 'http://tjj.lishui.gov.cn/ydkp/201712/sheet001.htm'

path = r'G:\任务20180312\test'
#定义请求头部
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

respOnse= requests.get(url,headers = headers)
response.encoding = 'utf-8'

with open(path + '/' + '丽水市生产总值.xls','wb') as f:
    f.write(response.content)

这里其实得到的是伪excel

我们来打开得到的文件，如下：

我们尝试右键选择以Notepad++打开（Notepad++是一个html辅助工具），发现可以再现代码：

具体在写入excel可能遇到一些问题可以结合 http://blog.csdn.net/weixin_39701039/article/details/79576549 来看看

望有所帮助，望采纳！

推荐阅读

config
环境准备—之—linux下安装python3和pip3

转自上海悠悠https:www.cnblogs.comyoyoketangp10195102.html前言centos7自带有python，但是却是python2版本的 ... [详细]

蜡笔小新 2023-09-17 12:37:49
config
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
io
Python3 Scrapy 安装方法（一脸辛酸泪）

写在前面最近在学习爬虫，在熟悉了Python语言和BeautifulSoup4后打算下个爬虫框架试试。没想到啊，这坑太深了。。。看了看相关介绍后选择了Scrapy框架，然后兴高采烈的 ... [详细]

蜡笔小新 2023-09-24 14:44:19
list
python教程分享POC漏洞批量验证程序Python脚本编写

编写目的批量验证poc，python代码练习。需求分析1、poc尽可能简单。2、多线程。3、联动fofa获取目标。4、随机请求头.实现过程脚本分为三个模块，获取poc及目标、多线程 ... [详细]

蜡笔小新 2023-09-15 18:49:11
io
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
list
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
string
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
list
Pandas 基础(3) - 生成 Dataframe 的几种方式总结

本文总结了使用不同方式生成 Dataframe 的方法，包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项，如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]

蜡笔小新 2023-12-10 12:59:34
java
Linux下部署Symfoy2对app/cache和app/logs目录的权限设置，symfoy2logs

php教程|php手册xml文件php教程-php手册Linux下部署Symfoy2对appcache和applogs目录的权限设置，symfoy2logs黑色记事本源码,vsco ... [详细]

蜡笔小新 2023-10-17 20:32:59
io
python可以做什么工作好Python入门后，想要从事自由职业可以做哪方面工作？

Python入门后，想要从事自由职业可以做哪方面工作？1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]

蜡笔小新 2023-10-17 16:29:09
io
layui表格分页不生效怎么办

web前端|Layui教程layuiweb前端-Layui教程小程序实例源码,ubuntuip切换,tomcat默认端改为80,爬虫完整源码,微信小程序php接口,seo专业培训班 ... [详细]

蜡笔小新 2023-10-17 12:00:22
io
window+anaconda3+python3.5下xgboost安装

准备gitanaconda3Step1:下载安装git这里是windows下git安装：需要注意的是在这里不选择第一个，要选择第二个，在windows下也可以。然后跟着默认选择就可 ... [详细]

蜡笔小新 2023-09-24 08:16:01
io
Python3怎么获取文件属性

这篇文章给大家分享的是有关Python3怎么获取文件属性的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。os.stat(path ... [详细]

蜡笔小新 2023-09-23 12:27:42
list
Python Flask学习之安装SQL,python3,Pycharm（网上下载安装即可）

1，下载时更改pypi源。可以额外安装虚拟化环境：pipinstall-ihttp:pypi.douban.comsimple--trusted-hos ... [详细]

蜡笔小新 2023-09-18 12:10:16
io
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59

小阳阳93_967

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章