网络爬虫 - python爬虫爬取资料,是直接生成Excel文件还是存入Mysql有利于后期处理。

 玉乔嘉芸孟峰 发布于 2022-10-30 22:46

要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:

1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。

不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。

8 个回答
  • 后期处理肯定使用数据库。

    2022-10-31 22:24 回答
  • 数据少并发不高用Sqlite呗~不熟sql用ORM呗~例如peewee~

    2022-10-31 22:24 回答
  • SQLite

    2022-10-31 22:25 回答
  • 存成csv文本文件, 照样可以用Excel打开,也方便导入数据库.

    2022-10-31 22:25 回答
  • 不懂mysql 就直接用 openpyxl

    2022-10-31 22:25 回答
  • 我觉得这个和用什么数据库存储没关系,可以爬虫爬取的数据存进execl里面,后期再自己写程序将execl数据导入数据库,这样也能提高爬虫处理的速度,如果在爬取过程中入库就不太好了

    2022-10-31 22:25 回答
  • 数据库

    迟早要接触的

    数据少 直接文本文件存储都比 Excel 好...

    2022-10-31 22:25 回答
  • 我遇到过类似的问题, 最后选的是用 excel.
    这个完全看你的需求.哪个方便选哪个. 先说下我的情况.

    我当时的需求每次只爬几百条数据, 而且每次都是用完就扔.
    所以用 excel 更方便些. 操作 excel 我用的 openpyxl.
    只用来保存爬取的数据, 不操作样式, 用起来还是蛮简单的.

    看你的数据有几万条, 如果考虑以后还会持续增加的话, 还是直接存数据库以后操作比较方便.
    话又说回来, 如果觉得现在存 excel 也能满足自己需求的, 而且更方便的话, 存 excel 也行.
    以后随着数据增长, 觉得 excel 不能满足需求了, 写个脚本直接把 excel 里的数据导入数据库里.

    看题主还担心不熟悉 MySQL, 这个完全不是问题, 学过其他数据库的话, 学 MySQL 也不是难事.

    2022-10-31 22:25 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有