热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python_爬虫总结

学习爬虫和写爬虫文章2017年3月我想锻炼数据分析相关技能,但是好像没有什么鲜活的数据,所以开始学习Python爬虫。那时候还在学校里,忙着毕业论文的事情,断断续续地学了起来。百度

学习爬虫和写爬虫文章

2017年3月我想锻炼数据分析相关技能,但是好像没有什么鲜活的数据,所以开始学习Python爬虫。

那时候还在学校里,忙着毕业论文的事情,断断续续地学了起来。百度贴吧是我实战的主要战场,从小贴吧(几千条数据)到大贴吧(200万条数据),从requests,beautifulsoup,re 到 进程池,代理池,selenium,手机抓包。不知不觉中,自己对爬虫有了些心得。

2017年4月1日开始写爬虫文章,起初是在简书上写,我的文章越写越长,越来越觉得简书对长文章支持不好,所以用github和coding的pages功能,做了一个自己的网站,也就是现在这个,把长文章都迁移到了这里。

  • 4月1号,简单网站爬虫的所有技能
  • 4月2号,爬虫中的正则表达式(持续更新)
  • …..

Python就只用来做爬虫?

有时候网上会评论,写Python文章的十有八九是做爬虫的,哑然失笑。我学习Python,还真不是为了做爬虫,最先学习的三个库是numpy、matplotlib和pandas

话说回来,做爬虫怎么了?

《Python_爬虫总结》
《Python_爬虫总结》

博客爬虫文章

梳理一下爬虫文章的思路和总结一下文章的优缺点

  • Python_数据存储
    • 介绍csv,pymongo,pymysql的简单使用场景
    • 如果是大量数据的话,从以后数据分析的角度,建议使用关系型数据库
  • 简单网站爬虫的所有技能
    • requests
    • beautifulsoup
  • 爬虫中的正则表达式(持续更新)
    • re
  • Python_爬虫_代理池
    • 介绍一种简单的构建思路
  • Python_爬虫_多进程
    • fork和pool的简单使用
    • 讲好多进程需要较好的编程基础,我还没有,:)
  • selenium简单使用,beautifulsoup始终beautiful
    • 介绍selenium简单使用
    • driver.page_source让爬虫人虎躯一震,去你的js
  • Python_爬虫_手机抓包
    • fiddler
    • 模拟器
    • 其余爬取思路几乎一样
  • Python_json_eval_yaml
    • 当python自带的json库不好用的时候,试试yaml和eval吧

可视化文章

  • 有一群人在玩数据
    • 数据可视化团队,EasyCharts
    • 女性数据分析团队,DataGirls
  • 高考吧分析
  • 关于爱情—某豆瓣小组

下一步计划

重点放在数据分析上,爬虫文章不会新增了,只为维护更新,十分欢迎其他朋友的投稿


推荐阅读
  • 一、需求:        将MongoDB表中的数据按照时间戳增量抽取到Mysql表中。二、实现方式:   1.kettle    2.pytho ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
  • SLAM中相机运动估计的基本问题及解决方案
    本文讨论了SLAM中相机运动估计的基本问题,指出了解决方案的存在。作者认为阅读相关SLAM书籍是掌握基础原理的有效途径,而不是仅仅依赖现成的解决方案。同时,作者也提到了激光雷达和特征点匹配等技术在SLAM中的应用,并建议读者深入理解相关原理,而不是盲目追求现成的代码。 ... [详细]
  • 本文由编程笔记#小编整理,主要介绍了关于数论相关的知识,包括数论的算法和百度百科的链接。文章还介绍了欧几里得算法、辗转相除法、gcd、lcm和扩展欧几里得算法的使用方法。此外,文章还提到了数论在求解不定方程、模线性方程和乘法逆元方面的应用。摘要长度:184字。 ... [详细]
  • 分享css中提升优先级属性!important的用法总结
    web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • MySQL多表数据库操作方法及子查询详解
    本文详细介绍了MySQL数据库的多表操作方法,包括增删改和单表查询,同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作,以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说,本文是一个非常实用的参考资料。 ... [详细]
  • Python脚本编写创建输出数据库并添加模型和场数据的方法
    本文介绍了使用Python脚本编写创建输出数据库并添加模型数据和场数据的方法。首先导入相应模块,然后创建输出数据库并添加材料属性、截面、部件实例、分析步和帧、节点和单元等对象。接着向输出数据库中添加场数据和历程数据,本例中只添加了节点位移。最后保存数据库文件并关闭文件。文章还提供了部分代码和Abaqus操作步骤。另外,作者还建立了关于Abaqus的学习交流群,欢迎加入并提问。 ... [详细]
  • 读手语图像识别论文笔记2
    文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)一、前言一句:“做完了&#x ... [详细]
  • 开发笔记:Spring Boot的配置文件
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了SpringBoot的配置文件相关的知识,希望对你有一定的参考价值。 ... [详细]
  • MongoDB的upsert在并行程序中应该注意的问题
    题图Oct.12th,2018最近使用python的多进程编程来解决一个MongoDB的数据库。这个程序中,每一个进程都要对数据库中的某些数据进行升级。假如目标数据不存在的话,则需 ... [详细]
author-avatar
f永远喜爱捉迷藏
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有