热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于php:不会还有人找不到Python学习资料吧

自己业余写python爬虫、python小工具已有两年无余了,在这里举荐一些学习时感觉比拟好的视频教程、文章教程等,纯属集体倡议,不喜勿喷目录资料篇爬虫篇数据分析篇资料篇自学最好的还是入手操作,想用什么找什么,有很多课程波及到了Python语言程序设计、Python网络爬虫与信息提取、Python数据分析与展现、Python科学计算

自己业余写python爬虫、python小工具已有两年无余了,在这里举荐一些学习时感觉比拟好的视频教程、文章教程等,纯属集体倡议,不喜勿喷

目录

  • 资料篇
  • 爬虫篇
  • 数据分析篇

资料篇

自学最好的还是入手操作,想用什么找什么,有很多课程波及到了Python语言程序设计、Python网络爬虫与信息提取、Python数据分析与展现、Python科学计算三维可视化等,能够说很全,其次视频举荐外面有文章介绍和视频介绍,他人偏差与文章介绍,这样更快更节省时间。

爬虫篇

介绍一下爬虫波及到的第三方库及其相干文档

  1. urllib3
  2. urllib3文档
  3. Requests文档
  4. Beautiful Soup英文版
  5. Beautiful Soup中文版
  6. 正则表达式
  7. scrapy
  8. scrapy文档
  9. css选择器语法
  10. re正则表达式语法
  11. xpath语法
  12. PyMySQL
  13. PyMySQL文档

数据分析篇

数据分析的第三方库介绍

  1. Blaze
  2. Open Mining
  3. Orange
  4. Pandas
  5. Optimus
  6. NumPy

css选择器语法

表达式                          阐明
*                              抉择所有节点
#container                     抉择id为container的节点
.container                     选取所有class蕴含container的节点
li a                           选取所有li下的所有a节点
ul + p                         抉择ul前面的第一个p元素
div#container > ul             选取id为container的div的第一个ul子元素

ul ~ p                         选取与ul相邻的所有p元素
a[title]                       选取所有有title属性的a元素
a[href="http://baidu.com"]     选取所有href属性为http://baidu.com值的a元素
a[href*="baidu"]               选取所有href属性蕴含baidu的a元素
a[href^="http"]                选取所有href属性值以http结尾的a元素
a[href$=".jpg"]                选取所有href属性值以.jpg结尾的a元素
input[type=radio]:checked      抉择选中的radio的元素

div:not(#container)            选取所有id非container的div属性
li:nth-child(3)                选取第三个li元素
tr:nth-child(2n)               第偶数个tr



## re正则表达式语法

字符 匹配
. 任意字符(除了\n)
[…] 字符集
\d/\D 数字/非数字
\s/\S 空白/非空白
\w/\W 单词字符[a-zA-Z0-9]/非单词字符

  • 前一个字符0次或者有限次
  • 前一个字符1次或者有限次
    ? 前一个字符0次或者一次
    {m}/{m,n} 前一个字符m次或者n次
    *?/+?/?? 非贪心(尽可能少匹配字符)
    ^ 字符串结尾
    $ 字符串结尾
    \A/\Z 指定的字符串必须呈现在结尾/结尾
    | 匹配左右任意一个表达式
    (ab) 括号中表达式作为一个分组
    \ 援用编号为num的分组匹配到的字符串
    (?P) 分组起一个别名
    (?P=name) 援用别名为name的分组匹配字符串
    [\u4E00-\u9FA5] 一个汉字

    
    ## xpath语法
    

    表达式 阐明
    article 选取所有article元素的所有子节点
    /article 选取跟元素article
    article/a 选取所有属于article的子元素的a元素
    //div 选取所有div子元素(不管呈现在文档任何中央)
    article//div 选取所有输出article元素的后辈的div元素,不论它呈现在article之下的任何地位
    //@class 选取所有名为class的属性

/article/div[1] 选取属于article子元素的第一个div元素
/article/div[last()] 选取输出article子元素的最初一个div元素
/article/div[last()-1] 选取属于article子元素的倒数第二个div元素
//div[@lang] 选取所有领有lang属性的div元素
//div[@lang=’eng] 选取所有lang属性为eng的div元素

/div/* 选取属于div元素的所有子节点
//* 选取所有元素
//div[@*] 选取所有带属性的title元素
//div/a|//div/p 选取所有div元素的a和p元素
//span|//ul 选取文档中的span和ul元素
article/div/p|//span 选取所有属于article元素的div元素的p元素以及文档中所有的span元素


推荐阅读
  • Python开源库和第三方包的常用框架及库
    本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的,最大不能超过XX ... [详细]
  • 在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
    像不少公司内部不同团队都会自己研发自己工具产品,当各个产品逐渐成熟,到达了一定的发展瓶颈,同时每个产品都有着自己的入口,用户 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • WebSocket与Socket.io的理解
    WebSocketprotocol是HTML5一种新的协议。它的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真正的双向平等对话,属于服务器推送 ... [详细]
  • 在springmvc框架中,前台ajax调用方法,对图片批量下载,如何弹出提示保存位置选框?Controller方法 ... [详细]
author-avatar
mobiledu2502926703
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有