作者:qq2304944703 | 来源:互联网 | 2023-05-18 09:06
Google爬虫如何抓取JavaScript的?-http:www.jointforce.comjfperiodicalarticle4362?refmyreadPython做一些自己喜
Google爬虫如何抓取Javascript的?- http://www.jointforce.com/jfperiodical/article/4362?ref=myread
Python做一些自己喜欢的事情:Python爬虫、数据分析、自动化测试、网站、GUI游戏等。
Python爬虫工具包括:正则表达式、XPath技术、Selenium、BeautifulSoup、Scrapy等。
Python定时爬取源码- http://download.csdn.net/detail/nigelyq/9761665
Python爬虫- http://blog.csdn.net/tzs_1041218129/article/category/6370076
Script- http://blog.csdn.net/sunboy_2050/article/category/694817
Python爬虫之模拟知乎登录- https://github.com/lzjun567/crawler_html2pdf/blob/master/zhihu/auto_login.py
脚本开发语言(如shell/python/ruby)
使用Python写个爬虫。。
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神-- http://www.cnblogs.com/wanghzh/p/5824181.html
>廖雪峰的博客:Python解释器
http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001374738150500472fd5785c194ebea336061163a8a974000
>在Windows上安装Python,首先,从Python的官方网站www.python.org下载最新的2.7.9版本,地址是这个:http://www.python.org/ftp/python/2.7.9/python-2.7.9.msi
>由于整个Python语言从规范到解释器都是开源的.
》推荐两款文本编辑器:
一个是Sublime Text,免费使用,但是不付费会弹出提示框:
http://www.sublimetext.com/
一个是Notepad++,免费使用,有中文界面:
https://notepad-plus-plus.org/
文件可以保存为别的名字,比如abc.py,但是必须要以.py结尾,其他的都不行。此外,文件名只能是英文字母、数字和下划线的组合。
请注意,用哪个都行,但是绝对不能用Word和Windows自带的记事本。Word保存的不是纯文本文件,而记事本会自作聪明地在文件开始的地方加上几个特殊字符(UTF-8 BOM),结果会导致程序运行出现莫名其妙的错误。
》Python的交互模式和直接运行.py文件有什么区别呢?
直接输入python进入交互模式,相当于启动了Python解释器,但是等待你一行一行地输入源代码,每输入一行就执行一行。
直接运行.py文件相当于启动了Python解释器,然后一次性把.py文件的源代码给执行了,你是没有机会输入源代码的。
以#开头的语句是注释,注释是给人看的,可以是任意内容,解释器会忽略掉注释。
》空值是Python里一个特殊的值,用None表示。None不能理解为0,因为0是有意义的,而None是一个特殊的空值。
变量在程序中就是用一个变量名表示了,变量名必须是大小写英文、数字和_的组合,且不能用数字开头。
》由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。
把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。
由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
》如果没有特殊业务要求,请牢记仅使用Unicode和UTF-8这两种编码方式。
在Python 3.x版本中,把'xxx'和u'xxx'统一成Unicode编码,即写不写前缀u都是一样的,而以字节形式表示的字符串则必须加上b前缀:b'xxx'。
格式化字符串的时候,可以用Python的交互式命令行测试,方便快捷。
list和tuple是Python内置的有序集合,一个可变,一个不可变。根据需要来选择使用它们。
-----------------------------------
> 爬虫与反爬虫
反爬虫的Robot.txt
GitHub 上有哪些优秀的 Java 爬虫项目?- https://www.zhihu.com/question/31427895
> Python中常见的爬虫框架:
1、Scrapy框架
2、Crawley框架
3、Portia框架
4、newspaper框架
5、Python-goose框架