python抓取google搜索结果

作者：zeror01_119 | 来源：互联网 | 2017-05-14 02:44

python抓取google搜索结果

前一段时间一直在研究如何用python抓取搜索引擎结果，在实现的过程中遇到了很多的问题，我把我遇到的问题都记录下来，希望以后遇到同样问题的童鞋不要再走弯路。

1. 搜索引擎的选取

　　选择一个好的搜索引擎意味着你能够得到更准确的搜索结果。我用过的搜索引擎有四种：Google、Bing、Baidu、Yahoo!。作为程序员，我首选Google。但当我看见我最爱的Google返回给我的全是一堆的js代码，根本没我想要的搜索结果。于是我转而投向了Bing的阵营，在用过一段时间后我发现Bing返回的搜索结果对于我的问题来说不太理想。正当我要绝望时，Google拯救了我。原来Google为了照顾那些禁止浏览器使用js的用户，还有另外一种搜索方式，请看下面的搜索URL：

https://www.google.com.hk/search?hl=en&q=hello

　　hl指定要搜索的语言，q就是你要搜索的关键字。好了，感谢Google，搜索结果页面包含我要抓取的内容。

　　PS: 网上很多利用python抓取Google搜索结果还是利用 https://ajax.googleapis.com/ajax/services/search/web... 的方法。需要注意的是这个方法Google已经不再推荐使用了，见 https://developers.google.com/web-search/docs/ 。Google现在提供了Custom Search API，不过API限制每天100次请求，如果需要更多则只能花钱买。

2. Python抓取并分析网页

　　利用Python抓取网页很方便，不多说，见代码:

def search(self, queryStr):
     queryStr = urllib2.quote(queryStr)
     url = &＃39;https://www.google.com.hk/search?hl=en&q=%s&＃39; % queryStr
     request = urllib2.Request(url)
     respOnse= urllib2.urlopen(request)
     html = response.read()
     results = self.extractSearchResults(html)

　　第6行的 html 就是我们抓取的搜索结果页面源码。使用过Python的同学会发现，Python同时提供了urllib 和 urllib2两个模块，都是和URL请求相关的模块，不过提供了不同的功能，urllib只可以接收URL，而urllib2可以接受一个Request类的实例来设置URL请求的headers，这意味着你可以伪装你的user agent 等(下面会用到)。

　　现在我们已经可以用Python抓取网页并保存下来，接下来我们就可以从源码页面中抽取我们想要的搜索结果。Python提供了htmlparser模块，不过用起来相对比较麻烦，这里推荐一个很好用的网页分析包BeautifulSoup，关于BeautifulSoup的用法官网有详细的介绍，这里我不再多说。

　　利用上面的代码，对于少量的查询还比较OK，但如果要进行上千上万次的查询，上面的方法就不再有效了， Google会检测你请求的来源，如果我们利用机器频繁爬取Google的搜索结果，不多久就Google会block你的IP，并给你返回503 Error页面。这不是我们想要的结果，于是我们还要继续探索

　　前面提到利用urllib2我们可以设置URL请求的headers, 伪装我们的user agent。简单的说，user agent就是客户端浏览器等应用程序使用的一种特殊的网络协议，在每次浏览器（邮件客户端/搜索引擎蜘蛛）进行 HTTP 请求时发送到服务器，服务器就知道了用户是使用什么浏览器（邮件客户端/搜索引擎蜘蛛）来访问的。有时候为了达到一些目的，我们不得不去善意的欺骗服务器告诉它我不是在用机器访问你。

　　于是，我们的代码就成了下面这个样子:

user_agents = [&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0&＃39;, \
         &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0&＃39;, \
         &＃39;Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ \
         (KHTML, like Gecko) Element Browser 5.0&＃39;, \
         &＃39;IBM WebExplorer /v0.94&＃39;, &＃39;Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)&＃39;, \
         &＃39;Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)&＃39;, \
         &＃39;Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14&＃39;, \
         &＃39;Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) \
         Version/6.0 Mobile/10A5355d Safari/8536.25&＃39;, \
         &＃39;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) \
         Chrome/28.0.1468.0 Safari/537.36&＃39;, \
         &＃39;Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)&＃39;]
 def search(self, queryStr):
     queryStr = urllib2.quote(queryStr)
     url = &＃39;https://www.google.com.hk/search?hl=en&q=%s&＃39; % queryStr
     request = urllib2.Request(url)
     index = random.randint(0, 9)
     user_agent = user_agents[index]
     request.add_header(&＃39;User-agent&＃39;, user_agent)
     respOnse= urllib2.urlopen(request)
     html = response.read()
     results = self.extractSearchResults(html)

　不要被user_agents那个list吓到，那其实就是10个user agent 字符串，这么做是让我们伪装的更好一些，如果你需要更多的user agent 请看这里 UserAgentString。

17-19行表示随机选择一个user agent 字符串，然后用request 的add_header方法伪装一个user agent。

　　通过伪装user agent能够让我们持续抓取搜索引擎结果，如果这样还不行，那我建议在每两次查询间随机休眠一段时间，这样会影响抓取速度，但是能够让你更持续的抓取结果，如果你有多个IP，那抓取的速度也就上来了。

推荐阅读

select
css元素可拖动,如何使用CSS禁止元素拖拽？

一、用户行为三剑客以下3个CSS属性：user-select属性可以设置是否允许用户选择页面中的图文内容；user-modify属性可以设置是否允许输入 ... [详细]

蜡笔小新 2023-10-17 14:35:15
web
markdown [软件代理设置]

本文由编程笔记#小编为大家整理，主要介绍了markdown[软件代理设置]相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-17 18:19:28
header
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
config
网页播放视频的三种实现方式

本文介绍了网页播放视频的三种实现方式，分别是使用html5的video标签、使用flash来播放以及使用object标签。其中，推荐使用html5的video标签来简单播放视频，但有些老的浏览器不支持html5。另外，还可以使用flash来播放视频，需要使用object标签。 ... [详细]

蜡笔小新 2023-12-10 13:24:30
config
如何压缩网站页面以减少页面加载时间

本文介绍了影响网站打开时间的两个因素，即网页加载速度和网站页面大小。重点讲解了如何通过压缩网站页面来减少页面加载时间。具体包括图片压缩、Javascript压缩、CSS压缩和HTML压缩等方法，并推荐了相应的压缩工具。此外，还提到了一款Google Chrome插件——网页加载速度分析工具Speed Tracer。 ... [详细]

蜡笔小新 2023-12-09 09:17:00
main
CSS |网格行结束属性

CSS|网格-行-结束属性原文:https://www.gee ... [详细]

蜡笔小新 2023-10-17 15:21:56
shell
FIN7后门工具伪装成白帽工具进行传播

fin7,后门,工具,伪装,成,白, ... [详细]

蜡笔小新 2023-10-17 15:15:23
shell
this prototype 闭包总结

this对象整理下思路：一般用到this中的情景：1.构造方法中functionA(){this.nameyinshen;}varanewA() ... [详细]

蜡笔小新 2023-10-16 13:42:47
header
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
main
Scrapy 爬取图片

1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]

蜡笔小新 2023-10-14 15:02:27
settings
爬虫05 /scrapy框架

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]

蜡笔小新 2023-10-13 22:01:54
split
开发笔记:正则表达式python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了正则表达式python相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-13 18:34:35
web
AJAX操作授权过期的全局处理方式

本文介绍了一种处理AJAX操作授权过期的全局方式，以解决Asp.net MVC中Session过期异常的问题。同时还介绍了基于WebImage的图片上传工具类。详细内容请参考链接：https://www.cnblogs.com/starluck/p/8284949.html ... [详细]

蜡笔小新 2023-12-11 19:17:35
select
MySQL中的MVVC多版本并发控制机制的应用及实现

本文介绍了MySQL中MVCC的应用及实现机制。MVCC是一种提高并发性能的技术，通过对事务内读取的内存进行处理，避免写操作堵塞读操作的并发问题。与其他数据库系统的MVCC实现机制不尽相同，MySQL的MVCC是在undolog中实现的。通过undolog可以找回数据的历史版本，提供给用户读取或在回滚时覆盖数据页上的数据。MySQL的大多数事务型存储引擎都实现了MVCC，但各自的实现机制有所不同。 ... [详细]

蜡笔小新 2023-12-11 13:09:19
replace
Python爬取豆瓣数据实现过程解析

这篇文章主要介绍了Python爬取豆瓣数据实现过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值, ... [详细]

蜡笔小新 2023-10-16 12:46:01

zeror01_119

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章