网页爬虫小试牛刀

作者：呐街角-伤_774 | 来源：互联网 | 2023-08-30 16:18

　　转载请注明出处：http://www.cnblogs.com/by-dream/p/6040651.html

　　大数据时代，数据对我们来说就是一笔宝贵的财富，以机器翻译来说，第一步呢需要收集目前大量的中英文翻译的原句子，而这些句子我们应该去哪里得到呢？最简单、最直接、最有效、最现成的办法就是去爬取。由于之前没有做过类似的东西，所以打算使用强悍的python辅助我。

　　首先选定了要爬取的网站 http://news.iyuba.com/ ，一个非常炫酷的双语网站。

网页爬虫小试牛刀

　　首先我们发现，这一页并没有我们直接需要的中英文的素材，而是点击了导航栏上了各大分类，再进入具体的分类页后，再次点击具体的内容，才会有中英文互译的文章，我们的爬取思路如下：

网页爬虫小试牛刀

　　思路：首页先得到进入各个分类的页面的url，其次在分类页面爬取出当前页面所有文章的url，最后进入文章获得中英文素材。

　　首先我们需要查看一下网页的源代码，将导航栏处的源代码找到，提取看它是否有什么特征。我们的做法是点击右键，查看源代码：

网页爬虫小试牛刀

　　经过仔细的查找，我们找到了其中的对应关系：

网页爬虫小试牛刀

　　那么接下来要做的就是解析html了。

　　经过查阅资料，python解析html有现成的BeautifulSoup库比较强大，所以第一步安装这个强大的库，这里我的python版本是2.7，进入python的安装目录后，使用pip进行安装：

网页爬虫小试牛刀

　　学习了一些简单的api用法之后，直接开始上手实践：

 #print soup.title 找到title的标签，例如
 #print soup.title.string 将title标签中的内容输出，例如“标题内容”
 #print soup.p 输出所有p标签的第一个,如果想找所有的，使用find_all('p')
 #print soup.find() 找到id是指定id的标签
 #print soup.get_text().encode('utf-8') 得到所有内容

　　第一步实现的代码如下：

#-*- coding:utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
import re
 
# 要爬取的总url
weburl='http://news.iyuba.com/'

class Climbing():    
    # 设置代理开关
    enable_proxy = True
    
    # 总url
    url = ''
    
    # 初始化
    def __init__(self, url):
        self.url = url
        proxy_handler = urllib2.ProxyHandler({"http" : 'web-proxy.oa.com:8080'})
        null_proxy_handler = urllib2.ProxyHandler({})
        if self.enable_proxy:
            opener = urllib2.build_opener(proxy_handler)
        else:
            opener = urllib2.build_opener(null_proxy_handler)
        urllib2.install_opener(opener)
    
    # 根据url，得到请求返回内容的soup对象
    def __getResponseSoup(self, url):
        request = urllib2.Request(url)
        #request.add_header('User-Agent', "Mozilla/5.0")
        #request.add_header('Accept-Language', 'zh-ch,zh;q=0.5')
        respOnse= urllib2.urlopen(request)
        resault = response.read()
        soup = BeautifulSoup(resault, "html.parser")
        return soup
    
    # 首页中抓去到各个分类的url
    def getCategoryUrl(self):    
        soup = self.__getResponseSoup(self.url)
        allinfo = soup.find_all('ul', attrs={"class": "nav navbar-nav"})[0].find_all('a')
        for info in allinfo:
            chinese = info.get_text().encode('utf-8')
            href = info.get('href')
            if href == self.url:    
                continue
            print chinese, href

        
c = Climbing(weburl)
c.getCategoryUrl()

　　运行之后，输出的内容为：

　　校园 http://news.iyuba.com/essay_category/120/1.html
　　娱乐 http://news.iyuba.com/essay_category/121/1.html
　　科技 http://news.iyuba.com/essay_category/122/1.html
　　体育 http://news.iyuba.com/essay_category/123/1.html
　　经济 http://news.iyuba.com/essay_category/126/1.html
　　职场 http://news.iyuba.com/essay_category/124/1.html
　　政治 http://news.iyuba.com/essay_category/125/1.html
　　文化 http://news.iyuba.com/essay_category/127/1.html
　　生活 http://news.iyuba.com/essay_category/128/1.html

　　可以看到各个分类的ur已经被我们轻松的拿下了，接下来我们再爬取各个分类url下的文章的url，使用到的代码如下：

　　# 继续解析分类url，得到具体文章的url
    def getDetailUrl(self, Category, url):
        print Category,url
        soup = self.__getResponseSoup(url)        
        otherurl = soup.find_all('a', attrs={"target": "_blank"})
        for info in otherurl:
            tmp = info.find(re.compile("^b"))        
            if tmp:
                detailurl = self.url + info.get('href')
                print detailurl

　　运行之后，得到的结果是：

网页爬虫小试牛刀

　　得到具体的文章的url之后，接下来就是最后一步，抓取出每个url内容中的中英文，使用同样类似的方法，代码如下：

    # 根据具体的url去拿翻译的数据
    def getTranslateContent(self, url):
        print '*************** '+url
        soup = self.__getResponseSoup(url)
        all = soup.find_all('p', attrs={"ondblclick": "Javascript:doExplain();"})
        for words in all:
            print words.get_text().encode('utf-8')
        all = soup.find_all('p', attrs={"class": "p2"})
        for words in all:
            print words.get_text().encode('utf-8')

　　输出的结果是：

网页爬虫小试牛刀

　　其实这样的爬取根本不够，因为每个分类我只是抓取了第一页的文章链接，而我需要的是把整个站点的所有内容全部抓取下来，因此每个需要都需要翻页去抓取，翻页的个数不确定，因此只能设置一个阈值，然后去试，直到出现了404页面。当然整个翻译的过程中还需要去重一些url，即使用这样的方式还是会存在一些重复的url，从log里就可以看出来：

网页爬虫小试牛刀

　　最后附上最终的代码吧：

  1 #-*- coding:utf-8 -*-
  2 import urllib2
  3 from bs4 import BeautifulSoup
  4 import re
  5 import codecs
  6 from Torepeat import Torepeat
  7 from Log import Log
  8  
  9 # 要爬取的总url
 10 weburl='http://news.iyuba.com/'
 11 
 12 
 13 class Climbing():    
 14     # 设置代理开关
 15     enable_proxy = True
 16     
 17     # 总url
 18     url = ''
 19     
 20     # 去重类
 21     repeat = Torepeat("oldurl.txt")
 22     
 23     # 尝试多少分类页(生活下最多127页)
 24     pagenum = 130
 25     
 26     # log
 27     log = Log("resault.txt")
 28     
 29     # 初始化
 30     def __init__(self, url):
 31         self.url = url
 32         proxy_handler = urllib2.ProxyHandler({"http" : 'web-proxy.oa.com:8080'})
 33         null_proxy_handler = urllib2.ProxyHandler({})
 34         if self.enable_proxy:
 35             opener = urllib2.build_opener(proxy_handler)
 36         else:
 37             opener = urllib2.build_opener(null_proxy_handler)
 38         urllib2.install_opener(opener)
 39     
 40     # 根据url，得到请求返回内容的soup对象
 41     def __getResponseSoup(self, url):
 42         request = urllib2.Request(url)
 43         #request.add_header('User-Agent', "Mozilla/5.0")
 44         #request.add_header('Accept-Language', 'zh-ch,zh;q=0.5')
 45         respOnse= urllib2.urlopen(request)
 46         resault = response.read()
 47         soup = BeautifulSoup(resault, "html.parser")
 48         return soup
 49     
 50     # 首页中抓去到各个分类的url
 51     def getCategoryUrl(self):    
 52         soup = self.__getResponseSoup(self.url)
 53         allinfo = soup.find_all('ul', attrs={"class": "nav navbar-nav"})[0].find_all('a')
 54         for info in allinfo:
 55             chinese = info.get_text().encode('utf-8')
 56             href = info.get('href')
 57             if href == self.url:    
 58                 continue
 59             print chinese, href
 60             self.getMoreCategory(chinese, href)
 61             
 62             
 63     # 判断一个url是否存在
 64     def __urlExist(self, url):
 65         try:
 66             respOnse= urllib2.urlopen(url)
 67             return True
 68         except Exception, e:
 69             #print e.__class__,  e, url
 70             return False
 71         
 72     # 根据分类的一个url，挖出所有的分类总页url
 73     def getMoreCategory(self, category, url):
 74         for i in range(1, self.pagenum):
 75             tmp = str(i)+'.html'
 76             s = url.replace('1.html', tmp)
 77             if self.__urlExist(s):
 78                 self.getDetailUrl(category, s)            
 79             else:
 80                 return
 81             
 82     # 继续解析分类url，得到具体文章的url
 83     def getDetailUrl(self, category, url):
 84         #print category,url
 85         soup = self.__getResponseSoup(url)        
 86         otherurl = soup.find_all('a', attrs={"target": "_blank"})
 87         for info in otherurl:
 88             tmp = info.find(re.compile("^b"))        
 89             if tmp:
 90                 if not self.repeat.exist(info.get('href')):
 91                     detailurl = self.url + info.get('href')
 92                     print detailurl
 93                     self.getTranslateContent(category, detailurl)
 94     
 95     # 根据具体的url去拿翻译的数据
 96     def getTranslateContent(self, category, url):
 97         try:
 98             soup = self.__getResponseSoup(url)
 99         except Exception, e:
100             #print e.__class__,  e, url
101             return
102         english = soup.find_all('p', attrs={"ondblclick": "Javascript:doExplain();"})
103         chinese = soup.find_all('p', attrs={"class": "p2"})
104         
105         i=0
106         for words in english:
107             eng = words.get_text().encode('utf-8')
108             chi = chinese[i].get_text().encode('utf-8')
109             i=i+1
110             self.log.write(eng, chi, category)
111     
112 c = Climbing(weburl)
113 c.getCategoryUrl()
114 #c.getTranslateContent("asd", 'http://news.iyuba.com/essay/2016/06/28/47724.html')

reptile.py

推荐阅读

io
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
io
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
post
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
post
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
io
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
post
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
io
Python连接服务器失败：使用aiohttp模拟服务器出现错误问题及解决方法

本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题，并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息，同时也提到了相关的警告信息和函数的替代方案。通过阅读本文，读者可以了解到如何解决Python连接服务器失败的问题，并对aiohttp模块有更深入的了解。 ... [详细]

蜡笔小新 2023-12-13 12:37:59
io
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
js
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15
js
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
js
django视图函数的使用方法

本文介绍了django中视图函数的使用方法，包括如何接收Web请求并返回Web响应，以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]

蜡笔小新 2023-12-12 16:02:59
io
通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)

Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]

蜡笔小新 2023-12-12 14:13:01
js
延迟注入工具（python）的SQL脚本

本文介绍了一个延迟注入工具（python）的SQL脚本，包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试，并通过延迟时间来判断注入是否成功。 ... [详细]

蜡笔小新 2023-12-12 10:36:42
io
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
js
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35

呐街角-伤_774

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章