编写Python脚本抓取网络小说来制作自己的阅读器

作者：陈佩儒61473 | 来源：互联网 | 2018-07-18 06:09

这篇文章主要介绍了编写Python脚本抓取网络小说来制作自己的阅读器的方法,包括对小说的章节排列等方面的优化,对于Python学习者来说非常具有实践意义!需要的朋友可以参考下

你是否苦恼于网上无法下载的“小说在线阅读”内容？或是某些文章的内容让你很有收藏的冲动，却找不到一个下载的链接？是不是有种自己写个程序把全部搞定的冲动？是不是学了 python，想要找点东西大展拳脚，告诉别人“哥可是很牛逼的！”？那就让我们开始吧！哈哈~
好吧，我就是最近写 Yii 写多了，想找点东西调剂一下.... = =

本项目以研究为目的，所有版权问题我们都是站在作者的一边，以看盗版小说为目的的读者们请自行面壁！
说了这么多，我们要做的就是把小说正文的内容从网页上爬下来，我们的研究对象是全本小说网....再次声明，不对任何版权负责....
一开始先做最基础的内容，就是把某一章的内容抓取下来。

环境：Ubuntu, Python 2.7

基础知识
这个程序涉及到的知识点有几个，在这里列出来，不详细讲，有疑问的直接百度会有一堆的。
1.urllib2 模块的 request 对像来设置 HTTP 请求，包括抓取的 url，和伪装浏览器的代理。然后就是 urlopen 和 read 方法，都很好理解。
2.chardet 模块，用于检测网页的编码。在网页上抓取数据很容易遇到乱码的问题，为了判断网页是 gtk 编码还是 utf-8 ，所以用 chardet 的 detect 函数进行检测。在用 Windows 的同学可以在这里 http://download.csdn.net/detail/jcjc918/8231371 下载，解压到 python 的 lib 目录下就好。
3. decode 函数将字符串从某种编码转为 unicode 字符，而 encode 把 unicode 字符转为指定编码格式的字符串。
4. re 模块正则表达式的应用。search 函数可以找到和正则表达式对应匹配的一项，而 replace 则是把匹配到的字符串替换。

思路分析：
我们选取的 url 是 http://www.quanben.com/xiaoshuo/0/910/59302.html，斗罗大陆的第一章。你可以查看网页的源代码，会发现只有一个 content 标签包含了所有章节的内容，所以可以用正则把 content 的标签匹配到，抓取下来。试着把这一部分内容打印出来，会发现很多
和，
要替换成换行符，是网页中的占位符，即空格，替换成空格就好。这样一章的内容就很美观的出来了。完整起见，同样用正则把标题爬下来。

程序

# -*- coding: utf-8 -*- 
 
import urllib2 
import re 
import chardet 
 
 
class Book_Spider: 
 
  def __init__(self): 
    self.pages = [] 
 
  # 抓取一个章节 
  def GetPage(self): 
    myUrl = "http://www.quanben.com/xiaoshuo/0/910/59302.html"; 
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
    headers = { 'User-Agent' : user_agent } 
    request = urllib2.Request(myUrl, headers = headers) 
    myRespOnse= urllib2.urlopen(request) 
    myPage = myResponse.read() 
 
    #先检测网页的字符编码,最后统一转为 utf-8 
    charset = chardet.detect(myPage) 
    charset = charset['encoding'] 
    if charset == 'utf-8' or charset == 'UTF-8': 
      myPage = myPage 
    else: 
      myPage = myPage.decode('gb2312','ignore').encode('utf-8') 
    unicodePage = myPage.decode("utf-8") 
 
    try: 
      #抓取标题 
      my_title = re.search('(.*&＃63;)',unicodePage,re.S) 
      my_title = my_title.group(1) 
    except: 
      print '标题 HTML 变化，请重新分析！' 
      return False 
     
    try: 
      #抓取章节内容 
      my_cOntent= re.search('(.*&＃63;)","\n") 
    my_cOntent= my_content.replace(" "," ") 
 
    #用字典存储一章的标题和内容 
    OnePage= {'title':my_title,'content':my_content} 
    return onePage 
 
 
  # 用于加载章节 
  def LoadPage(self): 
    try: 
      # 获取新的章节 
      myPage = self.GetPage() 
       
      if myPage == False: 
        print '抓取失败！' 
        return False 
       
      self.pages.append(myPage) 
    except: 
      print '无法连接服务器！' 
 
  #显示一章 
  def ShowPage(self,curPage): 
      print curPage['title'] 
      print curPage['content'] 
 
  def Start(self): 
    print u'开始阅读......\n' 
    #把这一页加载进来 
    self.LoadPage() 
    # 如果self的pages数组中存有元素 
    if self.pages: 
      nowPage = self.pages[0] 
      self.ShowPage(nowPage) 
 
 
#----------- 程序的入口处 ----------- 
print u""" 
--------------------------------------- 
  程序：阅读呼叫转移 
  版本：0.1 
  作者：angryrookie 
  日期：2014-07-05 
  语言：Python 2.7 
  功能：按下回车浏览章节 
--------------------------------------- 
""" 
 
print u'请按下回车：' 
raw_input() 
myBook = Book_Spider() 
myBook.Start()

程序运行完在我这里可是很好看的，不信请看：^_^

理所当然地，接下来我们要把整本小说都爬下来。首先，我们要把程序从原来的读完一章就结束，改成读完一章之后可以继续进行下一章的阅读。
注意到每个小说章节的网页下面都有下一页的链接。通过查看网页源代码，稍微整理一下（不显示了），我们可以看到这一部分的 HTML 是下面这种格式的：

上一页、返回目录、下一页都在一个 id 为 footlink 的 p 中，如果想要对每个链接进行匹配的话，会抓取到网页上大量的其他链接，但是 footlink 的 p 只有一个啊！我们可以把这个 p 匹配到，抓下来，然后在这个抓下来的 p 里面再匹配的链接，这时就只有三个了。只要取最后一个链接就是下一页的 url 的，用这个 url 更新我们抓取的目标 url ，这样就能一直抓到下一页。用户阅读逻辑为每读一个章节后，等待用户输入，如果是 quit 则退出程序，否则显示下一章。

基础知识：
上一篇的基础知识加上 Python 的 thread 模块.

源代码：

# -*- coding: utf-8 -*- 
 
import urllib2 
import re 
import thread 
import chardet 
 
class Book_Spider: 
 
  def __init__(self): 
    self.pages = [] 
    self.page = 1 
    self.flag = True 
    self.url = "http://www.quanben.com/xiaoshuo/10/10412/2095096.html" 
 
  # 将抓取一个章节 
  def GetPage(self): 
    myUrl = self.url 
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
    headers = { 'User-Agent' : user_agent } 
    req = urllib2.Request(myUrl, headers = headers) 
    myRespOnse= urllib2.urlopen(req) 
    myPage = myResponse.read() 
 
    charset = chardet.detect(myPage) 
    charset = charset['encoding'] 
    if charset == 'utf-8' or charset == 'UTF-8': 
      myPage = myPage 
    else: 
      myPage = myPage.decode('gb2312','ignore').encode('utf-8') 
    unicodePage = myPage.decode("utf-8") 
 
    # 找出 id="content"的p标记 
    try: 
      #抓取标题 
      my_title = re.search('(.*&＃63;)',unicodePage,re.S) 
      my_title = my_title.group(1) 
    except: 
      print '标题 HTML 变化，请重新分析！' 
      return False 
     
    try: 
      #抓取章节内容 
      my_cOntent= re.search('(.*&＃63;)","\n") 
    my_cOntent= my_content.replace(" "," ") 
 
    #用字典存储一章的标题和内容 
    OnePage= {'title':my_title,'content':my_content} 
 
    try: 
      #找到页面下方的连接区域 
      foot_link = re.search('(.*&＃63;)',unicodePage,re.S) 
      foot_link = foot_link.group(1) 
      #在连接的区域找下一页的连接，根据网页特点为第三个 
      nextUrl = re.findall(u'(.*&＃63;)',foot_link,re.S) 
      nextUrl = nextUrl[2][0] 
      # 更新下一次进行抓取的链接 
      self.url = nextUrl 
    except: 
      print "底部链接变化，请重新分析!" 
      return False 
 
    return onePage 
 
  # 用于加载章节 
  def LoadPage(self): 
    while self.flag: 
      if(len(self.pages) - self.page <3): 
        try: 
          # 获取新的页面 
          myPage = self.GetPage() 
 
          if myPage == False: 
            print '抓取失败！' 
            self.flag = False 
       
          self.pages.append(myPage) 
        except: 
          print '无法连接网页！' 
          self.flag = False 
 
  #显示一章 
  def ShowPage(self,curPage): 
      print curPage['title'] 
      print curPage['content'] 
      print "\n" 
      user_input = raw_input("当前是第 %d 章，回车读取下一章或者输入 quit 退出：" % self.page) 
      if(user_input == 'quit'): 
        self.flag = False 
      print "\n" 
 
  def Start(self): 
    print u'开始阅读......\n' 
 
    # 新建一个线程 
    thread.start_new_thread(self.LoadPage,()) 
 
    # 如果self的page数组中存有元素 
    while self.flag: 
      if self.page <= len(self.pages): 
        nowPage = self.pages[self.page-1] 
        self.ShowPage(nowPage) 
        self.page += 1 
 
    print u"本次阅读结束" 
 
 
#----------- 程序的入口处 ----------- 
print u""" 
--------------------------------------- 
  程序：阅读呼叫转移 
  版本：0.2 
  作者：angryrookie 
  日期：2014-07-07 
  语言：Python 2.7 
  功能：按下回车浏览下一章节 
--------------------------------------- 
""" 
 
print u'请按下回车：' 
raw_input(' ') 
myBook = Book_Spider() 
myBook.Start()

现在这么多小说阅读器，我们只需要把我们要的小说抓取到本地的 txt 文件里就好了，然后自己选个阅读器看，怎么整都看你了。

其实上个程序我们已经完成了大部分逻辑，我们接下来的改动只需要把抓取到每一章的时候不用显示出来，而是存入 txt 文件之中。另外一个是程序是不断地根据下一页的 Url 进行抓取的，那么什么时候结束呢？注意当到达小说的最后一章时下一页的链接是和返回目录的链接是一样的。所以我们抓取一个网页的时候就把这两个链接拿出来，只要出现两个链接一样的时候，就停止抓取。最后就是我们这个程序不需要多线程了，我们只要一个不断在抓取小说页面的线程就行了。
不过，小说章节多一点时候，等待完成的时间会有点久。目前就不考虑这么多了，基本功能完成就 OK....

基础知识：前面的基础知识 - 多线程知识 + 文件操作知识。

源代码：

# -*- coding:utf-8 -*- 
 
import urllib2 
import urllib 
import re 
import thread 
import chardet 
 
class Book_Spider: 
 
  def __init__(self): 
    self.pages = [] 
    self.page = 1 
    self.flag = True 
    self.url = "http://www.quanben.com/xiaoshuo/0/910/59302.html" 
 
  # 将抓取一个章节 
  def GetPage(self): 
    myUrl = self.url 
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
    headers = { 'User-Agent' : user_agent } 
    req = urllib2.Request(myUrl, headers = headers) 
    myRespOnse= urllib2.urlopen(req) 
    myPage = myResponse.read() 
 
    charset = chardet.detect(myPage) 
    charset = charset['encoding'] 
    if charset == 'utf-8' or charset == 'UTF-8': 
      myPage = myPage 
    else: 
      myPage = myPage.decode('gb2312','ignore').encode('utf-8') 
    unicodePage = myPage.decode("utf-8") 
 
    # 找出 id="content"的p标记 
    try: 
      #抓取标题 
      my_title = re.search('(.*&＃63;)',unicodePage,re.S) 
      my_title = my_title.group(1) 
    except: 
      print '标题 HTML 变化，请重新分析！' 
      return False 
     
    try: 
      #抓取章节内容 
      my_cOntent= re.search('(.*&＃63;)","\n") 
    my_cOntent= my_content.replace(" "," ") 
 
    #用字典存储一章的标题和内容 
    OnePage= {'title':my_title,'content':my_content} 
 
    try: 
      #找到页面下方的连接区域 
      foot_link = re.search('(.*&＃63;)',unicodePage,re.S) 
      foot_link = foot_link.group(1) 
      #在连接的区域找下一页的连接，根据网页特点为第三个 
      nextUrl = re.findall(u'(.*&＃63;)',foot_link,re.S) 
      #目录链接 
      dir_url = nextUrl[1][0] 
      nextUrl = nextUrl[2][0] 
      # 更新下一次进行抓取的链接 
      self.url = nextUrl 
 
      if(dir_url == nextUrl): 
        self.flag = False 
         
      return onePage 
    except: 
      print "底部链接变化，请重新分析!" 
      return False 
 
  # 用于加载章节 
  def downloadPage(self): 
 
    f_txt = open(u"斗罗大陆.txt",'w+') 
    while self.flag: 
      try: 
        # 获取新的页面 
        myPage = self.GetPage() 
         
        if myPage == False: 
            print '抓取失败！' 
            self.flag = False 
 
        title = myPage['title'].encode('utf-8') 
        cOntent= myPage['content'].encode('utf-8') 
 
        f_txt.write(title + '\n\n') 
        f_txt.write(content) 
        f_txt.write('\n\n\n') 
 
        print "已下载 ",myPage['title'] 
 
      except: 
        print '无法连接服务器！' 
        self.flag = False 
         
    f_txt.close() 
 
  def Start(self): 
    print u'开始下载......\n' 
 
    self.downloadPage() 
 
 
    print u"下载完成" 
 
 
#----------- 程序的入口处 ----------- 
print u""" 
--------------------------------------- 
  程序：阅读呼叫转移 
  版本：0.3 
  作者：angryrookie 
  日期：2014-07-08 
  语言：Python 2.7 
  功能：按下回车开始下载 
--------------------------------------- 
""" 
 
print u'请按下回车：' 
raw_input(' ') 
myBook = Book_Spider() 
myBook.Start()

推荐阅读

python
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
python
31.项目部署

目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ... [详细]

蜡笔小新 2023-12-12 12:15:41
python
分享css中提升优先级属性!important的用法总结

web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]

蜡笔小新 2023-12-11 11:25:16
js
主从数据库架构配置及实验环境搭建方法

本文介绍了在Web应用系统中，数据库性能是导致系统性能瓶颈最主要的原因之一，尤其是在大规模系统中，数据库集群已经成为必备的配置之一。文章详细介绍了主从数据库架构的好处和实验环境的搭建方法，包括主数据库的配置文件修改和设置需要同步的数据库等内容。MySQL的主从复制功能在国内外大型网站架构体系中被广泛采用，本文总结了作者在实际的Web项目中的实践经验。 ... [详细]

蜡笔小新 2023-12-10 12:20:19
js
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
python
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
js
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
js
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
python
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
python
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
python
Webmin远程命令执行漏洞复现及防护方法

本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法，同时提供了防护方法。漏洞存在于Webmin的找回密码页面中，攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外，还指出了参考链接中的数据包不准确的问题，并解释了漏洞触发的条件。最后，给出了防护方法以避免受到该漏洞的攻击。 ... [详细]

蜡笔小新 2023-12-13 16:14:53
js
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新 2023-12-13 15:50:17
js
Ubuntu下创建deb安装包及离线安装包制作的方法

本文介绍了在Ubuntu下制作deb安装包及离线安装包的方法，通过备份/var/cache/apt/archives文件夹中的安装包，并建立包列表及依赖信息文件，添加本地源，更新源列表，可以在没有网络的情况下更新系统。同时提供了命令示例和资源下载链接。 ... [详细]

蜡笔小新 2023-12-10 21:32:50
netty
Netty源代码分析服务器端启动ServerBootstrap初始化

本文主要分析了Netty源代码中服务器端启动的过程，包括ServerBootstrap的初始化和相关参数的设置。通过分析NioEventLoopGroup、NioServerSocketChannel、ChannelOption.SO_BACKLOG等关键组件和选项的作用，深入理解Netty服务器端的启动过程。同时，还介绍了LoggingHandler的作用和使用方法，帮助读者更好地理解Netty源代码。 ... [详细]

蜡笔小新 2023-12-10 15:42:28
js
互联网思维中的3个段子，9大分类和19条法则

本文介绍了互联网思维中的三个段子，涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例，探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验，三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]

蜡笔小新 2023-12-10 14:58:10

陈佩儒61473

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章