当前位置: 开发笔记 > 前端 > 正文

使用PyCharm批量爬取小说的完整代码

作者：13486099491_fb9570 | 来源：互联网 | 2022-09-21 18:16

这篇文章主要介绍了使用PyCharm批量爬取小说,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

使用pycharm批量爬取小说

爬取小说的思路：

1.获取小说地址

本文以搜书网一小说为例《嘘，梁上有王妃！》
目录网址：https://www.soshuw.com/XuLiangShangYouWangFei/
加载需要的包：

import re
from bs4 import BeautifulSoup as ds
import requests

获取小说目录文件，返回，表示可正常爬取该网页

base_url='https://www.soshuw.com/XuLiangShangYouWangFei/'
chapter_html=requests.get(base_url)
print(chapter_html)

2.分析小说地址结构

解析目录网页 , 输出结果为目录网页的源代码

chapter_page_html=ds(chapter_page,'lxml')
print(chapter_page)

打开目录网页，发现在正文的目录前面有一个最新章节目录（这里有九个章节），再完整的目录中是包含最新章节的，所以这里最新章节是不需要的。

在这里插入图片描述

在网页单击右键选择“检查”（或者“属性”，不同的浏览器的叫法不一致，我用的是IE）选择“元素”列，鼠标再右侧代码块上移动时。左侧网页会高亮显示其对应网页区域，找到完整目录对应的代码块。如下图：

在这里插入图片描述

完整目录的锚有两个，分别是class="novel_list"和id=“novel108799”,仔细观察后发现class不唯一，所以我们选用id提取该块内容

在这里插入图片描述

将完整目录块提取出来

chapter_novel=chapter_page.find(id="novel108799")
print(chapter_novel)

结果如下（仅部分结果）：

在这里插入图片描述

对比小说章节内容网址和目录网址（base_url）发现，我们只需要将base_url和章节内容网址的后半段拼接到一起就可以得到完整的章节内容网址

3.拼接地址

利用正则语言库将地址后半段提取出来

chapter_novel_str=str(chapter_novel)
regx = '

拼接url:
定义一个列表chapter_url_list接收完整地址

chapter_url_list = []
for i in chapter_href_list:
 url=base_url+i
 chapter_url_list.append(url)
print(chapter_url_list)

4.分析章节内容结构

打开章节，右键→“属性”，查看内容结构，发现小说正文有class和id两个锚，class是不变的，id随着章节而变化，所以我们用class提取正文

提取正文段

chapter_novel=chapter_page.find(id="novel108799")
print(chapter_novel)

提取正文文本和标题

body_html=requests.get('https://www.soshuw.com/XuLiangShangYouWangFei/3647144.html')
body_page=ds(body_html.content,'lxml')
body = body_page.find(class_='content')
body_cOntent=str(body)
print(body_content)
body_regx='
 (.*&＃63;)\n'
content_list=re.findall(body_regx,body_content)
print(content_list)
title_regx = '(.*&＃63;)'
title = re.findall(title_regx, body_html.text)
print(title)

5.保存文本

with open('1.txt', 'a+') as f:
 f.write('\n\n')
 f.write(title[0] + '\n')
 f.write('\n\n')
 for e in content_list:
  f.write(e + '\n')
print('{} 爬取完毕'.format(title[0]))

6.完整代码

import re
from bs4 import BeautifulSoup as ds
import requests
base_url='https://www.soshuw.com/XuLiangShangYouWangFei'
chapter_html=requests.get(base_url)
chapter_page=ds(chapter_html.content,'lxml')
chapter_novel=chapter_page.find(id="novel108799")
#print(chapter_novel)
chapter_novel_str=str(chapter_novel)
regx = '

到此这篇关于使用PyCharm批量爬取小说的文章就介绍到这了,更多相关PyCharm批量爬取小说内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

button
PyQt5 QTextEdit：深入解析Python中多功能GUI库的应用与实现

本文详细探讨了 PyQt5 中 QTextEdit 组件在 Python 多功能 GUI 库中的应用与实现。PyQt5 是 Qt 框架的 Python 绑定，提供了超过 620 个类和 6000 个函数及方法，广泛应用于跨平台应用程序开发。QTextEdit 作为其中的重要组件，支持丰富的文本编辑功能，如富文本格式、文本高亮和自定义样式等。PyQt5 的流行性不仅在于其强大的功能，还在于其易用性和灵活性，使其成为开发复杂用户界面的理想选择。 ... [详细]

蜡笔小新 2024-10-28 23:56:36
webkit
【Python爬虫实操】不创作小说，专精网站内容迁移，超高效！（含源代码）

本文详细介绍了如何利用Python爬虫技术实现高效网站内容迁移，涵盖前端、后端及Android相关知识点。通过具体实例和源代码，展示了如何精准抓取并迁移网站内容，适合对Python爬虫实战感兴趣的开发者参考。 ... [详细]

蜡笔小新 2024-10-28 20:00:28
focus
在JavaScript中实现电子邮件和密码的输入验证 - Implementing Input Validation for Email and Password in JavaScript

本文旨在构建一个JavaScript函数，用于对用户输入的电子邮件地址和密码进行有效性验证。该函数将确保输入符合标准格式，并检查密码强度，以提升用户账户的安全性。通过集成正则表达式和条件判断语句，该方法能够有效防止常见的输入错误，同时提供即时反馈，改善用户体验。 ... [详细]

蜡笔小新 2024-10-24 14:23:11
html
Grafana 邮件与微信告警配置指南（独立于 Alertmanager）

本文详细介绍了如何在 Grafana 中独立于 Alertmanager 配置邮件和微信告警。具体步骤包括配置 SMTP 服务器以实现邮件告警，以及设置微信告警的集成方式。通过这些配置，用户可以更灵活地管理和接收来自 Grafana 的告警通知，确保及时响应系统异常。文章还提供了详细的配置示例和常见问题的解决方案，帮助用户顺利完成设置。 ... [详细]

蜡笔小新 2024-10-31 22:55:34
focus
Android动态滚动文本显示控件优化实现

本文探讨了在Android应用中实现动态滚动文本显示控件的优化方法。通过详细分析焦点管理机制，特别是通过设置返回值为`true`来确保焦点不会被其他控件抢占，从而提升滚动文本的流畅性和用户体验。具体实现中，对`MarqueeText.java`进行了代码层面的优化，增强了控件的稳定性和兼容性。 ... [详细]

蜡笔小新 2024-10-31 13:18:50
html
深入解析Python协程：asyncio模块的应用与优化

在处理大规模并发请求时，传统的多线程或多进程模型往往无法有效解决性能瓶颈问题。尽管它们在处理小规模任务时能提升效率，但在高并发场景下，系统资源的过度消耗和上下文切换的开销会显著降低整体性能。相比之下，Python 的 `asyncio` 模块通过协程提供了一种轻量级且高效的并发解决方案。本文将深入解析 `asyncio` 模块的原理及其在实际应用中的优化技巧，帮助开发者更好地利用协程技术提升程序性能。 ... [详细]

蜡笔小新 2024-10-30 18:17:34
webkit
可转债数据智能抓取与分析平台优化

本项目旨在优化可转债数据的智能抓取与分析平台。通过爬取集思录上的可转债信息（排除已发布赎回的债券），并结合安道全教授提出的三条安全线投资策略，新增了建仓线、加仓线和重仓线，以提供更精准的投资建议。 ... [详细]

蜡笔小新 2024-10-30 17:40:17
html
如何利用Apache与Nginx高效实现动静态内容分离

如何利用Apache与Nginx高效实现动静态内容分离 ... [详细]

蜡笔小新 2024-10-29 21:47:55
html
AS3 中的数据深度复制技术详解

在探讨 AS3 中的数据深度复制技术时，本文详细介绍了实现数据深度克隆的有效方法。通过对比多种方案，最终确定了一种高效且可靠的实现方式，所有代码均来源于公开资源，确保了方法的实用性和可操作性。 ... [详细]

蜡笔小新 2024-10-29 15:46:45
html
首篇待优化改进的文章

本文介绍了多种常用的矩阵类型及其生成方法，包括单位矩阵、全零矩阵、全1矩阵以及均匀分布的随机矩阵。此外，还探讨了生成随机Markov矩阵的技术，并详细解释了线性等分向量和对数等分向量的构建方式，以及矩阵对数运算的应用。这些内容为数值计算和数据处理提供了坚实的基础。 ... [详细]

蜡笔小新 2024-10-28 19:05:09
html
深入解析：JavaScript与C#中运用正则表达式进行HTML a标签匹配的技术要点

深入解析：JavaScript与C#中运用正则表达式进行HTML a标签匹配的技术要点 ... [详细]

蜡笔小新 2024-10-27 11:37:15
v8
Sublime Text 3 2021 激活密钥及在线激活方法详解

本文详细介绍了 Sublime Text 3 在 2021 年的激活密钥及其在线激活方法。用户可以通过提供的链接访问云海天教程，获取更多详细的激活码信息和操作步骤。此外，文章还提供了安全可靠的激活方案，帮助用户顺利激活软件，提升编程效率。 ... [详细]

蜡笔小新 2024-10-26 21:20:12
html
优化后的标题：在Linux/WSL环境中进行Shell任务的并行处理测试与分析

在Linux/WSL环境中，本文对Shell任务的并行处理进行了详细的测试与分析。通过多种并行处理技术，如GNU Parallel和xargs，探讨了如何有效提升任务执行效率和系统资源利用率。实验结果表明，合理配置并行参数能够显著缩短任务完成时间，提高系统整体性能。此外，文章还介绍了Shell脚本编写的基本原则和最佳实践，为读者提供了实用的参考。 ... [详细]

蜡笔小新 2024-10-25 20:31:28
html
利用正则表达式在Sublime Text中高效匹配与处理中文字符串

在Sublime Text中，通过使用正则表达式 [\x{4e00}-\x{9fa5}]，可以高效地匹配和处理中文字符。这一方法不仅适用于JavaScript环境，还能在多种编程场景中提高文本处理的准确性和效率。本文将详细介绍如何在Sublime Text中应用该正则表达式，以及其在实际开发中的具体案例和技巧。 ... [详细]

蜡笔小新 2024-10-28 10:59:09
html
Jsoup学习笔记10：Saz到Csv的数据解析器实现

在一系列的学习与实践后，Jsoup学习笔记系列即将进入尾声。本文详细介绍了如何使用Jsoup实现从Saz文件到Csv格式的数据解析功能。未来，计划将此功能进一步封装，开发成具有用户界面的独立应用程序，以增强其实用性和便捷性。对于希望深入掌握Jsoup技术的开发者，本文提供了宝贵的参考和实践案例。 ... [详细]

蜡笔小新 2024-10-27 20:26:09

13486099491_fb9570

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章