豆瓣python源码_python爬虫1——获取网站源代码(豆瓣图书top250信息)

作者：瓯源鞋楦头尾自动修平机 | 来源：互联网 | 2023-10-10 16:50

#-*-coding:utf-8-*-importrequestsimportreimportsysreload(sys)sys.setdefaultencoding(utf

#-*- coding: utf-8 -*-

importrequestsimportreimportsys

reload(sys)

sys.setdefaultencoding(&＃39;utf-8&＃39;)classSpider(object):def __init__(self):print(&＃39;开始爬取豆瓣图书top250的内容。。。。。。&＃39;)#传入url&＃xff0c;返回网页源代码

defgetSourceCode(self, url):

html&＃61;requests.get(url)returnhtml.text#从源代码中提取出我们需要的内容块&＃xff1a;{书名、作者出版社等、评分、评价人数}。

defgetEveryBookContent(self, sourceCode):

everyBookContent&＃61; re.findall(&＃39;

&＃39;, sourceCode, re.S)#everyBookContent &＃61; re.findall(&＃39;

(.*?)

&＃39;, sourceCode, re.S)

returneveryBookContent#从内容块中提取出数据

defgetBookInfo(self, eachBookContent):

bookInfo&＃61;{}#bookInfo[&＃39;title&＃39;] &＃61; re.subn(&＃39;( |\n|
|?span.*?>)&＃39;, "", re.search(&＃39;(.*?)&＃39;, eachBookContent, re.S).group(1))[0]

bookInfo[&＃39;title&＃39;] &＃61; re.sub(&＃39;( |\n|
|?span.*?>)&＃39;, "", re.search(&＃39;(.*?)&＃39;, eachBookContent, re.S).group(1))

bookInfo[&＃39;author&＃39;] &＃61; re.search(&＃39;

(.*?)

&＃39;, eachBookContent, re.S).group(1)

bookInfo[&＃39;discussNum&＃39;] &＃61; re.sub(&＃39;( |\n|
)&＃39;, "", re.search(&＃39;\((.*?)\)&＃39;, eachBookContent, re.S).group(1))

bookInfo[&＃39;score&＃39;] &＃61; re.search(&＃39;(.*?)&＃39;, eachBookContent, re.S).group(1)returnbookInfo#将结果保存到文件

defsaveBookInfo(self, bookList):

f&＃61; open("bookList.txt", "a")for each inbookList:

f.writelines(&＃39;书名:\t {}\n&＃39;.format(each[&＃39;title&＃39;]))

f.writelines(&＃39;作者:\t {}\n&＃39;.format(each[&＃39;author&＃39;]))

f.writelines(&＃39;评论数:\t {}\n&＃39;.format(each[&＃39;discussNum&＃39;]))

f.writelines(&＃39;评分:\t {}\n\n&＃39;.format(each[&＃39;score&＃39;]))

f.close()defstart(self, url):

sourceCode&＃61;self.getSourceCode(url)

everyBookContent&＃61;self.getEveryBookContent(sourceCode)

bookList&＃61;[]for each ineveryBookContent:

bookList.append(self.getBookInfo(each))

self.saveBookInfo(bookList)if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

douban&＃61;Spider()

url&＃61; &＃39;http://book.douban.com/top250?start&＃61;0&＃39;i&＃61;0while i <&＃61; 225:

url&＃61; &＃39;http://book.douban.com/top250?start&＃61;{}&＃39;.format(i)

douban.start(url)

i&＃43;&＃61; 25

推荐阅读

js
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
int
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
default
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
数组
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
int
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
int
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
char
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
int
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
int
Nginx使用AWStats日志分析的步骤及注意事项

本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息，并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境，并进行DNS解析。 ... [详细]

蜡笔小新 2023-12-14 19:42:01
int
kotlin动画实现上下移动、放大缩小、旋转功能

本文介绍了使用kotlin实现动画效果的方法，包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果，并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例，可以用来实现放大缩小的效果。 ... [详细]

蜡笔小新 2023-12-14 17:29:08
char
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
int
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
md5
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
tags
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
tags
ASP.NET2.0数据教程之十四：使用FormView的模板

本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观，与GridView和DetailsView不同，FormView使用模板来呈现，可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]

蜡笔小新 2023-12-13 08:07:00

瓯源鞋楦头尾自动修平机

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章