python实现网络段子页爬虫案例

作者：云海雨岛 | 来源：互联网 | 2017-05-14 02:44

网上的Python教程大都是2.X版本的，python2.X和python3.X相比较改动比较大，好多库的用法不太一样，我安装的是python3.X，我们来看看详细的例子

0x01

春节闲着没事(是有多闲)，就写了个简单的程序，来爬点笑话看，顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子，一个逗逼，爬取煎蛋网上妹子的照片，简直不要太方便。于是乎就自己照猫画虎，抓了点图片。

科技启迪未来，身为一个程序员，怎么能干这种事呢，还是爬点笑话比较有益于身心健康。

代码如下:

soup = BeautifulSoup(getHTML("http://www.pengfu.com/xiaohua_1.html"))

用 BeautifulSoup 来解析网页也就一句话，但当你运行代码的时候，会出现这么一个警告，提示要指定一个解析器，不然，可能会在其他平台或者系统上报错。

代码如下:

/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/bs4/init.py:181: UserWarning: No parser was explicitly specified, so I&＃39;m using the best available HTML parser for this system ("lxml"). This usually isn&＃39;t a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.
The code that caused this warning is on line 64 of the file joke.py. To get rid of this warning, change code that looks like this:
 BeautifulSoup([your markup])
to this:
 BeautifulSoup([your markup], "lxml")
  markup_type=markup_type))

解析器的种类和不同解析器之间的区别官方文档有详细的说明，目前来说，还是用 lxml 解析比较靠谱。
修改之后

代码如下:

soup = BeautifulSoup(getHTML("http://www.pengfu.com/xiaohua_1.html", &＃39;lxml&＃39;))

这样，就没有上述警告了。

代码如下:

p_array = soup.find_all(&＃39;p&＃39;, {&＃39;class&＃39;:"content-img clearfix pt10 relative"})

利用 find_all 函数，来找到所有 class = content-img clearfix pt10 relative 的 p 标签然后遍历这个数组

代码如下:

for x in p_array: cOntent= x.string

这样，我们就取到了目的 p 的内容。至此，我们已经达到了我们的目的，爬到了我们的笑话。
但当以同样的方式去爬取糗百的时候，会报这样一个错误

代码如下:

raise RemoteDisconnected("Remote end closed connection without" http.client.RemoteDisconnected: Remote end closed connection without response

说远端无响应，关闭了链接，看了下网络也没有问题，这是什么情况导致的呢？莫非是我姿势不对？
打开 charles 抓包，果然也没反应。唉，这就奇怪了，好好的一个网站，怎么浏览器可以访问，python 无法访问呢，是不是 UA 的问题呢？看了下 charles，发现，利用 urllib 发起的请求，UA 默认是 Python-urllib/3.5 而在 chrome 中访问 UA 则是 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36，那会不会是因为服务器根据 UA 来判断拒绝了 python 爬虫。我们来伪装下试试看行不行

代码如下:

def getHTML(url):
    
head
ers = {&＃39;User-Agent&＃39;: &＃39;User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36&＃39;}
    req = request.Request(url, headers=headers)
    return request.urlopen(req).read()

这样就把 python 伪装成 chrome 去获取糗百的网页，可以顺利的得到数据。

至此，利用 python 爬取糗百和捧腹网的笑话已经结束，我们只需要分析相应的网页，找到我们感兴趣的元素，利用 python 强大的功能，就可以达到我们的目的，不管是 XXOO 的图，还是内涵段子，都可以一键搞定，不说了，我去找点妹子图看看。

# -*- coding: utf-8 -*-
import sys
import urllib.request as request
from bs4 import BeautifulSoup

def getHTML(url):
  headers = {&＃39;User-Agent&＃39;: &＃39;User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36&＃39;}
  req = request.Request(url, headers=headers)
  return request.urlopen(req).read()

def get_pengfu_results(url):
  soup = BeautifulSoup(getHTML(url), &＃39;lxml&＃39;)
  return soup.find_all(&＃39;p&＃39;, {&＃39;class&＃39;:"content-img clearfix pt10 relative"})

def get_pengfu_joke():
  for x in range(1, 2):
    url = &＃39;http://www.pengfu.com/xiaohua_%d.html&＃39; % x
    for x in get_pengfu_results(url):
      cOntent= x.string
      try:
        string = content.lstrip()
        print(string + &＃39;\n\n&＃39;)
      except:
        continue
  return

def get_qiubai_results(url):
  soup = BeautifulSoup(getHTML(url), &＃39;lxml&＃39;)
  cOntents= soup.find_all(&＃39;p&＃39;, {&＃39;class&＃39;:&＃39;content&＃39;})
  restlus = []
  for x in contents:
    str = x.find(&＃39;span&＃39;).getText(&＃39;\n&＃39;,&＃39;
&＃39;)
    restlus.append(str)
  return restlus

def get_qiubai_joke():
  for x in range(1, 2):
    url = &＃39;http://www.qiushibaike.com/8hr/page/%d/?s=4952526&＃39; % x
    for x in get_qiubai_results(url):
      print(x + &＃39;\n\n&＃39;)
  return

if name == &＃39;main&＃39;:
  get_pengfu_joke()
  get_qiubai_joke()

推荐阅读

request
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
io
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
request
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
request
爬虫05 /scrapy框架

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]

蜡笔小新 2023-10-13 22:01:54
io
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
utf-8
Scrapy 爬取图片

1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]

蜡笔小新 2023-10-14 15:02:27
request
python爬虫如何使用代理ip,Python ip代理

博主使用代理IP来自于网上免费提供高匿IP的这个网站用到的库frombs4importBeautifulSoupimportrandomimporturllib.re ... [详细]

蜡笔小新 2023-10-13 18:52:58
request
css元素可拖动,如何使用CSS禁止元素拖拽？

一、用户行为三剑客以下3个CSS属性：user-select属性可以设置是否允许用户选择页面中的图文内容；user-modify属性可以设置是否允许输入 ... [详细]

蜡笔小新 2023-10-17 14:35:15
request
Python爬取豆瓣数据实现过程解析

这篇文章主要介绍了Python爬取豆瓣数据实现过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值, ... [详细]

蜡笔小新 2023-10-16 12:46:01
char
pyecharts 介绍

一、pyecharts介绍ECharts，一个使用JavaScript实现的开源可视化库，可以流畅的运行在PC和移动设备上，兼容当前绝大部 ... [详细]

蜡笔小新 2023-10-16 08:29:03
char
前端提高篇(七十)：SVG基本使用、基本样式、路径path

SVG是使用XML来描述二维图形和绘图程序的语言。SVG遵循的是xml的规范，与html5的使用有所区别SVG绘制出来的是矢量图，放大之后不会失真官方文 ... [详细]

蜡笔小新 2023-10-14 15:30:33
char
2022年的风口：你看不起的行业，真的很挣钱！

本文介绍了2022年的风口，探讨了一份稳定的副业收入对于普通人增加收入的重要性，以及如何抓住风口来实现赚钱的目标。文章指出，拼命工作并不一定能让人有钱，而是需要顺应时代的方向。 ... [详细]

蜡笔小新 2023-12-11 18:31:31
javascript
常用的CSS属性及用法整理

本文整理了常用的CSS属性及用法，包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等，方便开发者查阅和使用。 ... [详细]

蜡笔小新 2023-12-09 03:01:43
javascript
求职屡屡碰壁，埋头苦学5个月斩获16000元offer，终于懂了没有人能随随便便成功

求职屡屡碰壁，埋头苦学5个月斩获16000元offer，终于懂了没有人能随随便便成功-我以前一直认为，只要有耐心，有决心，有信心，就可以在社会上立足，干出一番事业。但是经历了社会的 ... [详细]

蜡笔小新 2023-10-17 17:16:54
grid
CSS |网格行结束属性

CSS|网格-行-结束属性原文:https://www.gee ... [详细]

蜡笔小新 2023-10-17 15:21:56

云海雨岛

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章