抓取网易新闻的python代码示例

作者：sdlzq | 来源：互联网 | 2017-05-14 02:44

这篇文章主要介绍了Python正则抓取网易新闻的方法,结合实例形式较为详细的分析了Python使用正则进行网易新闻抓取操作的相关实现技巧与注意事项,需要的朋友可以参考下

本文实例讲述了Python正则抓取网易新闻的方法。分享给大家供大家参考，具体如下：

自己写了些关于抓取网易新闻的爬虫，发现其网页源代码与网页的评论根本就对不上，所以，采用了抓包工具得到了其评论的隐藏地址（每个浏览器都有自己的抓包工具，都可以用来分析网站）

如果仔细观察的话就会发现，有一个特殊的，那么这个就是自己想要的了

接下来就是代码了(也照着大神的改改写写了)。

#coding=utf-8
import urllib2
import re
import json
import time
class WY():
  def __init__(self):
    self.headers = {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.24 (KHTML, like &＃39;}
    self.url=&＃39;http://comment.news.163.com/data/news3_bbs/df/B9IBDHEH000146BE_1.html&＃39;
  def getpage(self,page):
    full_url=&＃39;http://comment.news.163.com/cache/newlist/news3_bbs/B9IBDHEH000146BE_&＃39;+str(page)+&＃39;.html&＃39;
    return full_url
  def gethtml(self,page):
    try:
      req=urllib2.Request(page,None,self.headers)
      respOnse= urllib2.urlopen(req)
      html = response.read()
      return html
    except urllib2.URLError,e:
      if hasattr(e,&＃39;reason&＃39;):
        print u"连接失败",e.reason
        return None
  #处理字符串
  def Process(self,data,page):
    if page == 1:
      data=data.replace(&＃39;var replyData=&＃39;,&＃39;&＃39;)
    else:
      data=data.replace(&＃39;var newPostList=&＃39;,&＃39;&＃39;)
    reg1=re.compile(" \[")
    data=reg1.sub(&＃39; &＃39;,data)
    reg2=re.compile(&＃39;<\\\/a>\]&＃39;)
    data=reg2.sub(&＃39;&＃39;,data)
    reg3=re.compile(&＃39;
&＃39;)
    data=reg3.sub(&＃39;&＃39;,data)
    return data
  #解析json
  def dealJSON(self):
    with open("WY.txt","a") as file:
      file.write(&＃39;ID&＃39;+&＃39;|&＃39;+&＃39;评论&＃39;+&＃39;|&＃39;+&＃39;踩&＃39;+&＃39;|&＃39;+&＃39;顶&＃39;+&＃39;\n&＃39;)
    for i in range(1,12):
      if i == 1:
        data=self.gethtml(self.url)
        data=self.Process(data,i)[:-1]
        value=json.loads(data)
        file=open(&＃39;WY.txt&＃39;,&＃39;a&＃39;)
        for item in value[&＃39;hotPosts&＃39;]:
          try:
            file.write(item[&＃39;1&＃39;][&＃39;f&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;b&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;a&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;v&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;\n&＃39;)
          except:
            continue
        file.close()
        print &＃39;--正在采集%d/12--&＃39;%i
        time.sleep(5)
      else:
        page=self.getpage(i)
        data = self.gethtml(page)
        data = self.Process(data,i)[:-2]
        # print data
        value=json.loads(data)
        # print value
        file=open(&＃39;WY.txt&＃39;,&＃39;a&＃39;)
        for item in value[&＃39;newPosts&＃39;]:
          try:
            file.write(item[&＃39;1&＃39;][&＃39;f&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;b&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;a&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;v&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;\n&＃39;)
          except:
            continue
        file.close()
        print &＃39;--正在采集%d/12--&＃39;%i
        time.sleep(5)
if __name__ == &＃39;__main__&＃39;:
  WY().dealJSON()

以上就是我爬取的代码了。

以上就是抓取网易新闻的python代码示例的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

php
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
get
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
get
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
get
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
utf-8
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
utf-8
使用@SerializedName注解解析json数据的方法

在Android中解析Gson解析json数据是很方便快捷的，可以直接将json数据解析成java对象或者集合。使用Gson解析json成对象时，默认将json里对应字段的值解析到java对象里对应字段的属性里面。然而，当我们自己定义的java对象里的属性名与json里的字段名不一样时，我们可以使用@SerializedName注解来将对象里的属性跟json里字段对应值匹配起来。本文介绍了使用@SerializedName注解解析json数据的方法，并给出了具体的使用示例。 ... [详细]

蜡笔小新 2023-12-11 19:04:09
main
Python爬取豆瓣数据实现过程解析

这篇文章主要介绍了Python爬取豆瓣数据实现过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值, ... [详细]

蜡笔小新 2023-10-16 12:46:01
main
基于layUI的图片上传前预览功能的2种实现方式

本文介绍了基于layUI的图片上传前预览功能的两种实现方式：一种是使用blob+FileReader，另一种是使用layUI自带的参数。通过选择文件后点击文件名，在页面中间弹窗内预览图片。其中，layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块，并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]

蜡笔小新 2023-12-14 17:06:58
main
Java实现大数乘法（分治算法）

本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]

蜡笔小新 2023-12-14 15:43:50
nodejs
前端人员必须知道的三个问题及其发展阶段

本文介绍了前端人员必须知道的三个问题，即前端都做哪些事、前端都需要哪些技术，以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外，还介绍了一些后端服务，如Node.js。 ... [详细]

蜡笔小新 2023-12-12 12:45:59
spring
分享css中提升优先级属性!important的用法总结

web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]

蜡笔小新 2023-12-11 11:25:16
spring
使用jQuery / AJAX实现两个div的动态更新

本文介绍了如何使用jQuery和AJAX来实现动态更新两个div的方法。通过调用PHP文件并返回JSON字符串，可以将不同的文本分别插入到两个div中，从而实现页面的动态更新。 ... [详细]

蜡笔小新 2023-12-11 10:07:32
spring
mui框架offcanvas侧滑超出部分隐藏无法滚动如何解决

web前端|js教程off-canvas,部分,超出web前端-js教程mui框架中off-canvas侧滑的一个缺点就是无法出现滚动条，因为它主要用途是设置类似于qq界面的那种格 ... [详细]

蜡笔小新 2023-10-17 20:40:03
spring
Linux下部署Symfoy2对app/cache和app/logs目录的权限设置，symfoy2logs

php教程|php手册xml文件php教程-php手册Linux下部署Symfoy2对appcache和applogs目录的权限设置，symfoy2logs黑色记事本源码,vsco ... [详细]

蜡笔小新 2023-10-17 20:32:59
spring
通过手机浏览器调用客户端QQ

php教程|php手册thinkphp代码，代码示例，代码参考，php短信，数据库备份代码，令牌验证，去除代码中的空白和注释调用QQ客户端php教程-php手册可调用iosandr ... [详细]

蜡笔小新 2023-10-17 13:18:48

sdlzq

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章