如何编写Python程序爬取新浪军事论坛？

作者：破晓晨曦 | 来源：互联网 | 2017-05-14 02:43

php中文网(www.php.cn)提供了最全的编程技术基础教程,介绍了HTML、CSS、Javascript、Python，Java，Ruby，C，PHP,MySQL等各种编程语言的基础知识。同时本站中也提供了大量的在线实例，通过实例，您可以更好的学习编程。..

回复内容：

context_re = r'(.*?)
'

你准备的这个正则表达式啊，truncated！断在了
这里，所以只能爬第一段。

爬取新浪军事论坛需要做三件事：

一、

上CSDN汪海老师的专栏，http://blog.csdn.net/column/details/why-bug.html，学习一个。

二、

按F12看一下前端。

三、

from bs4 import BeautifulSoup
import requests

response = requests.get("http://club.mil.news.sina.com.cn/thread-666013-1-1.html?retcode=0") #硬点网址
response.encoding = 'gb18030' #中文编码
soup = BeautifulSoup(response.text, 'html.parser') #构建BeautifulSoup对象


ps = soup('p', 'mainbox')
 #每个楼层

for p in ps:
    comments = p.find_all('p','cont f14') #每个楼层的正文
        
    with open('Sina_Military_Club.txt','a') as f:
        f.write('\n'+str(comments)+'\n')

刚好几个小时前就在写一个爬取网站会员（公司）资料的小程序
具体的编程问题就不回答了，跟用什么语言写代码无关，关键是你要分析好这个页面的html代码结构，写出合适的正则表达式来进行匹配，如果想简化的话，可以进行分次匹配（比如先得到

里面的第一个

里面的内容就是原帖的地址，然后再进一步处理）
大数据分析就不会了，还请赐教。

import requests
from bs4 import BeautifulSoup

r = requests.get("http://club.mil.news.sina.com.cn/thread-666013-1-1.html")
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text)
result = soup.find(attrs={"class": "cont f14"})
print result.text

用beautifulSoup吧,正则太多了看着都头疼. 先用了BeautifulSoup爬取数据

# -*- coding:utf-8 -*-

import re, requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

url = "http://club.mil.news.sina.com.cn/viewthread.php?tid=666013&extra=page%3D1&page=1"

req = requests.get(url)
req.encoding = req.apparent_encoding
html = req.text

soup = BeautifulSoup(html)

file = open('sina_club.txt', 'w')
x = 1
for tag in soup.find_all('p', attrs = {'class': "cont f14"}):
    word = tag.get_text()
    line1 = "---------------评论" + str(x) + "---------------------" + "\n"
    line2 = word + "\n"
    line = line1 + line2
    x += 1
    file.write(line)
file.close()

哎，扒就扒吧，发了paper能不能告诉我刊号页数让我看一下？我们自己都没做大数据分析…… 建议用一下正则测试工具你需要pyquery，可以使用jquery一样的语法。你值得拥有。
https://pythonhosted.org/pyquery/

推荐阅读

go
angular.element使用方法及总结

2019独角兽企业重金招聘Python工程师标准在线查询：http:each.sinaapp.comangularapielement.html使用方法 ... [详细]

蜡笔小新 2023-10-17 19:54:54
list
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
list
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
utf-8
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
utf-8
jquery id选择器 id带.问题

例如控件ID为user.id使用$(#user.id)不能得到正确的结果必须使用\\转义即$(#user\\.id)转载于:https:www.cnblogs.comrch ... [详细]

蜡笔小新 2023-12-12 12:22:11
utf-8
程序安装包制作工具 v1.0官方版免费下载

本文介绍了一款名为程序安装包制作工具 v1.0官方版的软件，该软件可以用于应用程序的安装打包，只需几步就能完成整个安装向导程序的制作。你可以将编译好的应用程序和相关文件打包生成一个可执行的安装文件进行发布。该软件免费下载，下载网址为http://www.xiazai.com/wins6890。 ... [详细]

蜡笔小新 2023-12-12 12:11:42
utf-8
小程序自动授权和手动接入的方式及操作步骤

本文介绍了小程序支持的两种接入方式：自动授权和手动接入，并详细说明了它们的操作步骤。同时还介绍了如何在两种方式之间切换，以及手动接入后如何下载代码包和提交审核。 ... [详细]

蜡笔小新 2023-12-11 18:21:09
go
使用jQuery / AJAX实现两个div的动态更新

本文介绍了如何使用jQuery和AJAX来实现动态更新两个div的方法。通过调用PHP文件并返回JSON字符串，可以将不同的文本分别插入到两个div中，从而实现页面的动态更新。 ... [详细]

蜡笔小新 2023-12-11 10:07:32
js
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
js
Jquery 跨域问题

为什么80%的码农都做不了架构师？JQuery1.2后getJSON方法支持跨域读取json数据，原理是利用一个叫做jsonp的概念。当然 ... [详细]

蜡笔小新 2023-12-09 18:24:55
js
jQuery图片预加载+等比例缩放

本文介绍了使用jQuery实现图片预加载和等比例缩放的方法，同时提供了演示和相关代码。该方法可以重置图片的宽度和高度，并使图片在水平和垂直方向上居中显示。 ... [详细]

蜡笔小新 2023-12-09 17:59:12
list
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03
js
如何压缩网站页面以减少页面加载时间

本文介绍了影响网站打开时间的两个因素，即网页加载速度和网站页面大小。重点讲解了如何通过压缩网站页面来减少页面加载时间。具体包括图片压缩、Javascript压缩、CSS压缩和HTML压缩等方法，并推荐了相应的压缩工具。此外，还提到了一款Google Chrome插件——网页加载速度分析工具Speed Tracer。 ... [详细]

蜡笔小新 2023-12-09 09:17:00
js
mui框架offcanvas侧滑超出部分隐藏无法滚动如何解决

web前端|js教程off-canvas,部分,超出web前端-js教程mui框架中off-canvas侧滑的一个缺点就是无法出现滚动条，因为它主要用途是设置类似于qq界面的那种格 ... [详细]

蜡笔小新 2023-10-17 20:40:03
js
jQuery :nthchild前有无空格的区别

:nth-child(index)子元素过滤选择器的描述是：选取每个父元素下的弟index个子元素，index从1开始。然后，我写了如下h ... [详细]

蜡笔小新 2023-10-17 17:10:18

破晓晨曦

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章