热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Android实战——jsoup实现网络爬虫,糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法,以糗事百科项目为例。对于初学者来说,数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据,并以糗事百科作为练手项目。同时,提到了使用jsoup需要结合前端基础知识,以及如果学过JS的话可以更轻松地使用该框架。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Android实战——jsoup实现网络爬虫,糗事百科项目的起步相关的知识,希望对你有一定的参考价值。



android实战——jsoup实现网络爬虫,爬糗事百科主界面



本篇文章包括以下内容:


  • 前言
  • jsoup的简介
  • jsoup的配置
  • jsoup的使用
  • 结语


前言

对于Android初学者想要做项目时,最大的烦恼是什么?毫无疑问是数据源的缺乏,当然可以选择第三方接口提供数据,也可以使用网络爬虫获取数据,这样就不用第三方数据作为支持。本来是打算爬一些购物网站的数据,由于他们的反爬做得好,所以没办法爬到数据,只能爬取糗事百科的数据,或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目,利用jsoup是完全没问题的

jsoup的学习需要结合前端的基础知识,爬取前端的数据,如果你学过JS,那么你可以自己完全不用看文档的情况下,使用该框架,因为其设计与JS的使用几乎相同,废话不多说,开车啦


jsoup的简介

使用项目原话:jsoup是一个Java库来处理实际的html。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法

项目地址:https://github.com/jhy/jsoup
中文文档:http://www.open-open.com/jsoup/


jsoup的配置

jsoup的配置很简单,需要在gradle中添加以下依赖

compile 'org.jsoup:jsoup:1.10.2'

由于jsoup需要获取网络数据,所以记得添加网络权限

<uses-permission android:name&#61;"android.permission.INTERNET" />

jsoup的使用

一、获取HTML

jsoup提供两种网络请求&#xff0c;get和post&#xff0c;使用代码也及其简单&#xff0c;我们首先爬取糗事百科首页的HTML。注意&#xff1a;由于是网络请求操作&#xff0c;必须放在子线程中运行&#xff0c;否则4.4以上的版本会报错

① get方式

new Thread() {
&#64;Override
public void run() {
super.run();
try {
Document doc &#61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get();
Log.e("一、HTML內容", doc.toString());
}
catch{
}
}
}.start();

② post方式

Document doc &#61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/")
.data("query", "Java")
.userAgent("Mozilla")
.COOKIE("auth", "token")
.timeout(3000)
.post();

这里对post的参数介绍一下


  • connect&#xff1a;设置连接的Url
  • data&#xff1a;设置post的键值对数据
  • userAgent&#xff1a;设置用户代理&#xff08;请求头的东西&#xff0c;可以判断你是PC还是Mobile端&#xff09;
  • COOKIE&#xff1a;设置缓存
  • timeout&#xff1a;设置请求超时
  • post&#xff1a;发送post请求


既然已经获取HTML的Document对象了&#xff0c;接下来就是分析Html元素的时候了


二、获取Html元素

① 网页端

以糗事百科为例子&#xff0c;我们查看糗事百科首页的数据对应的Html元素是什么&#xff0c;我们可以通过F12&#xff0c;找到对应的Html元素

可以看到一个a标签就是文章详情的内容&#xff0c;我们可以通过这个a标签的class&#61;”contentHerf”作为唯一标识来获取该链接&#xff0c;获取之后&#xff0c;继续爬取详情页的文章详细内容&#xff0c;所以我们通过爬取的a标签的链接进入该文章的详情页

当然也有一些详情页有图片的&#xff0c;我们可以通过图片的的class&#61;”thumb”作为唯一标识来爬取图片里面的链接

由于糗事百科采用分页加载的情况&#xff0c;我们需要在爬取完第一张内容后&#xff0c;接着爬取第二章的内容&#xff0c;下面是糗事百科的分页Url的规则&#xff0c;很简单&#xff0c;我们可以通过一个循环就可以了

http://www.qiushibaike.com/8hr/page/1/
http://www.qiushibaike.com/8hr/page/2/
http://www.qiushibaike.com/8hr/page/3/
http://www.qiushibaike.com/8hr/page/4/
http://www.qiushibaike.com/8hr/page/5/


好了&#xff0c;分析完网页端之后&#xff0c;就应该在我们的Android端采用代码&#xff0c;将上面的步骤实现出来了


② Android端

通过上面的分析后&#xff0c;可以总结我们需要实现的步骤有&#xff1a;


  1. 爬取主页的详情页url
  2. 进入详情页爬取内容和图片
  3. 循环爬取第二页、第三页…

聪明的你&#xff0c;可能会想到第四步第五步…


  1. 封装Bean对象
  2. 使用ListView填充内容
  3. 爬取日期、作者、评论等内容完善项目

1&#xff09; 爬取主页的详情页url

爬取主页的url可以通过a标签的class&#61;”contentHerf”&#xff0c;我们通过jsoup的属性选择器来实现&#xff0c;这里会用到css知识&#xff0c;jsoup中文文档也有很详细的介绍

Document doc &#61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get();
Elements els &#61; doc.select("a.contentHerf");
Log.e("一、HTML內容", els.toString());
for (int i &#61; 0; i Element el &#61; els.get(i);
Log.e("1.标题", el.text());
String href &#61; el.attr("href");
Log.e("2.链接", href);
}

这里对使用到的对象进行介绍


  • Document&#xff1a;相当于一个Html文件
  • Elements&#xff1a;相当于一个标签的集合
  • Element&#xff1a;相当于一个标签

这里要注意Elements与Element的toString()方法和text()方法


  • toString()&#xff1a;打印出来的是标签的Html内容
  • text()&#xff1a;打印出来的是标签对应的文本内容

css选择器


  • select()&#xff1a;获取符合属性选择器要求的标签内容
  • 或getElementById&#xff1a;获取符合ID选择器要求的标签内容
  • 或getElementsByTag&#xff1a;获取符合Tag选择器要求的标签内容

2&#xff09; 进入详情页爬取内容和图片

这段代码也相当简单&#xff0c;这里就不多解释了

Document doc &#61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get();
Elements els &#61; doc.select("a.contentHerf");
Log.e("一、HTML內容", els.toString());
for (int i &#61; 0; i Element el &#61; els.get(i);
Log.e("1.标题", el.text());
String href &#61; el.attr("href");
Log.e("2.链接", href);
//获取详情页内容
Document doc_detail &#61; Jsoup.connect("http://www.qiushibaike.com" &#43; href).get();
Elements els_detail &#61; doc_detail.select(".content");
Log.e("3.內容", els_detail.text());
//获取图片
Elements els_pic &#61; doc_detail.select(".thumb img[src$&#61;jpg]");
if (!els_pic.isEmpty()) {
String pic &#61; els_pic.attr("src");
Log.e("4.图片连接", "" &#43; pic);
} else {
Log.e("4.图片连接", "无");
}
}

3&#xff09; 循环爬取第二页、第三页…

这里只需要嵌套一个循环进去就可以了&#xff0c;完整代码如下

public class JsoupActivity extends AppCompatActivity {
&#64;Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_jsoup);
new Thread() {
&#64;Override
public void run() {
super.run();
try {
for (int k &#61; 0; k <5; k&#43;&#43;) {
Document doc &#61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/" &#43; k &#43; "/").get();
Elements els &#61; doc.select("a.contentHerf");
Log.e("一、HTML內容", els.toString());
for (int i &#61; 0; i Element el &#61; els.get(i);
Log.e("1.标题", el.text());
String href &#61; el.attr("href");
Log.e("2.链接", href);
Document doc_detail &#61; Jsoup.connect("http://www.qiushibaike.com" &#43; href).get();
Elements els_detail &#61; doc_detail.select(".content");
Log.e("3.內容", els_detail.text());
Elements els_pic &#61; doc_detail.select(".thumb img[src$&#61;jpg]");
if (!els_pic.isEmpty()) {
String pic &#61; els_pic.attr("src");
Log.e("4.图片连接", "" &#43; pic);
} else {
Log.e("4.图片连接", "无");
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
}.start();
}
}

4&#xff09; 当然&#xff0c;我们爬取到的内容之后&#xff0c;毫无疑问就是要封装成对象&#xff0c;通过ArrayList存储起来&#xff0c;这样你的数据源就解决了

public class Xiaohua {
private String content;
private String title;
private String url;
private String userName;
private String date;
}

5&#xff09; 后面爬取作者、日期、评论等信息就由你们去练习了&#xff0c;然后界面一仿&#xff0c;项目就出来了

三、爬取结果

02-12 08:16:55.010 18074-18110/com.handsome.boke2 E/1.标题: 小时候有个常去楼主家的阿姨总是把楼主叫成楼主哥哥的名字&#xff0c;终于有一天&#xff0c;楼主忍无可忍&#xff0c;大骂了她一顿&#xff1a;“你这个人是不是白痴啊&#xff1f;”她暴怒了&#xff0c;立马告诉了楼主的爸爸&#xff0c;楼主永远也忘不了哥哥被揍时眼睛里的无辜与绝望...
02-12 08:16:55.011 18074-18110/com.handsome.boke2 E/2.链接: /article/118543240
02-12 08:16:55.329 18074-18110/com.handsome.boke2 E/3.內容: 小时候有个常去楼主家的阿姨总是把楼主叫成楼主哥哥的名字&#xff0c;终于有一天&#xff0c;楼主忍无可忍&#xff0c;大骂了她一顿&#xff1a;“你这个人是不是白痴啊&#xff1f;”她暴怒了&#xff0c;立马告诉了楼主的爸爸&#xff0c;楼主永远也忘不了哥哥被揍时眼睛里的无辜与绝望...
02-12 08:16:55.331 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:55.881 18074-18110/com.handsome.boke2 E/1.标题: 一朋友&#xff0c;给暗恋许久的女神&#xff0c;匿名网购了一大堆的礼物&#xff0c;可把女神高兴的&#xff0c;在朋友圈发说说&#xff0c;这是谁买的。告诉我&#xff0c;我要做他女朋友&#xff01; 朋友乐坏了&#xff0c;于是激动的说&#xff0c;是我&#xff0c;是我&#xff01; 那女神愣了愣&#xff0c;然后把礼物全部退给了他……
02-12 08:16:55.881 18074-18110/com.handsome.boke2 E/2.链接: /article/118542673
02-12 08:16:56.104 18074-18110/com.handsome.boke2 E/3.內容: 一朋友&#xff0c;给暗恋许久的女神&#xff0c;匿名网购了一大堆的礼物&#xff0c;可把女神高兴的&#xff0c;在朋友圈发说说&#xff0c;这是谁买的。告诉我&#xff0c;我要做他女朋友&#xff01; 朋友乐坏了&#xff0c;于是激动的说&#xff0c;是我&#xff0c;是我&#xff01; 那女神愣了愣&#xff0c;然后把礼物全部退给了他……
02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/1.标题: LZ在非洲曾经遇到过抢劫&#xff0c;有人拿枪指着我们&#xff0c;愣了一下热血当头没当回事&#xff0c;继续反抗&#xff0c;后来情急之下&#xff0c;他射了一枪&#xff0c;结果发现那是玩具枪&#xff0c;特么的&#xff0c;我们抓起扫把就把那个劫匪揍了一顿。事后想想&#xff0c;又害怕又想笑。
02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/2.链接: /article/118542683
02-12 08:16:56.608 18074-18110/com.handsome.boke2 E/3.內容: LZ在非洲曾经遇到过抢劫&#xff0c;有人拿枪指着我们&#xff0c;愣了一下热血当头没当回事&#xff0c;继续反抗&#xff0c;后来情急之下&#xff0c;他射了一枪&#xff0c;结果发现那是玩具枪&#xff0c;特么的&#xff0c;我们抓起扫把就把那个劫匪揍了一顿。事后想想&#xff0c;又害怕又想笑。
02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/1.标题: 今年换了工作&#xff0c;今天第一天上班&#xff0c;老妈早早起床准备早餐&#xff0c;等我吃完早餐准备出门的时候&#xff0c;老妈塞给我一个红包说&#xff0c;新年第一天上班图吉利。当时急着上班也没有细看就放在口袋里。等上班空闲的时候&#xff0c;掏出红包&#xff0c;发现红包里只有一张纸条&#xff0c;上面写着四个大字:好好工作……
02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/2.链接: /article/118542647
02-12 08:16:57.140 18074-18110/com.handsome.boke2 E/3.內容: 今年换了工作&#xff0c;今天第一天上班&#xff0c;老妈早早起床准备早餐&#xff0c;等我吃完早餐准备出门的时候&#xff0c;老妈塞给我一个红包说&#xff0c;新年第一天上班图吉利。当时急着上班也没有细看就放在口袋里。等上班空闲的时候&#xff0c;掏出红包&#xff0c;发现红包里只有一张纸条&#xff0c;上面写着四个大字:好好工作……
02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/1.标题: 腰疼&#xff0c;趴在床上&#xff0c;让大侄子来给我踩踩后背&#xff0c;踩得我挺舒服&#xff0c;没忍住&#xff0c;放个响屁&#xff0c;小家伙愣了一下&#xff0c;然后狠狠 踹 我 屁 股“让你蹦我&#xff01;让你蹦我&#xff01;”。。。。
02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/2.链接: /article/118542708
02-12 08:16:57.379 18074-18110/com.handsome.boke2 E/3.內容: 腰疼&#xff0c;趴在床上&#xff0c;让大侄子来给我踩踩后背&#xff0c;踩得我挺舒服&#xff0c;没忍住&#xff0c;放个响屁&#xff0c;小家伙愣了一下&#xff0c;然后狠狠 踹 我 屁 股“让你蹦我&#xff01;让你蹦我&#xff01;”。。。。
02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/1.标题: 闺蜜的妈妈非常迷信&#xff0c;自从闺蜜放假回家陪妈妈去了几次麻将馆后&#xff0c;她妈每次都能赢钱&#xff0c;所以她妈这一个寒假只要去打麻将&#xff0c;都要拉着她去&#xff0c;直到昨天闺蜜开学&#xff0c;她妈妈送她走得时候&#xff0c;眼泪汪汪的对闺蜜说:宝贝&#xff0c;这是我第一次不舍的你走~
02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/2.链接: /article/118542657
02-12 08:16:57.881 18074-18110/com.handsome.boke2 E/3.內容: 闺蜜的妈妈非常迷信&#xff0c;自从闺蜜放假回家陪妈妈去了几次麻将馆后&#xff0c;她妈每次都能赢钱&#xff0c;所以她妈这一个寒假只要去打麻将&#xff0c;都要拉着她去&#xff0c;直到昨天闺蜜开学&#xff0c;她妈妈送她走得时候&#xff0c;眼泪汪汪的对闺蜜说:宝贝&#xff0c;这是我第一次不舍的你走~
02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/4.图片连接: 无
02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/1.标题: 早上起床后发现阳台的地上到处是泡沫水&#xff0c;花盆里也有很多泡沫&#xff0c;而且地上躺着洗衣液的空瓶子&#xff0c;一下便明白了&#xff0c;转头去问熊孩子&#xff0c;熊孩子若无其事的说我只是给花洗洗头而已嘛&#xff01;
02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/2.链接: /article/118542709
02-12 08:16:58.391 18074-18110/com.handsome.boke2 E/3.內容: 早上起床后发现阳台的地上到处是泡沫水&#xff0c;花盆里也有很多泡沫&#xff0c;而且地上躺着洗衣液的空瓶子&#xff0c;一下便明白了&#xff0c;转头去问熊孩子&#xff0c;熊孩子若无其事的说我只是给花洗洗头而已嘛&#xff01;
02-12 08:16:58.393 18074-18110/com.handsome.boke2 E/4.图片连接: 无

结语

网络爬虫虽然带来了很多数据源的问题&#xff0c;但很多网站都已经通过一些技术实现反爬虫的效果了&#xff0c;所以大家还是以学习jsoup为主&#xff0c;不管是Android端还是Web端jsoup的用处很广泛&#xff0c;所以掌握起来是必须的&#xff0c;听说豆瓣和知乎都可以爬出来哦&#xff0c;想做项目的同学可以去试试哦

代码下载



推荐阅读
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • Html5-Canvas实现简易的抽奖转盘效果
    本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果,同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码,并展示了实现的基本效果。 ... [详细]
  • position属性absolute与relative的区别和用法详解
    本文详细解读了CSS中的position属性absolute和relative的区别和用法。通过解释绝对定位和相对定位的含义,以及配合TOP、RIGHT、BOTTOM、LEFT进行定位的方式,说明了它们的特性和能够实现的效果。同时指出了在网页居中时使用Absolute可能会出错的原因,即以浏览器左上角为原始点进行定位,不会随着分辨率的变化而变化位置。最后总结了一些使用这两个属性的技巧。 ... [详细]
  • Python开源库和第三方包的常用框架及库
    本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]
  • Gitlab接入公司内部单点登录的安装和配置教程
    本文介绍了如何将公司内部的Gitlab系统接入单点登录服务,并提供了安装和配置的详细教程。通过使用oauth2协议,将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤,并解决了在迁移过程中可能遇到的问题。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本文介绍了前端人员必须知道的三个问题,即前端都做哪些事、前端都需要哪些技术,以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外,还介绍了一些后端服务,如Node.js。 ... [详细]
  • 如何查询zone下的表的信息
    本文介绍了如何通过TcaplusDB知识库查询zone下的表的信息。包括请求地址、GET请求参数说明、返回参数说明等内容。通过curl方法发起请求,并提供了请求示例。 ... [详细]
  • React基础篇一 - JSX语法扩展与使用
    本文介绍了React基础篇一中的JSX语法扩展与使用。JSX是一种JavaScript的语法扩展,用于描述React中的用户界面。文章详细介绍了在JSX中使用表达式的方法,并给出了一个示例代码。最后,提到了JSX在编译后会被转化为普通的JavaScript对象。 ... [详细]
  • Hibernate延迟加载深入分析-集合属性的延迟加载策略
    本文深入分析了Hibernate延迟加载的机制,特别是集合属性的延迟加载策略。通过延迟加载,可以降低系统的内存开销,提高Hibernate的运行性能。对于集合属性,推荐使用延迟加载策略,即在系统需要使用集合属性时才从数据库装载关联的数据,避免一次加载所有集合属性导致性能下降。 ... [详细]
author-avatar
浪漫的没天份
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有