作者:观海望天 | 来源:互联网 | 2014-05-29 10:38
以论坛《宽带山》为例,需要根据给定的关键词,取得关于该关键词的所有帖子,包括人气数,发帖主题,回复数,发表人,发表时间,帖子链接,帖子详细文本内容等。详细代码如下:Java代码importjava...SyntaxHighlighter.all();
以
论坛《宽带山》为例,需要根据给定的关键词,取得关于该关键词的所有帖子,包括人气数,发帖主题,回复数,发表人,发表时间,帖子链接,帖子详细文本内容等。
详细代码如下:
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class KeyWordsSearchUtil {
/**
* 根据关键词查询论坛所需信息map
* @param KeyWord 传入关键词
* @return
*/
public static List
List
MappostsOneMap=null;
try {
Document doc = Jsoup.connect("http://club.pchome.net/forum_1_15____md__1_"+java.net.URLEncoder.encode(KeyWord,"utf-8")+".
html")
.data("query", "Java")
.userAgent("Mozilla")
.COOKIE("auth", "token")
.timeout(10000)
.ignoreHttpErrors(true)
.post();
Elements postsLs=doc.select("li.i2").not(".h-bg");
if (postsLs!=null&&postsLs.size()>0) {
for (Element childPost : postsLs) {
postsOneMap=new HashMap();
postsOneMap.put("postsPopularity", childPost.select("li > span.n2").first().text());
postsOneMap.put("postsTitle", childPost.select("span.n3 > a").attr("title"));
postsOneMap.put("postsFloor", childPost.select("span.n4").first().text());
postsOneMap.put("postsCname", childPost.select("a.bind_hover_card").first().text());
postsOneMap.put("postsCtime", childPost.select("li > span.n6").first().text());
postsOneMap.put("postsUrl", "http://club.pchome.net"+childPost.select("span.n3 a").attr("href"));
postsOneMap.put("postsContents", getContentsByUrl("http://club.pchome.net"+childPost.select("span.n3 a").attr("href")));
postsList.add(postsOneMap);
}
}
} catch (Exception e) {
e.printStackTrace();
}
return postsList;
}
/**
* 根据帖子的url获取帖子的文本内容
* @param url 帖子的路径
* @return
*/
public static String getContentsByUrl(String url) {
String cOntents="11";
try {
Document doc = Jsoup.connect(url)
.data("query", "Java")
.userAgent("Mozilla")
.COOKIE("auth", "token")
.timeout(10000)
.ignoreHttpErrors(true)
.post();
if(doc.select("div.mc").first()!=null){
Element cOntentsEle=doc.select("div.mc div").first();
cOntents=contentsEle.select("div").first().text();
if (contents.contains("[向左转] [向右转] [原图]")) {
cOntents=contents.replace("[向左转] [向右转] [原图]", "");
}
}
} catch (Exception e) {
e.printStackTrace();
}
return contents;
}
public static void main(String[] args) throws Exception {
List>postsList=KeyWordsSearchUtil.findByKeyWord("电影");
System.out.println("http://club.pchome.net/forum_1_15____md__1_"+java.net.URLEncoder.encode("电影","utf-8")+".html");
System.out.println(postsList.size()+"/////");
for (int i = 0; i
for(Map.Entryentry:postsList.get(i).entrySet()){
System.out.println("key="+entry.getKey()+"| value="+entry.getValue());
}
System.out.println("-----------------");
}
//http://club.pchome.net/thread_1_15_7519679.html
// String str=getContentsByUrl("http://club.pchome.net/thread_1_15_7519679.html");
// System.out.println(str);
}
}
以上代码能成功抓取宽带山论坛中,关键词为:电影 的相关帖子列表,main方法中已有测试,网络畅通下可测试通过。但上面代码仅为完成功能,性能较差,项目中需重写或优化
推荐阅读
-
本文详细介绍了Java中final关键字的含义和用法。final关键字可以修饰非抽象类、非抽象类成员方法和变量。final类不能被继承,final类中的方法默认是final的。final方法不能被子类的方法覆盖,但可以被继承。final成员变量表示常量,只能被赋值一次,赋值后值不再改变。文章还讨论了final类和final方法的应用场景,以及使用final方法的两个原因:锁定方法防止修改和提高执行效率。 ...
[详细]
蜡笔小新 2023-12-14 18:07:46
-
今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ...
[详细]
蜡笔小新 2023-12-14 17:58:15
-
-
这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ...
[详细]
蜡笔小新 2023-12-14 16:19:10
-
本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ...
[详细]
蜡笔小新 2023-12-14 16:17:05
-
本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术,可以实现在输入某个id后,通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用,以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况,并解释了JavaScript等待服务器响应的机制。 ...
[详细]
蜡笔小新 2023-12-14 16:12:01
-
本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ...
[详细]
蜡笔小新 2023-12-14 16:00:02
-
本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述,然后展示了系统的效果图。接着介绍了系统的核心代码,包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明,包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ...
[详细]
蜡笔小新 2023-12-14 15:52:03
-
本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ...
[详细]
蜡笔小新 2023-12-14 15:43:50
-
本文介绍了在Webpack5中处理图片资源的配置方法。在Webpack4中,我们需要使用file-loader和url-loader来处理图片资源,但是在Webpack5中,这两个Loader的功能已经被内置到Webpack中,我们只需要简单配置即可实现图片资源的处理。本文还介绍了一些常用的配置方法,如匹配不同类型的图片文件、设置输出路径等。通过本文的学习,读者可以快速掌握Webpack5处理图片资源的方法。 ...
[详细]
蜡笔小新 2023-12-14 15:39:51
-
本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ...
[详细]
蜡笔小新 2023-12-14 15:22:09
-
本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ...
[详细]
蜡笔小新 2023-12-14 15:08:18
-
目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ...
[详细]
蜡笔小新 2023-12-14 15:03:14
-
本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ...
[详细]
蜡笔小新 2023-12-14 14:37:52
-
最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ...
[详细]
蜡笔小新 2023-12-14 14:25:50
-
本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ...
[详细]
蜡笔小新 2023-12-14 14:25:33
-