热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

jsoup解析html/根据关键词拿到论坛帖子信息

以论坛《宽带山》为例,需要根据给定的关键词,取得关于该关键词的所有帖子,包括人气数,发帖主题,回复数,发表人,发表时间,帖子链接,帖子详细文本内容等。详细代码如下:Java代码importjava...SyntaxHighlighter.all();
论坛《宽带山》为例,需要根据给定的关键词,取得关于该关键词的所有帖子,包括人气数,发帖主题,回复数,发表人,发表时间,帖子链接,帖子详细文本内容等。
 
 
            详细代码如下:
 
Java代码
import java.util.ArrayList;  
import java.util.HashMap;  
import java.util.List;  
import java.util.Map;  
  
import org.jsoup.Jsoup;  
import org.jsoup.nodes.Document;  
import org.jsoup.nodes.Element;  
import org.jsoup.select.Elements;  
  
public class KeyWordsSearchUtil {  
  
    /** 
     * 根据关键词查询论坛所需信息map 
     * @param KeyWord  传入关键词 
     * @return 
     */  
    public static List> findByKeyWord(String KeyWord) {  
          
        List>postsList=new ArrayList>();  
        MappostsOneMap=null;  
        try {  
            Document doc = Jsoup.connect("http://club.pchome.net/forum_1_15____md__1_"+java.net.URLEncoder.encode(KeyWord,"utf-8")+".html")  
              .data("query", "Java")  
              .userAgent("Mozilla")  
              .COOKIE("auth", "token")  
              .timeout(10000)  
              .ignoreHttpErrors(true)  
              .post();  
              
            Elements postsLs=doc.select("li.i2").not(".h-bg");  
            if (postsLs!=null&&postsLs.size()>0) {  
                for (Element childPost : postsLs) {  
                    postsOneMap=new HashMap();  
                    postsOneMap.put("postsPopularity", childPost.select("li > span.n2").first().text());  
                    postsOneMap.put("postsTitle", childPost.select("span.n3 > a").attr("title"));  
                    postsOneMap.put("postsFloor", childPost.select("span.n4").first().text());  
                    postsOneMap.put("postsCname", childPost.select("a.bind_hover_card").first().text());  
                    postsOneMap.put("postsCtime", childPost.select("li > span.n6").first().text());  
                    postsOneMap.put("postsUrl", "http://club.pchome.net"+childPost.select("span.n3  a").attr("href"));  
                    postsOneMap.put("postsContents", getContentsByUrl("http://club.pchome.net"+childPost.select("span.n3  a").attr("href")));  
                      
                    postsList.add(postsOneMap);  
                }  
            }  
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
          
        return postsList;  
    }  
      
    /** 
     * 根据帖子的url获取帖子的文本内容 
     * @param url 帖子的路径 
     * @return 
     */  
    public static String getContentsByUrl(String url) {  
        String cOntents="11";  
        try {  
            Document doc = Jsoup.connect(url)  
              .data("query", "Java")  
              .userAgent("Mozilla")  
              .COOKIE("auth", "token")  
              .timeout(10000)  
              .ignoreHttpErrors(true)  
              .post();  
              
            if(doc.select("div.mc").first()!=null){  
                Element cOntentsEle=doc.select("div.mc div").first();  
                cOntents=contentsEle.select("div").first().text();  
                if (contents.contains("[向左转]  [向右转]  [原图]")) {  
                    cOntents=contents.replace("[向左转]  [向右转]  [原图]", "");  
                }  
            }  
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
        return contents;  
    }  
      
    public static void main(String[] args) throws Exception {  
        List>postsList=KeyWordsSearchUtil.findByKeyWord("电影");  
        System.out.println("http://club.pchome.net/forum_1_15____md__1_"+java.net.URLEncoder.encode("电影","utf-8")+".html");  
        System.out.println(postsList.size()+"/////");  
        for (int i = 0; i
            for(Map.Entryentry:postsList.get(i).entrySet()){  
                System.out.println("key="+entry.getKey()+"| value="+entry.getValue());  
            }  
            System.out.println("-----------------");  
        }  
        //http://club.pchome.net/thread_1_15_7519679.html  
//      String str=getContentsByUrl("http://club.pchome.net/thread_1_15_7519679.html");  
//      System.out.println(str);  
    }  
}  
                      
 
                            以上代码能成功抓取宽带山论坛中,关键词为:电影 的相关帖子列表,main方法中已有测试,网络畅通下可测试通过。但上面代码仅为完成功能,性能较差,项目中需重写或优化

推荐阅读
  • Final关键字的含义及用法详解
    本文详细介绍了Java中final关键字的含义和用法。final关键字可以修饰非抽象类、非抽象类成员方法和变量。final类不能被继承,final类中的方法默认是final的。final方法不能被子类的方法覆盖,但可以被继承。final成员变量表示常量,只能被赋值一次,赋值后值不再改变。文章还讨论了final类和final方法的应用场景,以及使用final方法的两个原因:锁定方法防止修改和提高执行效率。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • 本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术,可以实现在输入某个id后,通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用,以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况,并解释了JavaScript等待服务器响应的机制。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Java实战之电影在线观看系统的实现
    本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述,然后展示了系统的效果图。接着介绍了系统的核心代码,包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明,包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • Webpack5内置处理图片资源的配置方法
    本文介绍了在Webpack5中处理图片资源的配置方法。在Webpack4中,我们需要使用file-loader和url-loader来处理图片资源,但是在Webpack5中,这两个Loader的功能已经被内置到Webpack中,我们只需要简单配置即可实现图片资源的处理。本文还介绍了一些常用的配置方法,如匹配不同类型的图片文件、设置输出路径等。通过本文的学习,读者可以快速掌握Webpack5处理图片资源的方法。 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
author-avatar
观海望天
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有