Groovy中的Crawler(JSoup VS Crawler4j)

 追麾 发布于 2023-01-07 23:44

我希望在Groovy中开发一个Web爬虫(使用Grails框架和MongoDB数据库),它能够抓取网站,创建站点URL列表及其资源类型,内容,响应时间和涉及的重定向数量.

我正在讨论JSoup vs Crawler4j.我已经阅读了他们基本上做了什么,但我无法理解两者之间的区别.任何人都可以建议哪个更适合上述功能?或者比较两者完全不正确?

谢谢.

1 个回答
  • Crawler4J是一个爬虫,Jsoup是一个解析器.实际上你可以/应该使用两者.Crawler4J是一个简单的多线程接口,用于获取所需网站的所有网址和所有页面(内容).之后你可以使用Jsoup来解析数据,使用惊人的(jquery-like)css选择器并实际上用它做一些事情.当然,您必须考虑动态(生成javascript)内容.如果你也想要这些内容,那么你必须使用其他包含jt引擎(无头浏览器+解析器)的东西,如htmlunit或webdriver(selenium),它将在解析内容之前执行javascript.

    2023-01-08 00:00 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有