从网页中提取文本(例如文章)的最佳方式

 卢太爽 发布于 2023-02-08 11:48

所以我正在尝试编写一个程序,它可以收集不同文章中的某些信息并将它们组合起来.我遇到问题的步骤是从网页中提取文章.

我想知道您是否可以提供任何有关从网页中提取文本的java库/方法的建议?

我也找到了这个产品:http: //www.diffbot.com/products/automatic/article/ ,并想知道你是否认为这是要走的路?如果是这样,有人可以指向我的java实现 - 似乎找不到一个虽然显然它存在.

非常感谢

澄清 - 我更多的是寻找一种算法/库/方法,用于检测html dom树中可能存在文章的文本块的位置.像Safari的读者功能一样.ps如果你觉得这样做比python更简单,只是说 - 虽然我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用java框架)我可以尝试让它使用python脚本 - 尽管会只有当你建议Python是要走的路时才这样做.

撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有