所以我正在尝试编写一个程序,它可以收集不同文章中的某些信息并将它们组合起来.我遇到问题的步骤是从网页中提取文章.
我想知道您是否可以提供任何有关从网页中提取文本的java库/方法的建议?
我也找到了这个产品:http: //www.diffbot.com/products/automatic/article/ ,并想知道你是否认为这是要走的路?如果是这样,有人可以指向我的java实现 - 似乎找不到一个虽然显然它存在.
非常感谢
澄清 - 我更多的是寻找一种算法/库/方法,用于检测html dom树中可能存在文章的文本块的位置.像Safari的读者功能一样.ps如果你觉得这样做比python更简单,只是说 - 虽然我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用java框架)我可以尝试让它使用python脚本 - 尽管会只有当你建议Python是要走的路时才这样做.