我无法找到,如何抓取网站和索引数据到elasticsearch.我设法在组合nutch + solr中做到这一点,因为nutch应该能够从版本1.8导出数据直接到elasticsearch (源),我试图再次使用nutch.然而,我没有成功.试图调用之后
$ bin/nutch elasticindex
我明白了:
Error: Could not find or load main class elasticindex
我不坚持使用nutch.我只需要最简单的方法来抓取网站并将它们编入索引到elasticsearch.问题是,我无法找到任何分步教程,我对这些技术还很陌生.
所以问题是 - 将爬虫与弹性搜索集成的最简单的解决方案是什么,如果可能的话,我将不胜感激任何一步一步的解决方案.
你看过River Web插件了吗?https://github.com/codelibs/elasticsearch-river-web
它提供了一个很好的How To部分,包括创建所需的索引,调度(基于Quartz),身份验证(支持基本和NTLM),元数据提取,...
可能值得看一下elasticsearch河流插件概述:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html#river
由于River插件已被弃用,因此可能需要查看ManifoldCF或Norconex收集器.