crawler + elasticsearch集成

 mobiledu2502887333 发布于 2022-12-09 17:03

我无法找到,如何抓取网站和索引数据到elasticsearch.我设法在组合nutch + solr中做到这一点,因为nutch应该能够从版本1.8导出数据直接到elasticsearch (源),我试图再次使用nutch.然而,我没有成功.试图调用之后

$ bin/nutch elasticindex

我明白了:

Error: Could not find or load main class elasticindex

我不坚持使用nutch.我只需要最简单的方法来抓取网站并将它们编入索引到elasticsearch.问题是,我无法找到任何分步教程,我对这些技术还很陌生.

所以问题是 - 将爬虫与弹性搜索集成的最简单的解决方案是什么,如果可能的话,我将不胜感激任何一步一步的解决方案.

1 个回答
  • 你看过River Web插件了吗?https://github.com/codelibs/elasticsearch-river-web

    它提供了一个很好的How To部分,包括创建所需的索引,调度(基于Quartz),身份验证(支持基本和NTLM),元数据提取,...

    可能值得看一下elasticsearch河流插件概述:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html#river

    由于River插件已被弃用,因此可能需要查看ManifoldCF或Norconex收集器.

    2022-12-11 02:13 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有