热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ElasticSearch+fscrawler实现文档上传并搜索过滤

需求:实现一个搜索功能,搜索的内容来自上传的文档(MSOffice文档),后期也有上传图片的文字,需要全词

需求:实现一个搜索功能,搜索的内容来自上传的文档(MS Office 文档),后期也有上传图片的文字,需要全词匹配搜索高亮,还有根据用户,状态等过滤

 

 

工具:Elastic Search(后文简称ES)

上传文件处理:Fcrawler

 

先说现有代码逻辑:

同事一个PHP项目,现在越做越大,小型OA的感觉了(PHP做到现在吃力啊…),现在客户需要增加一个搜索的需求,就交给我来调研了。 我本人是搞.Net的,这俩月在接手一个Ruby项目,还有个C#项目的维护,本来是让我这个月开始一个Java项目的。不提这个了,大概就这样,然后这周末我又来加班了,基本上我这块搞得差不多了,然后来总结一下吧。

 

文档上传本来PHP那边已经做好了,但是boss 说太不稳定了,所以从上传到最后搜索,都重新搞吧。服务器部署是在AWS上,现在AWS支持的ES版本最高是7.1(当前最新版本是7.4.2),我现在本地Windows环境搭建一套 EK(ES + kibana),然后走一下,测试一下可行性。

  1. 安装包下载(ES一定要与Kibana版本相对应):
    1. https://fscrawler.readthedocs.io/en/fscrawler-2.5/installation.html
    2. https://www.elastic.co/downloads/elasticsearch
    3. https://www.elastic.co/downloads/kibana
    4. 附图:
  2. 老版本下载:https://www.elastic.co/downloads/past-releases#kibana
  3. 本地安装,ES就是傻瓜式安装(.msi),Kibana的话压缩包解压,然后bin\kibana.bat
    1. 附图
  4. 安装完成之后浏览器打开
    1. 附图:
  5. fscrawler:https://fscrawler.readthedocs.io/en/fscrawler-2.5/user/getting_started.html 比着来就行
  6. 比较想说的就是那个添加附加信息(例如是哪个用户上传的),我想的是文档上传放到一个文件夹,附带把附加信息存到另外一个同名的.txt文件,然后fscrawler每隔一段时间便利文件夹时,顺便添加信息(https://fscrawler.readthedocs.io/en/fscrawler-2.5/admin/fs/rest.html#additional-tags)按照这个来我在本地是不成功的,,可以在这个地方看log。  不成功是因为格式不对,我改成如下:


  1. {  
  2.     "external": {  
  3.         "tenantId": 23,  
  4.         "author": 34,  
  5.         "description": "these are additional tags"  
  6.     }  
  7. }  




 

external就是我想加进去的

 

 


推荐阅读
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 本文介绍了在Windows环境下如何配置php+apache环境,包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]
  • 本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量,或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频,只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量,只有使用JAVA编写Android客户端才能实现压缩。此外,作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因,并提供了解决方法。最后,作者还介绍了一个用于处理图片的类,可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]
  • 本文介绍了使用cacti监控mssql 2005运行资源情况的操作步骤,包括安装必要的工具和驱动,测试mssql的连接,配置监控脚本等。通过php连接mssql来获取SQL 2005性能计算器的值,实现对mssql的监控。详细的操作步骤和代码请参考附件。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • Redis底层数据结构之压缩列表的介绍及实现原理
    本文介绍了Redis底层数据结构之压缩列表的概念、实现原理以及使用场景。压缩列表是Redis为了节约内存而开发的一种顺序数据结构,由特殊编码的连续内存块组成。文章详细解释了压缩列表的构成和各个属性的含义,以及如何通过指针来计算表尾节点的地址。压缩列表适用于列表键和哈希键中只包含少量小整数值和短字符串的情况。通过使用压缩列表,可以有效减少内存占用,提升Redis的性能。 ... [详细]
author-avatar
广东佳山七郎
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有