热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Elasticsearch快速入门和环境搭建

内容概述什么是Elasticsearch,为什么要使用它?基础概念简介节点(node)索引(index)类型映射(mapping)文档(doc)本地环境搭建,创建第
  • 内容概述
  • 什么是Elasticsearch,为什么要使用它?
  • 基础概念简介
    • 节点(node)
    • 索引(index)
    • 类型映射(mapping)
    • 文档(doc)
  • 本地环境搭建,创建第一个index
  • 常用RESTful Api示例
    • 新增文档
    • 查询文档-不分词类型
    • 查询文档-分词类型

内容概述

本文内容主要集中在应用层,通过下面几个部分介绍当前最流行的搜索工具:Elasticsearch,了解这些内容后,可以快速开始使用它。

  • 什么是Elasticsearch,为什么要使用它?
  • 基础概念:节点,索引,类型映射和文档
  • 本地环境搭建,创建第一个index
  • 常用RESTful Api示例

什么是Elasticsearch,为什么要使用它?

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎。

它基于Lunece实现,使用java语言编写。Lunece是一个优秀的搜索引擎库,但它使用起来非常复杂。

Elasticsearch通过对 Lunece的封装,隐藏了复杂性,提供了使用简单的RESTful Api。

同时也实现了分布式集群特性,具有存储数据大,查询性能好,扩展方便等特点。

为什么要使用它

在业务开发中,基于ES的特性,通常有下面这些场景需要使用它:

  • 存储大量数据。通过在使用mysql存储的时候,数据的单位是G。使用ES的时候,数据的单位是T。由此可以看出ES使用于大数据量的存储场景,基于分布式特性,它也支持备份和容灾,并且可以很容易水平扩展容量。
  • 分词搜索引擎。ES具有强大的分词能力,可以支持高性能的实时搜索。
  • 高效数据分析。ES提供的聚合分析功能,可实现对保存的大量数据的近实时统计分析。

基础概念简介

要使用ES,需要了解几个最基本的概念,节点(node),索引(index),类型映射(mapping)和文档(doc)。

节点(node)

节点是组成ES集群的基本单位,每个节点是一个运行的ES实例。每个物理机器上可以有多个节点,使用不同的端口和节点名称。

节点按主要功能可以分为三种:主节点(Master Node),协调节点(Coordianting Node)和数据节点(Data Node)。下面简单介绍下:

  • 主节点:处理创建,删除索引等请求,维护集群状态信息。可以设置一个节点不承担主节点角色
  • 协调节点:负责处理请求。默认情况下,每个节点都可以是协调节点。
  • 数据节点:用来保存数据。可以设置一个节点不承担数据节点角色

索引(index)

索引是ES中的逻辑概念,是文档的容器。对ES的操作,基本都是对索引操作,一个ES集群中,可以创建多个索引。

索引定义了一组文档的数据模型和处理方法。每个索引可以有多个主分片和副本分片,分别保存在不同的节点。

  • 主分片的作用是对索引的扩容,使一个索引的容量可以突破单机的限制。
  • 副本分片是对数据的保护,每个主分片对应一个或多个副本分片,当主分片所在节点宕机时,副本分片会被提升为对应的主分片使用。
  • 一个主分片和它的副本分片,不会分配到同一个节点上。
  • 一个索引的分片数在创建时指定,如果要修改需要重建索引,代价很高。

类型映射(mapping)

mapping定义了一个索引中,文档保存的每个字段的数据类型。根据数据类型的不同,在添加文档时对每个字段的处理也不同。

例如,对text类型的字段,会先使用分词器分词,生成倒排索引,用于之后的搜索。对keyword类型的字段,不会分词,搜索时只能精确查找。

一个简单的mapping示例如下:

{
    "javalogs": { //索引名称
        "mappings": {
            "properties": {
                "log_content": { //text类型,分词,用于之后的分词索引
                    "type": "text"
                },
                "date": {//时间类型
                    "type": "date" 
                },
                "log_level": { //keyword类型,不分词
                    "type": "keyword" 
                },
                "ip": {
                    "type": "keyword"
                }
            }
        }
    }
}

在6.x版本中,每个索引中还可以有多个type,区分不同的mapping。在7.x中,type被取消,每个索引只有一个type:_doc

文档(doc)

  • 文档是Elasticsearch中的最小单位,每个索引都是有数量众多的文档组成的。

  • 文档中包含多个字段,每个字段的类型由mapping定义。

  • 在一个索引中每个文档都有一个唯一id,可以在添加时指定,也可以自动生成。

下面通过一张图来描述,节点(node),索引(index)和文档(doc)之间的关系。

本地环境搭建,创建第一个index

一切知识都要通过实践掌握,所以在了解基本的概念和逻辑后,下面就进入实践环节。

这里推荐使用docker来搭建本地开发环境,docker对应windows和mac系统都有桌面版本,使用非常方便。因为网络限制,直接使用docker官方仓库拉取镜像会很慢,所以在安装完成后,需要在设置中将仓库的地址替换为国内源,这里推荐https://docker.mirrors.ustc.edu.cn,速度很快,设置如下:

{
  "registry-mirrors": [
    "https://docker.mirrors.ustc.edu.cn"
  ]
}

下面我们使用docker安装Elasticsearchkibana镜像,kibana是es官方配套的可视化分析工具,使用它的页面dev tools可以很方便的通过api操作es。

因为要同时部署两个docker镜像,这里推荐使用docker-composer,桌面版安装完成后就带有该命令,需要的配置如下:

services:
  kibana:
    image: kibana:7.2.0
    container_name: kibana-simple
    environment:
      - TIMELION_ENABLED=true
    ports:
      - "5601:5601"
    networks:
      - mynetwork
  elasticsearch:
    image: elasticsearch:7.2.0
    container_name: es-simple
    environment:
      - cluster.name=mytestes #这里就是ES集群的名称
      - node.name=es-simple #节点名称
      - bootstrap.memory_lock=true
      - network.publish_host=elasticsearch #节点发布的网络名称
      - discovery.seed_hosts=es-simple #设置集群中的主机地址
      - cluster.initial_master_nodes=es-simple #手动设置可以成为master的节点集合
    ulimits:
     memlock:
      soft: -1
      hard: -1
    volumes:
      - esdata1:/usr/local/elasticsearch/simpledata
    ports:
      - 9200:9200
    networks:
      - mynetwork

volumes:
  esdata1:
    driver: local

networks:
  mynetwork:
    driver: bridge

创建一个名称为docker-compose.yaml文件,复制下面的配置到文件中,然后再文件所在目录执行docker-compose up,之后会启动两个docker实例,分别是elasticsearchkibana

在本地浏览器中,访问http://127.0.0.1:5601/,可以看到kibana的界面如下:

创建好的kibana已经默认添加了Elasticsearch的配置,通过管理工具可以很方便的查看ES集群的状态,索引情况,删除索引等。

kibana-monitor

下面通过dev tools创建索引,dev tools提供的命令提示很方便,并且可以把已写好的请求保存在浏览器缓存中,非常适合用来学习Elasticsearch

create-index

这里通过ES提供的RESTful Api创建了第一个索引, 并且设置了该索引中的mapping,ES的地址已经设置过,这里可以不写完整的域名,对应的curl完整请求如下:

curl --location --request PUT \'http://127.0.0.1:9200/javalogs\' \
--header \'Content-Type: application/json\' \
--data-raw \'{
    "mappings": {
        "properties": {
            "log_content": {
                "type": "text"
            },
            "date": {
                "type": "date"
            },
            "log_level": {
                "type": "keyword"
            },
            "ip": {
                "type": "keyword"
            }
        }
    }
}\'

常用RESTful Api示例

下面介绍下Elasticsearch中常用的api,这些例子都是直接在kibanadev tools中运行的,如果想用curl访问,可参考前一节中的转换例子。

新增文档

//自动生成_id
POST javalogs/_doc
{
  "log_content" : "get user_id 123456",
  "date" : "2020-04-15T11:09:08",
  "log_level": "info",
  "ip": "10.223.32.67"
}
//指定_id
POST javalogs/_doc/111
{
  "log_content" : "api response in 55ms",
  "date" : "2020-04-15T11:09:07",
  "log_level": "info",
  "ip": "10.223.32.67"
}

查询文档-不分词类型

ES在文档查询时,对于不分词的查询,直接按值查询即可,例如下面这样:

//不分词类型查询
POST javalogs/_search
{
  "query": {
    "match": {
      "ip": "10.223.32.67"
    }
  }
}

查询文档-分词类型

这里主要说下分词类型的查询,对于分析类型的field在查询时,也会默认把查询的语句分词。假设有两个文档如下:

//文档1
{
  "log_content" : "call aaa service error",
  "date" : "2020-04-15T11:09:07",
  "log_level": "error",
  "ip": "10.223.32.67"
}

//文档2
{
  "log_content" : "call bbb service error",
  "date" : "2020-04-15T11:09:08",
  "log_level": "error",
  "ip": "10.223.32.67"
}

当搜索条件为call aaa service时,实际上会把两个文档都搜索出来。
这是因为在搜索时,条件call aaa service会被分词为callaaaservice,所有包含这三个词的文档都会被搜索出来,例如下面:

//普通搜索,两个文档都会返回
POST javalogs/_search
{
  "query": {
    "match": {
      "log_content": "call aaa service"
    }
  }
}

那如果想要只搜索包含call aaa service的文档,应该如何做呢?

按照上面的分析,需要同时包含这三个词,并且按照给定的顺序,才返回对应的文档,那么这个可以使用match_phrase实现,示例如下:

//文档必须同时包含三个词,并且顺序与搜索条件一致才会返回。这里只会返回-文档1
POST javalogs/_search
{
  "profile": "true", 
  "query": {
    "match_phrase": {
      "log_content": "call aaa service"
    }
  }
}

那如果条件是包含callaaaservice,但是不一定是连着的,该如何搜索呢?可以使用operator操作符实现。

例如有第三个文档如下:

//文档3
{
  "log_content" : "call inner aaa service error",
  "date" : "2020-04-15T11:09:08",
  "log_level": "error",
  "ip": "10.223.32.67"
}

要想把文档1文档2都搜索出来,查询的示例如下:

//文档中同时包含call,aaa和service就会返回,不按顺序。会返回-文档1和文档2
POST javalogs/_search
{
  "query": {
    "match": {
      "log_content": 
      {
        "query": "call aaa service",
        "operator": "and"
      }
    }
  }
}

上面就是对Elasticsearch的简单介绍和实战操作示例,希望能帮助大家快速入门使用ES。

以上内容属个人学习总结,如有不当之处,欢迎在评论中指正


推荐阅读
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • 本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言,包管理器是标配,而Composer作为PHP的包管理器,解决了PEAR的问题,并且使用简单,方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题,避免命名空间冲突,并且能够方便地安装升级扩展包。 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • 本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序,实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包,解决了客户在安装软件时的复杂配置和繁琐问题,便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务,其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下,执行mysqld --install MySQL5命令。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路
    本文介绍了FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路。当图表系列较多时,用户希望可以自己设置哪些系列显示,哪些系列不显示。通过调用FR.Chart.WebUtils.getChart("chartID").getChartWithIndex(chartIndex).setSeriesVisible()接口,可以获取需要显示的系列图表对象,并在表单中显示这些系列。本文以决策报表为例,详细介绍了实现方法,并给出了示例。 ... [详细]
  • 腾讯安全平台部招聘安全工程师和数据分析工程师
    腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析,提供安全测试技术支持;数据分析工程师负责安全产品相关系统数据统计和分析挖掘,通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理,精通Web漏洞,熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • 本文介绍了关于apache、phpmyadmin、mysql、php、emacs、path等知识点,以及如何搭建php环境。文章提供了详细的安装步骤和所需软件列表,希望能帮助读者解决与LAMP相关的技术问题。 ... [详细]
  • 2022年的风口:你看不起的行业,真的很挣钱!
    本文介绍了2022年的风口,探讨了一份稳定的副业收入对于普通人增加收入的重要性,以及如何抓住风口来实现赚钱的目标。文章指出,拼命工作并不一定能让人有钱,而是需要顺应时代的方向。 ... [详细]
author-avatar
爱到最后还是分离_851
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有