热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:elasticsearchElasticsearch7.XScripting脚本使用详解

篇首语:本文由编程笔记#小编为大家整理,主要介绍了elasticsearchElasticsearch7.XScripting脚本使用详解相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了elasticsearchElasticsearch 7.X Scripting 脚本使用详解相关的知识,希望对你有一定的参考价值。






在这里插入图片描述


1.概述

转载:Elasticsearch 7.X Scripting脚本使用详解


0、题记

除了官方文档,其他能找到的介绍Elasticsearch脚本(Scripting)的资料少之又少。

一方面:性能问题。

官方文档性能优化中明确指出使用脚本会导致性能低;

另一方面:使用场景相对少。

非复杂业务场景下,基础的增、删、改、查基本上就能搞定。

但,不能否认,在解决复杂业务问题(如:自定义评分、自定义文本相关度、自定义过滤、自定义聚合分析)时,脚本依然是Elasticsearch强悍的利器之一。

本文在官方文档基础上,结合实际业务场景,在Elasticsearch7.3环境下进行脚本使用解读。


1、官方scripting使用建议

Avoid scripts——In general, scripts should be avoided.
If they are absolutely needed, you should prefer the painless and expressions engines.


ebay在性能优化实践中也强调(本文做了扩展延伸):

避免使用脚本查询(script query)计算动态字段。

例如:我们有一个包含大量剧院信息的索引,我们需要查询以"Down"开头的所有剧院。你可能运行一个如下脚本查询:

POST seats/_search
{
"query": {
"bool": {
"filter": {
"script": {
"script": {
"lang": "painless",
"source": "doc['theatre'].value.startsWith('Down')"
}
}
}
}
}
}

这个查询非常耗费资源,并且减慢整个系统。

解决方案:

方案一:prefix前缀匹配;实测性能:prefix较scripting性能提升5倍。

方案二:索引时考虑添加一个名为“theatre_prefix”的keyword类型字段。然后我们可以查询"theatre_prefix":"Down"。


2、ES Scripting历史
版本使用脚本

MVEL 脚本

Groovy 脚本

‘>= Elasticsearch 5.0

painless 脚本

Groovy 的出现是解决MVEL的安全隐患问题;
但Groovy仍存在内存泄露+安全漏洞问题,

painless脚本的官宣时间:2016年9月21日。看似很新,截止目前,已经三年左右时间了。

正如其名字:无痛。painless的出现是为了用户更方便、高效的使用脚本。

https://www.elastic.co/cn/blog/painless-a-new-scripting-language


3、Painless Scripting 简介

Painless是一种简单,安全的脚本语言,专为与Elasticsearch一起使用而设计。它是Elasticsearch的默认脚本语言,可以安全地用于内联和存储脚本。

Painless特点:


  1. 性能牛逼:Painless脚本运行速度比备选方案(包括Groovy)快几倍。

  2. 安全性强:使用白名单来限制函数与字段的访问,避免了可能的安全隐患。

  3. 可选输入:变量和参数可以使用显式类型或动态def类型。

  4. 上手容易:扩展了java的基本语法,并兼容groove风格的脚本语言特性。

  5. 特定优化:是ES官方专为Elasticsearch脚本编写而设计。


4、Scripting 应用场景

认知前提:

增删改查能解决业务场景80%的问题,Painless脚本操作一般应用于相对复杂的业务场景中。

常见场景举例如下:

自定义字段
自定义评分
自定义更新
自定义reindex
聚合
其他自定义操作

5、Scripting 使用模板

心中有模板,脚本认知就有了“套路”。

"script": {
"lang": "...",
"source" | "id": "...",
"params": { ... }
}

  1. lang:代表language脚本语言,默认指定为:painless。

  2. source:脚本的核心部分,id应用于:stored script。

  3. params:传递给脚本使用的变量参数。


6、Scripting 实战

6.1 自定义字段

举例:返回原有Mapping未定义的字段值。
如:以my_doubled_field返回my_field字段的翻倍后的结果。

GET my_index/_search
{
"script_fields": {
"my_doubled_field": {
"script": {
"lang": "expression",
"source": "doc['my_field'] * multiplier",
"params": {
"multiplier": 2
}
}
}
}
}

注意:这里脚本语言选择的expression,下一节讲解。

如:返回日期字段中的“年”或“月”或“日”等。


GET hockey/_search
{
"script_fields": {
"birth_year": {
"script": {
"source": "doc.born.value.year"
}
}
}
}

6.2 自定义评分

GET my_index/_search
{
"query": {
"function_score": {
"query": {
"match": {
"text": "quick brown fox"
}
},
"script_score": {
"script": {
"lang": "expression",
"source": "_score * doc['popularity']"
}
}
}
}
}

6.3 自定义更新

Update:将已有字段值赋值给其他字段。

POST hockey/_update/1
{
"script": {
"lang": "painless",
"source": """
ctx._source.last = params.last;
ctx._source.nick = params.nick
""",
"params": {
"last": "gaudreau",
"nick": "hockey"
}
}
}

Update_by_query:满足b开头(注意正则)的字段,末尾添加matched。

POST hockey/_update_by_query
{
"script": {
"lang": "painless",
"source": """
if (ctx._source.last =~ /b/) {
ctx._source.last += "matched";
} else {
ctx.op = "noop";
}
"""
}
}

6.4 自定义reindex

Elasticsearch认证考试题:

index_a包含一些文档, 要求创建索引index_b,通过reindex apiindex_a的文档索引到index_b

要求:


  1. 增加一个整形字段,value是index_a的field_x的字符长度;

  2. 再增加一个数组类型的字段,value是field_y的词集合。

(field_y是空格分割的一组词,比方"foo bar",索引到index_b后,要求变成[“foo”, “bar”])

POST _reindex
{
"conflicts": "proceed",
"source": {
"index": "index_a"
},
"dest": {
"index": "index_b"
},
"script": {
"source": "ctx._source.parts = / /.split(ctx._source.address); ctx._source.tag = ctx._source.city.length();"
}
}

语法参考:

https://www.elastic.co/guide/en/elasticsearch/painless/7.3/painless-regexes.html


6.5 聚合

GET /_search
{
"aggs": {
"genres": {
"terms": {
"script": {
"source": "doc['genre'].value",
"lang": "painless"
}
}
}
}
}

6.6 其他自定义操作

需要结合业务去实践。


7、常见坑及问题

7.1 脚本只有Painless吗?

显然不是,第6节用到的expression 是Lucene’s expressions 脚本语言。

还可以基于脚本引擎自己开发插件实现,

https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-scripting-engine.html


7.2 怎么界定是expressions 还是Painless?

"lang": "painless",
"lang": "expressions ",

是唯一区分。


7.3 使用painless就百分之百“无痛”,无漏洞后顾之忧了吗?

凡事不能绝对。
核心注意点:

第一:不要root账户下运行Elasticsearch。
第二:不要公开ES路径给其他用户。
第三:不要公开ES路径到互联网。

实战推荐:

1、用户在搜索框中键入文本,文本将直接发送到后台的match、match_phrase、Simple query string或 Suggesters.

2、作为应用程序开发过程的一部分(而非全部)开放上述查询的脚本。

3、使用用户提供的参数运行脚本。

4、文档固定的Mapping结构。

不推荐:

1、用户可以编写任意scripts, queries(检索), _search requests(search请求)。

2、文档结构可以用户自定义。


8、小结

本文讲解了脚本的发展历史、使用场景、应用实战,但相比于实际业务的复杂需求仍然是九牛一毛。

实战中,肯定还会遇到这样、那样的问题。

一方面:欢迎留言交流。
另一方面:多研读官方文档,很多细节值得深究。


N.参考:

https://www.elastic.co/guide/en/elasticsearch/reference/current/tune-for-search-speed.html
https://www.infoq.cn/article/elasticsearch-performance-tuning-practice-at-ebay
https://github.com/laoyang360/deep_elasticsearch/blob/master/es_dsl_study/6.scripting.md
https://github.com/elastic/elasticsearch/issues/19396
https://www.youtube.com/watch?v=3FLEJJ8PsM4
https://blog.csdn.net/u013613428/article/details/78134170
————————————————
版权声明:本文为CSDN博主「铭毅天下」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/laoyang360/article/details/100869751






推荐阅读
  • Webmin远程命令执行漏洞复现及防护方法
    本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法,同时提供了防护方法。漏洞存在于Webmin的找回密码页面中,攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外,还指出了参考链接中的数据包不准确的问题,并解释了漏洞触发的条件。最后,给出了防护方法以避免受到该漏洞的攻击。 ... [详细]
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤,并提供了相关的命令和配置示例。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法
    本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法,包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时,还介绍了修改nginx的error.log日志级别为debug,以便查看详细日志信息。 ... [详细]
  • Android实战——jsoup实现网络爬虫,糗事百科项目的起步
    本文介绍了Android实战中使用jsoup实现网络爬虫的方法,以糗事百科项目为例。对于初学者来说,数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据,并以糗事百科作为练手项目。同时,提到了使用jsoup需要结合前端基础知识,以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • vue使用
    关键词: ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • PostgreSQL OR条件
    PostgreSQLOR条件与WHERE子句一起使用,以从表中的一列或多列列中选择唯一数据。语法 ... [详细]
author-avatar
手机用户2602883667
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有