[教程]正则快速上手指南：2–神奇的分组

作者： | 来源：互联网 | 2023-10-11 17:02

上一节通过几个很微型的实例认识了可爱的正则表达式，期间也有不少网友怀疑自己的能力，说不管学了多久，但是每次遇到要写正则的时候总要调试很久或

上一节通过几个很微型的实例认识了可爱的正则表达式&＃xff0c;期间也有不少网友怀疑自己的能力&＃xff0c;说不管学了多久&＃xff0c;但是每次遇到要写正则的时候总要调试很久或者是直接去抄人家的。我想说&＃xff0c;编程这东西&＃xff0c;本来就是调试时间要远大于编写时间的。所以&＃xff0c;不应该认为自己一次就能完全编写正确&＃xff0c;不是每次都100%一次成功的。
本节将要延续上一节的话题&＃xff0c;讲一下神奇的分组。

上一节我们用这个语句“ 作为一个搞WEB技术的人才&＃xff0c;你现在牛逼了&＃xff0c;终于开始用正则表达式了 ”讲述了很多种匹配方法&＃xff0c;从第一种到最后一种&＃xff0c;其实都是在慢慢简化的。最开始&＃xff0c;我们是看到一个句子&＃xff0c;然后用最自然的逻辑从左至右去描述它&＃xff0c;然后生成一个正则表达式&＃xff0c;然后慢慢的精简精简&＃xff0c;最后诞生了超级无敌小短炮&＃xff1a; /]*>/gi
本章我们就来解读一下 “[]” 的秘密&＃xff0c;以及说说他的兄弟&＃xff1a;“()”的那些事。

[]的秘密

严格上来讲&＃xff0c;“[]”符号的使用并不能算作将要匹配的字符进行“分组”的概念&＃xff0c;他只是一个单词选择范围界定符。也就是说&＃xff0c;不管你在[]中放多少内容&＃xff0c;系统都会将其中的内容看做一个一个的字符来解读&＃xff0c;而不会将它们看成一个整体。
举例说明&＃xff0c;在上面蓝色的例句中&＃xff0c;你想匹配一下看有几个“a或g”&＃xff0c;那就应该用 /[ag]/g&＃xff0c;你看这个图片&＃xff0c;a和g都被匹配到了&＃xff1a;

如果我们想匹配“ag”这个组合&＃xff0c;那就应该用/ag/g 或者 /(ag)/g &＃xff1a;

这也就是说&＃xff0c;在没有[]干预的情况下&＃xff0c;正则表达式中要匹配的字符总是从左到右作为一个整体进行匹配的。那么&＃xff0c;如果[]和()同时出现&＃xff0c;会出现什么状况呢&＃xff1f; 我们来看看 /[(ag)]/g

事实证明&＃xff0c;[]比()牛逼&＃xff0c;不管带不带()&＃xff0c;只要最外层被[]罩着&＃xff0c;里面的内容就会被当成字符来看&＃xff0c;而非整体。

略懂编程的人应该知道&＃xff0c;一个逻辑里面&＃xff0c;会包含这样几种基本关系&＃xff1a;与、非、或。这在正则表达式也是存在的&＃xff1a;

与&＃xff1a;所有没有被[]包含的、连续的字符&＃xff0c;如&＃xff0c;ag、(ag)就是a与g都存在并且g在a后面才为真&＃xff0c;才会匹配。
非&＃xff1a;^。这个符号很勤劳&＃xff0c;它既是匹配字符串的开始的限定符&＃xff0c;又是表示“非”的符号。比如这个小短炮 [^>] 就表示匹配所有不等于”>”的符号&＃xff0c;因此我们在上一节中用这个来匹配标签中的各项属性&＃xff0c;因为这些属性不可能包含“>”,这样&＃xff0c;就用最精练的语句做到了最大限度的匹配。
或&＃xff1a;被 | 隔开的左右字符或者被[]包含的每一个字符&＃xff0c;他们都是“或”的关系。所以 c [abc] 跟 c [a|b|c]是等效的&＃xff0c;都只能匹配ca或者cb或者cc

因为[]老喜欢把人家拆散了干&＃xff0c;所以&＃xff0c;正则表达式的缔造者们也赋予了它一些特殊的才能&＃xff0c;下面我们来看连字符号“- ”

大家在抄别人的正则表达式的时候一定见过诸如 [0-9]、[a-z] 这样的东西吧&＃xff1f;不得不说这个真的是让人太兴奋了&＃xff01;
连字符号表示匹配一些计算机认为的约定熟成的连续的东西&＃xff0c;比如数字&＃xff0c;字母&＃xff0c;汉字&＃xff08;连续的16进制编码&＃xff09;。所以&＃xff0c;我们就可以这样总结如下&＃xff1a;

[0-9] 匹配0-9的数字。当然&＃xff0c;我知道聪明的你会去试一下看是不是[6-8]只能匹配6、7、8三个数字。你看&＃xff0c;多么灵活呀&＃xff01;当我们用[0-9]来匹配所有数字的时候&＃xff0c;我们就可以把它简写成 \d。\d表示匹配一个数字。
[a-z] 和[A-Z]匹配一个小写或者大写字母&＃xff0c;如果想要匹配所有英文字母&＃xff0c;你可以用[a-zA-Z]来匹配&＃xff0c;当然&＃xff0c;还有更简单的办法&＃xff1a; [A-z] 。如果只需要匹配其中一段连续字母&＃xff0c;比如 c、d、e、f就灵活的运用 [c-f] &＃xff0c;就行了。

一个原则&＃xff1a;匹配式的越简单越好&＃xff0c;速度越快。

有正就有反&＃xff0c;那么以下几个式子的意思你就该明白了&＃xff01;——

[^0-9]&＃xff0c;匹配非数字的字符&＃xff0c;等于\D

[^a-z]&＃xff0c;匹配非小写字符
[^a-zA-Z] &＃xff0c; 匹配非英文字符。

神奇的&＃xff08;&＃xff09;

()是一个神奇的东西。在我们的固定思维中&＃xff0c;总是认为被&＃xff08;&＃xff09;括起来的东西是一个整体&＃xff0c;在正则表达式中也是如此。除此之外&＃xff0c;他还有着一些很好玩的特性。

说他代表一个整体&＃xff0c;这个很好理解&＃xff0c;我用一个例子来说明&＃xff1a;
给出一串数字&＃xff1a;1000200300040050000006007000080900

然后我们分别写下这样两个正则&＃xff1a; /00{2,4}/ 和 /(00){2,4}/

然后告诉我&＃xff0c;你看到什么了&＃xff1f;

/00{2,4}/ 在这串数字中匹配到了以下红色字体&＃xff1a;1000200300040050000006007000080900。他能匹配 000、0000、00000。也就是说&＃xff0c;要先保证第一位是0&＃xff0c;然后接下来的2个位置到4个位置都是0&＃xff0c;都能匹配。
/(00){2,4}/ 在这串数字中匹配到了以下红色字体&＃xff1a;1000200300040050000006007000080900。他能匹配 0000、000000、00000000。也就是说&＃xff0c;“00”是一个打包货&＃xff0c;2个“00”、3个“00”和4个“00”在一起的组合都是OK的。

这就是我们思维中的“分组”。

但是&＃xff0c;正则表达式的开发者总能提供给我们一些惊喜&＃xff01;

回想一下我们以前写HTML的时候遇到的问题&＃xff1a;我们想找出一个段落中所有成对的HTML标签&＃xff0c;怎么办&＃xff1f;能不能有一个办法能够一次性找出来&＃xff0c;而不需要先去肉眼观察有哪些标签&＃xff0c;然后对应的构建一些正则表达式分批查找出来呢&＃xff1f;

就比方说这段话&＃xff1a;“ 作为一个搞WEB技术的人才&＃xff0c;你现在牛逼了&＃xff0c;终于开始用正则表达式了 ”

里面的和两个都是成对出现的标签&＃xff0c;我们能不能一次性的把他们都匹配出来呢&＃xff1f;难点就在于&＃xff0c;你怎么知道你当前匹配的是还是&＃xff1f;如何找到他们的结束标签&＃xff1f;

答案是&＃xff0c;能&＃xff01;

只需要一句话&＃xff1a; /<(\w*)[^>*\/]*>.*<\/\1>/gi

看截图&＃xff1a;

下面让我们拆解分析一下&＃xff1a;

/ #正则表达式开始

< #匹配一个<

(\w*) #匹配<接下来的内容&＃xff0c;比如是span或者a&＃xff0c;因为\w不能匹配空格&＃xff0c;所以遇到空格后就停了下来&＃xff0c;我们把这次匹配到的东西放在一个组里面&＃xff0c;用括号括起来。正则表达式为本次的括号里面找到的内容自动分配了一个组ID&＃xff0c;id&＃61;1。如果有面还有被()括起来的&＃xff0c;ID&＃61;2、3、4、5…自动分配ID

[^>*\/]* #匹配一些非>非/的内容。非>的内容主要是该标签的一些属性&＃xff0c;比如style、href等。非/的内容主要是为了防止内关闭的标签诸如和
、

等被匹配到

> #匹配一个>&＃xff0c;到这里头标签&＃xff08;、等&＃xff09;的匹配就结束了。

.* #匹配标签中的内容

< #匹配尾标签(、等结束标签)

\/ #匹配一个/。用\来转义

\1 #这里是关键&＃xff0c;匹配刚才被分配为1的那个组&＃xff0c;用这个\1&＃xff0c;这个就叫“反向引用”。就能获取到刚才匹配的span或者是a等头标签的文字。因为头尾标签的这部分是一样一样一样滴&＃xff01;

> #匹配尾标签尾

/gi #匹配完美结束

有人说&＃xff0c;你这个图一下就匹配完了&＃xff0c;完全看不出到底是怎么匹配的&＃xff0c;如果我要匹配没有内嵌HTML标签的那些标签该如何办呢&＃xff1f;就拿这段演示来说&＃xff0c;内部包含了两个标签&＃xff0c;这种标签我们暂时不想匹配他&＃xff0c;我们现在只想要找出这种内部没有其他标签的标签怎么办呢&＃xff1f;没事&＃xff0c;哥有办法——

    <(\w*)[^>*\/]*>[^<]*<\/\1>
     很简单&＃xff0c;紫色部分就是区别&＃xff0c;我们只要将匹配标签中的内容从 .* (匹配所有)改为 [^<]* (匹配非<的字符)就行了。看图&＃xff1a;

大家可以举一反三&＃xff0c;好好利用&＃xff08;&＃xff09;的分组功能&＃xff0c;匹配一些诸如此类会重复用到某个相同字符或者字符串来形成配对的特殊的情况。

到现在为止&＃xff0c;我们都还只讲了需要消耗位置的一些匹配&＃xff0c;诸如匹配标签本身以及标签中的东西。但其实&＃xff0c;我们有时候会有一些特殊的匹配需求&＃xff0c;比如说&＃xff0c;仅匹配标签中的东西而无需将标签本身也匹配出来&＃xff0c;就像刚才那段被我们拿来演示的段落&＃xff0c;我们要把里面的所有html标签过滤掉&＃xff0c;但是又想保留标签中的文字&＃xff0c;该如何搞&＃xff1f;

下一节给大家讲讲“零宽断言”&＃xff0c;我们就会知道怎么做了。

转:https://blog.51cto.com/thisiswww/351646

推荐阅读

php
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
io
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
io
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
java
【MEGA DEAL】Ruby on Rails编码训练营（97％折扣）限时特惠！

本文介绍了JCG Deals商店提供的Ruby on Rails编码训练营的超值优惠活动，现在只需29美元即可获得，原价为$1,296。Ruby on Rails是一种用于Web开发的编程语言，即使没有编程或网页设计经验，也能在几分钟内构建专业的网站。该训练营共有6门课程，包括使用Ruby on Rails进行BDD的课程，使用RSpec 3和Capybara等。限时特惠，机会难得，赶快行动吧！ ... [详细]

蜡笔小新 2023-12-13 17:58:10
io
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
java
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
io
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
list
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
io
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
io
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
io
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
io
Webpack5内置处理图片资源的配置方法

本文介绍了在Webpack5中处理图片资源的配置方法。在Webpack4中，我们需要使用file-loader和url-loader来处理图片资源，但是在Webpack5中，这两个Loader的功能已经被内置到Webpack中，我们只需要简单配置即可实现图片资源的处理。本文还介绍了一些常用的配置方法，如匹配不同类型的图片文件、设置输出路径等。通过本文的学习，读者可以快速掌握Webpack5处理图片资源的方法。 ... [详细]

蜡笔小新 2023-12-14 15:39:51
io
收集一些好用的搜索引擎的替代品

本文介绍了一些好用的搜索引擎的替代品，包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外，还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]

蜡笔小新 2023-12-13 16:47:45
io
Webmin远程命令执行漏洞复现及防护方法

本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法，同时提供了防护方法。漏洞存在于Webmin的找回密码页面中，攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外，还指出了参考链接中的数据包不准确的问题，并解释了漏洞触发的条件。最后，给出了防护方法以避免受到该漏洞的攻击。 ... [详细]

蜡笔小新 2023-12-13 16:14:53
java
Java验证码——kaptcha的使用配置及样式

本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置，包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]

蜡笔小新 2023-12-13 13:58:25

Tags | 热门标签

RankList | 热门文章