当前位置: 开发笔记 > 编程语言 > 正文

JavaScript：正则表达式入门

作者：玄天战猫 | 来源：互联网 | 2023-09-16 14:53

这篇文章整理自老姚的JavaScript正则迷你书第一章1.1.两种模糊匹配模糊匹配，有两个方向上的“模糊”：横向模糊和纵向模糊。1.1.1.横向模糊匹配横向模糊指的是，一个正则可

这篇文章整理自老姚的Javascript正则迷你书第一章

1.1. 两种模糊匹配

模糊匹配，有两个方向上的“模糊”：横向模糊和纵向模糊。

1.1.1. 横向模糊匹配

横向模糊指的是，一个正则可匹配的字符串的长度不是固定的，可以是多种情况的。

其实现的方式是使用量词。譬如 {m,n}，表示连续出现最少 m 次，最多 n 次。

比如正则 /ab{2,5}c/ 表示匹配这样一个字符串：第一个字符是 "a"，接下来是 2 到 5 个字符 "b"，最后

是字符 "c"。

var regex = /ab{2,5}c/g; var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc"; console.log( string.match(regex) ); // => ["abbc", "abbbc", "abbbbc", "abbbbbc"]

案例中用的正则是 /ab{2,5}c/g，其中 g 是正则的一个修饰符。表示全局匹配，即，在目

标字符串中按顺序找到满足匹配模式的所有子串，强调的是“所有”，而不只是“第一个”

。g 是单词 global 的首字母。

1.1.2. 纵向模糊匹配

纵向模糊指的是，一个正则匹配的字符串，具体到某一位字符时，它可以不是某个确定的字符，可以有多种

可能。其实现的方式是使用字符组。譬如 [abc]，表示该字符是可以字符 "a"、"b"、"c" 中的任何一个。

比如 /a[123]b/ 可以匹配如下三种字符串： "a1b"、"a2b"、"a3b"。

var regex = /a[123]b/g; var string = "a0b a1b a2b a3b a4b"; console.log( string.match(regex) ); // => ["a1b", "a2b", "a3b"]

1.2. 字符组

[abc]，表示匹配一个字符，它可以是 "a"、"b"、"c" 之一。

1.2.1. 范围表示法

[123456abcdefGHIJKLM]，可以写成 [1-6a-fG-M]。用连字符 - 来省略和简写。

么要匹配 "a"、"-"、"z" 这三者中任意一个字符:可以写成如下的方式：[-az] 或 [az-] 或 [a-z]。

即要么放在开头，要么放在结尾，要么转义。总之不会让引擎认为是范围表示法就行了

1.2.2. 排除字符组

纵向模糊匹配，还有一种情形就是，某位字符可以是任何东西，但就不能是 "a"、"b"、"c"。此时就是排除字符组（反义字符组）的概念。例如 [^abc]，表示是一个除 "a"、"b"、"c"之外的任意一个字符。字符组的第一位放 ^（脱字符），表示求反的概念。当然，也有相应的范围表示法。

1.2.3. 常见的简写形式

如果要匹配任意字符怎么办？可以使用 [\d\D]、[\w\W]、[\s\S] 和 [^] 中任何的一个

1.3. 量词

1.3.2. 贪婪匹配与惰性匹配

var regex = /\d{2,5}/g; var string = "123 1234 12345 123456"; console.log( string.match(regex) ); // => ["123", "1234", "12345", "12345"]

其中正则 /\d{2,5}/，表示数字连续出现 2 到 5 次。会匹配 2 位、3 位、4 位、5 位连续数字。

但是其是贪婪的，它会尽可能多的匹配。你能给我 6 个，我就要 5 个。你能给我 3 个，我就要 3 个。

反正只要在能力范围内，越多越好。

我们知道有时贪婪不是一件好事（请看文章最后一个例子）。而惰性匹配，就是尽可能少的匹配：

var regex = /\d{2,5}?/g; var string = "123 1234 12345 123456"; console.log( string.match(regex) ); // => ["12", "12", "34", "12", "34", "12", "34", "56"]

其中 /\d{2,5}?/ 表示，虽然 2 到 5 次都行，当 2 个就够的时候，就不再往下尝试了。

通过在量词后面加个问号就能实现惰性匹配，因此所有惰性匹配情形如下：

对惰性匹配的记忆方式是：量词后面加个问号，问一问你知足了吗，你很贪婪吗？

1.4. 多选分支

一个模式可以实现横向和纵向模糊匹配。而多选分支可以支持多个子模式任选其一。

具体形式如下：(p1|p2|p3)，其中 p1、p2 和 p3 是子模式，用 |（管道符）分隔，表示其中任何之一。

例如要匹配字符串 "good" 和 "nice" 可以使用 /good|nice/。

var regex = /good|nice/g; var string = "good idea, nice try."; console.log( string.match(regex) ); // => ["good", "nice"]

但有个事实我们应该注意，比如我用 /good|goodbye/，去匹配 "goodbye" 字符串时，结果是 "good"

var regex = /good|goodbye/g; var string = "goodbye"; console.log( string.match(regex) ); // => ["good"]

而把正则改成 /goodbye|good/，结果是：

var regex = /goodbye|good/g; var string = "goodbye"; console.log( string.match(regex) ); // => ["goodbye"]

也就是说，分支结构也是惰性的，即当前面的匹配上了，后面的就不再尝试了。

1.5. 案例分析

1.5.1. 匹配 16 进制颜色值

要求匹配：

#ffbbad #Fc01DF #FFF #ffE

分析：

表示一个 16 进制字符，可以用字符组 [0-9a-fA-F]。

其中字符可以出现 3 或 6 次，需要是用量词和分支结构。

使用分支结构时，需要注意顺序。

正则如下：

var regex = /#([0-9a-fA-F]{6}|[0-9a-fA-F]{3})/g; var string = "#ffbbad #Fc01DF #FFF #ffE"; console.log( string.match(regex) ); // => ["#ffbbad", "#Fc01DF", "#FFF", "#ffE"]

1.5.2. 匹配时间

以 24 小时制为例。

要求匹配:

23:59 02:07

分析：

共 4 位数字，第一位数字可以为 [0-2]。

当第 1 位为 "2" 时，第 2 位可以为 [0-3]，其他情况时，第 2 位为 [0-9]。

第 3 位数字为 [0-5]，第4位为 [0-9]。

正则如下：

var regex = /^([01][0-9]|[2][0-3]):[0-5][0-9]$/; console.log( regex.test("23:59") ); console.log( regex.test("02:07") ); // => true // => true //正则中使用了 ^ 和 $，分别表示字符串开头和结尾。

如果也要求匹配 "7:9"，也就是说时分前面的 "0" 可以省略。

此时正则变成：

var regex = /^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/; console.log( regex.test("23:59") ); console.log( regex.test("02:07") ); console.log( regex.test("7:9") ); // => true // => true // => true

1.5.3. 匹配日期

比如 yyyy-mm-dd 格式为例。

要求匹配：

2017-06-10

分析：

年，四位数字即可，可用 [0-9]{4}。

月，共 12 个月，分两种情况 "01"、"02"、…、"09" 和 "10"、"11"、"12"，可用 (0[1-9]|1[0-2])。

日，最大 31 天，可用 (0[1-9]|[12][0-9]|3[01])。

正则如下：

var regex = /^[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[12][0-9]|3[01])$/; console.log( regex.test("2017-06-10") ); // => true

1.5.4. window 操作系统文件路径

要求匹配：

F:\study\Javascript\regex\regular expression.pdf F:\study\Javascript\regex\ F:\study\Javascript F:\

分析：

整体模式是:

盘符:\文件夹\文件夹\文件夹\

其中匹配 "F:"，需要使用 [a-zA-Z]:\，其中盘符不区分大小写，注意 \ 字符需要转义。

文件名或者文件夹名，不能包含一些特殊字符，此时我们需要排除字符组 [^\:*<>|"?\r\n/] 来表示合法

字符。

另外它们的名字不能为空名，至少有一个字符，也就是要使用量词 +。因此匹配文件夹\，可用

[^\:*<>|"?\r\n/]+\。

另外文件夹\，可以出现任意次。也就是 ([^\:<>|"?\r\n/]+\)。*

路径的最后一部分可以是文件夹，没有 \，因此需要添加 ([^\:<>|"?\r\n/]+)?。
最后拼接成了一个看起来比较复杂的正则：
var regex = /^[a-zA-Z]:\$[^\\:*<>|"?\r\n/]+\$*([^\\:*<>|"?\r\n/]+)?$/; console.log( regex.test("F:\\study\\Javascript\\regex\\regular expression.pdf") ); console.log( regex.test("F:\\study\\Javascript\\regex\\") ); console.log( regex.test("F:\\study\\Javascript") ); console.log( regex.test("F:\\") ); // => true // => true // => true // => true

其中，在Javascript 中字符串要表示字符 \ 时，也需要转义。

1.5.5. 匹配 id

要求从:

提取出 id="container"。

可能最开始想到的正则是：

var regex = /id=".*"/ var string = '

';
console.log(string.match(regex)[0]);
// => id="container" class="main"

因为 . 是通配符，本身就匹配双引号的，而量词 * 又是贪婪的，当遇到 container 后面双引号时，是不会

停下来，会继续匹配，直到遇到最后一个双引号为止。

解决之道，可以使用惰性匹配：

var regex = /id=".*?"/ var string = '

';
console.log(string.match(regex)[0]);
// => id="container"

当然，这样也会有个问题。效率比较低，因为其匹配原理会涉及到“回溯”这个概念（这里也只是顺便提一

下，第四章会详细说明）。可以优化如下：

var regex = /id="[^"]*"/ var string = '

';
console.log(string.match(regex)[0]);
// => id="container"

1.6. 本章小结

掌握字符组和量词就能解决大部分常见的情形，也就是说，当你会了这二者，Javascript 正则算是入门了。

推荐阅读

go
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
case
数组或散列中的正则表达式排序 - Regex in array or hash - sorting

Ihaveaworkfolderdirectory.我有一个工作文件夹目录。holderDir.glob(*)>holder[ProjectOne, ... [详细]

蜡笔小新 2023-12-10 12:41:53
go
字符串匹配RabinKarp算法讲解

问题描述：Rabin-Karp的预处理时间是O(m)，匹配时间O((n-m1)m)既然与朴素算法的匹配时间一样，而且还多了一些预处理时间& ... [详细]

蜡笔小新 2023-10-16 20:38:32
go
splitjava的简单介绍

本文目录一览：1、Javasplit方法2、 ... [详细]

蜡笔小新 2023-10-16 15:51:58
go
Android开发实现的计时器功能示例

本文分享了Android开发实现的计时器功能示例，包括效果图、布局和按钮的使用。通过使用Chronometer控件，可以实现计时器功能。该示例适用于Android平台，供开发者参考。 ... [详细]

蜡笔小新 2023-12-12 22:51:19
ip
使用eclipse创建一个Java项目的步骤

本文介绍了使用eclipse创建一个Java项目的步骤，包括启动eclipse、选择New Project命令、在对话框中输入项目名称等。同时还介绍了Java Settings对话框中的一些选项，以及如何修改Java程序的输出目录。 ... [详细]

蜡笔小新 2023-12-11 10:24:49
case
Java中检查字符串是否仅包含数字的方法及示例代码

本文介绍了在Java中检查字符串是否仅包含数字的方法，包括使用正则表达式的示例代码，并提供了测试案例进行验证。同时还解释了Java中的字符转义序列的使用。 ... [详细]

蜡笔小新 2023-12-10 12:58:56
go
MySQL多表数据库操作方法及子查询详解

本文详细介绍了MySQL数据库的多表操作方法，包括增删改和单表查询，同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作，以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说，本文是一个非常实用的参考资料。 ... [详细]

蜡笔小新 2023-12-09 22:17:43
web
node . js urlsearchparams API

node.jsurlsearchparamsAPI哎哎哎 ... [详细]

蜡笔小新 2023-12-09 18:08:10
go
拆点+KM，建图思路看的题解，求解最小权匹配问题

本文介绍了一种求解最小权匹配问题的方法，使用了拆点和KM算法。通过将机器拆成多个点，表示加工的顺序，然后使用KM算法求解最小权匹配，得到最优解。文章给出了具体的代码实现，并提供了一篇题解作为参考。 ... [详细]

蜡笔小新 2023-12-09 09:24:15
web
正则表达式及其范例

为什么80%的码农都做不了架构师？一、前言部分控制台输入的字符串，编译成java字符串之后才送进内存，比如控制台打\， ... [详细]

蜡笔小新 2023-10-17 20:18:36
filter
Wordpress：仅显示未来的帖子减去一天 - Wordpress: Only show future posts minus one day

SoIhavealoopthatrunsperfectforeventsandonlyshowsfutureposts.TheissueisthatIwould ... [详细]

蜡笔小新 2023-10-17 09:11:29
go
ZOJ 3697 Badwritten Number

dp[i][j]+dp[i-1][k]，match(j,k). 与其说是DP，不如说是模拟题。第一个和最后一个数字要单独讨论，中间的要符合剩下的条件：中间一列和剩下的两 ... [详细]

蜡笔小新 2023-10-16 19:42:54
go
python的re模块是自带的吗_Python正则re模块使用步骤及原理解析

python中使用正则表达式的步骤：1.导入re模块：importre2.初始化一个Regex对象：re.compile()3.刚刚创建的 ... [详细]

蜡笔小新 2023-10-16 11:13:21
php
如何在php表单中使用正则表达式

这期内容当中小编将会给大家带来有关如何在php表单中使用正则表达式，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可 ... [详细]

蜡笔小新 2023-10-16 10:41:10

玄天战猫

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章