Shell正则表达式之grep、sed、awk实操笔记

作者：dvs5453401 | 来源：互联网 | 2022-02-22 04:42

这篇文章主要介绍了Shell正则表达式之grep、sed、awk实操笔记,本文使用grep、sed、awk配合正则达到了一些需求和目的,需要的朋友可以参考下

最近一直在研究shell脚本这块，刚好闲下来整了下自己手头上比较好的资料中的一些范例，以下是我整理的鸟哥私房菜里面正则表达式里面比较基础的一些语法详解，适合新手查阅。

首先先复制一段范例：

代码如下:

# vi regular_express.txt

-------------------------------

"Open Source" is a good mechanism to develop programs.

apple is my favorite food.

Football game is not use feet only.

this dress doesn't fit me.

However, this dress is about $ 3183 dollars.

GNU is free air not free beer.

Her hair is very beauty.

I can't finish the test.

Oh! The soup taste good.

motorcycle is cheap than car.

This window is clear.

the symbol '*' is represented as start.

Oh!My god!

The gd software is a library for drafting programs.

You are the best is mean you are the no. 1.

The world  is the same with "glad".

I like dog.

google is the best tools for search keyword.

goooooogle yes!

go! go! Let's go.

# I am VBird

--------------------------------

设置语系为C

代码如下:

#export LANG=C

grep

1.搜寻特定字符串"the"
注: n为显示行号

代码如下:

# grep -n 'the' regular_express.txt

2.反向搜寻特定字符串"the"

代码如下:

# grep -vn 'the' regular_express.txt

3.取得任意大小写"the"的这个字符串

代码如下:

# grep -in 'the' regular_express.txt

4.利用括号 [] 来搜寻集合字符
搜索test或taste这两个单词时，发现他们有共同的't&＃63;st',所以可以这么搜寻

代码如下:

# grep -n 't[ae]st' regular_express.txt

这样其实就是在找t[a]st和t[e]st这两个分开的字符
如果搜索有 oo 的字符时，则可以使用：

代码如下:

# grep -n 'oo' regular_express.txt

如果搜索oo时不想搜到 oo 前面有 g 的话，我们可以利用反向选择[^]来达成:

代码如下:

# grep -n '[^g]oo' regular_express.txt

如果搜索oo前面不想有小写字符，则：

代码如下:

# grep -n '[^a-z]oo' regular_express.txt

注: 大写英文/小写英文/数字可以使用 [a-z]/[A-Z]/[0-9]等方式来书写，也可以写在一起
[a-zA-Z0-9]表示要求字符串是数字以及英文
如果我们要取得有数字的那行,则：

代码如下:

# grep -n '[0-9]' regular_express.txt

注：但考虑到语系对编码顺序的影响，因此除了连续编码使用减号[-]外，也可以用[:lower:]代替a-z 以及 [:digit:] 代替0-9 使用

代码如下:

# grep -n '[^[:lower:]]oo' regular_express.txt

# grep -n '[[:digit:]]' regular_express.txt

5.显示行首为'the'的字符串

代码如下:

# grep -n '^the' regular_express.txt

显示行首是小写字符

代码如下:

# grep -n '^[a-z]' regular_express.txt

6.显示行尾为点 . 的那一行

代码如下:

# grep -n '\.$' regular_express.txt

7.显示5-9行数据

代码如下:

# cat -An regular_express.txt |head -n 10 |tail -n 6

8.显示空白行

代码如下:

# grep -n '^$' regular_express.txt

9.找出g&＃63;&＃63;d字符串，起头g结束d的四个字符串

代码如下:

# grep -n 'g..d' regular_express.txt

10. o*代表空字符(就是有没有字符都可以)或者一个到N个o字符，所以grep -n 'o*' regular_express.txt就会把所有行全部打印出来，
11.oo*代表o+空字符或者一个到N个o字符,所以grep -n 'oo*' regular_express.txt就会把o,oo,ooo等的行全部打印出来
12."goo*g"代表gog,goog,gooog...等

代码如下:

# grep -n 'goo*g' regular_express.txt

13.找出含g...g字符串的行
注: .代表任意字符, .*则就代表空字符或者一个到N个任意字符

代码如下:

# grep -n 'g.*g' regular_express.txt

14.找出含有数字的行

代码如下:

# grep -n '[0-9][0-9]*' regular_express.txt

或# grep -n '[0-9]' regular_express.txt

15.找出含两个o的字符串
注:{}因为在shell里有特殊意义，所以需要加跳脱符\来让其失去意义

代码如下:

# grep -n 'o\{2\}' regular_express.txt

找出g后含2到5个o然后以g结尾的字符串

代码如下:

# grep -n 'go\{2,5\}g' regular_express.txt

找出g后含2以上的o然后以g结尾的字符串

代码如下:

# grep -n 'go\{2,\}g' regular_express.txt

总结：
^word     表示带搜寻的字符串(word)在行首
word$     表示带搜寻的字符串(word)在行尾
.         表示1个任意字符
\         表示转义字符，在特殊字符前加\会将原本的特殊字符意义去除
*         表示重复0到无穷多个前一个RE(正则表达式)字符
[list]    表示搜索含有list的字符串
[n1-n2]   表示搜索指定的字符串范围,例如[0-9] [a-z] [A-Z]等
[^list]   表示反向字符串的范围,例如[0-9]表示非数字字符，[A-Z]表示非大写字符范围
\{n,m\}   表示找出n到m个前一个RE字符
\{n,\}    表示n个以上的前一个RE字符
egrep总结:
+    表示重复一个或一个以上的前一个RE字符
范例:egrep 'go+d' regular_express.txt
表示搜寻(god)(good)(goood)...等等字符串，o+代表[一个以上的o]
&＃63;    表示重复零个或一个的前一个RE字符
范例:egrep 'go&＃63;d' regular_express.txt
表示搜寻(gd)(god)字符串，o&＃63;代表[空的或1个o]
注:egrep下'go+d'和'go&＃63;d'的结果集合就等于grep下的'go*d'
|    表示用或(or)的方式找出数个字符串
范例:egrep 'gd|good|dog' regular_express.txt
表示搜寻(gd)或(god)或(god)字符串，|代表或
()    表示找出群组字符串
范例:egrep 'g(la|oo)d' regular_express.txt
表示搜寻(glad)或(good)字符串
()    +表示找出多个重复群组的判别
范例: echo 'AxyzxyzxyzxyzxyzC'|egrep 'A(xyz)+C'
表示搜寻开头是A结尾是C，中间有一个以上的'xyz'字符串

sed:

插入：

1.将/etc/passwd 的内容列出并打印行号，同时,将2-5行删除显示

代码如下:

# nl /etc/passwd | sed '2,5d'

注: sed是sed -e的简写, 后接单引号
同上删除第2行

代码如下:

# nl /etc/passwd | sed '2d'

同上删除第三行到最后一行

代码如下:

# nl /etc/passwd | sed '3,$d'

2.在第二行后加上一行test

代码如下:

# nl /etc/passwd | sed '2a test'

在第二行前加上一行test

代码如下:

# nl /etc/passwd | sed '2i test'

在第二行后加入两行test

代码如下:

# nl /etc/passwd | sed '2a test \

> test'

替换行:

3.将2-5行内容取代为 No 2-5 number

代码如下:

# nl /etc/passwd | sed '2,5c No 2-5 number'

4 列出/etc/passwd 内第5-7行

代码如下:

# nl /etc/passwd |sed -n '5,7p'

替换字符串:

sed 's/被替换字符串/新字符串/g'

1.获取本机IP的行

代码如下:

# /sbin/ifconfig eth0 |grep 'inet addr'

将IP前面的部分予以删除

代码如下:

# /sbin/ifconfig eth0 |grep 'inet addr'| sed 's/^.*addr://g'

将IP后面的部分删除

代码如下:

# /sbin/ifconfig eth0 |grep 'inet addr'| sed 's/^.*addr://g'| sed 's/Bcast:.*$//g'

-------------------

192.168.100.74

-------------------

2.用grep将关键词MAN所在行取出来

代码如下:

# cat /etc/man.config |grep 'MAN'

删除批注行

代码如下:

# cat /etc/man.config |grep 'MAN'| sed 's/^#.*$//g'

删除空白行

代码如下:

# cat /etc/man.config |grep 'MAN'| sed 's/^#.*$//g'| sed '/^$/d'

3.利用sed将regular_express.txt内每一行若为.的换成!
注：-i参数会直接修改文本，而并非直接输出

代码如下:

# sed -i 's/.*\.$/\!/g' regular_express.txt

4.利用sed在文本最后一行加入 #This is a test
注: $代表最后一行 a代表行后添加

代码如下:

# sed -i '$a #This is a test' regular_express.txt

将selinux配置文件enforcing改成disabled

代码如下:

# sed -i '6,6c SELINUX=disabled' /etc/selinux/config

延伸正规表示法:

代码如下:

# grep -v '^$' regular_express.txt |grep -v '^#'

延伸写法:

代码如下:

# egrep -v '^$'|'^#' regular_express.txt

1. +表示重复一个或一个以上的前一个RE字符

例如：egrep -n 'go+d' regular_express.txt
普通写法: grep -n 'goo*d' regular_express.txt

2. &＃63;表示重复零个或一个前一个RE字符

例如: egrep -n 'go&＃63;d' regular_express.txt

3. |表示用或的方式找出数个字符串

例如: egrep -n 'gd|good' regular_express.txt

4. ()表示找出群组字符串

例如: egrep -n 'g(la|oo)d' regular_express.txt
也就是搜寻(glad)或good这两个字符串

5. ()+多个重复群组判别

例如: echo 'AxyzxyzxyzxyzC'|egrep 'A(xyz)+C'

也就是要找开头是A结尾是C 中间有一个以上的'xyz'字符串的意思

awk:

1.用last取出登陆数据前五行

代码如下:

# last -n 5

取出账号与登陆者IP，且账号与IP之间以TAB隔开

代码如下:

# last -n 5 |awk '{print $1 "\t" $3}'

注:$1代表用空格或TAB隔开的第一个字段，以此类推。。
$0代表该行全部字段

代码如下:

# last -n 5 |awk '{print $1 "\t lines:" NR "\t columes:" NF}'

注: NF代表每一行的$0的字段总数
NR代表目前awk所处的是第几行数据
FS代表目标分隔符，默认为空格

2.在/etc/passwd中以:来作为分段字符，则我们要查阅第三栏小于10以下的数据，并只列出账号与第三栏

代码如下:

# cat /etc/passwd | awk '{FS=":"} $3<10 {print $1 "\t \t"$3}'

注：查询结果未显示第一行数据，是因为我们虽然定义了FS=":" 但却只能在第二行生效
想读取第一行就需要BEGIN这个关键词:

代码如下:

# cat /etc/passwd | awk 'BEGIN {FS=":"} $3<10 {print $1 "\t \t"$3}'

df:
比较两个文件的差异:

代码如下:

# diff /etc/rc3.d/ /etc/rc5.d/

-------------------

Only in /etc/rc3.d/: K30spice-vdagentd

Only in /etc/rc5.d/: S70spice-vdagentd

-------------------

实例：
1。统计TCP连接状态

代码如下:

# netstat -na | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

/^tcp/

过滤出以tcp开头的行，“^”为正则表达式用法，以...开头，这里是过滤出以tcp开头的行。
S[]
定义了一个名叫S的数组，在awk中，数组下标通常从 1 开始，而不是 0。
NF
当前记录里域个数，默认以空格分隔，如上所示的记录，NF域个数等于
$NF
表示一行的最后一个域的值，如上所示的记录，$NF也就是$6，表示第6个字段的值，也就是SYN_RECV或TIME_WAIT等。
S[$NF]
表示数组元素的值，如上所示的记录，就是S[TIME_WAIT]状态的连接数
++S[$NF]
表示把某个数加一，如上所示的记录，就是把S[TIME_WAIT]状态的连接数加一
结果就是显示S数组中最终的数组值
例：S[TIME_WAIT]=最终值 S[TESTABLISHED]=最终值
END
for(key in S)
遍历S[]数组
print key,”\t”,S[key]
打印数组的键和值，中间用\t制表符分割，显示好一些。

PS：关于正则，本站还提供了2款非常简便实用的正则表达式在线工具供大家参考使用：

Javascript正则表达式在线测试工具：http://tools.jb51.net/regex/Javascript

正则表达式在线生成工具：http://tools.jb51.net/regex/create_reg

推荐阅读

command
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
io
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
python
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
list
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
email
解决Cydia数据库错误：could not open file /var/lib/dpkg/status 的方法

本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件，以及ifunbox工具和终端命令，可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中，并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]

蜡笔小新 2023-12-13 19:02:44
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
java
如何通过全新应用内评价获取更多优质用户反馈？

Google Play推出全新的应用内评价API，帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论，这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论，以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论，提升用户体验。 ... [详细]

蜡笔小新 2023-12-13 17:23:03
io
CF：3D City Model（小思维）问题解析和代码实现

本文通过解析CF：3D City Model问题，介绍了问题的背景和要求，并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景，每个网格单元可以作为建筑的基础，建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路，并给出了相应的代码实现供读者参考。 ... [详细]

蜡笔小新 2023-12-13 14:17:11
io
Ubuntu 9.04中安装谷歌Chromium浏览器及使用体验[图文]

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-12-13 13:30:30
command
imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解

本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台，然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程，包括编译内核和配置设备驱动。最后，列举了关键词和相关信息供读者参考。 ... [详细]

蜡笔小新 2023-12-13 12:34:44
sum
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
php
Linux环境变量$PATH的作用及使用方法

本文介绍了Linux环境变量$PATH的作用及使用方法。$PATH是一个由多个目录组成的变量，用冒号分隔。当执行一个指令时，系统会按照$PATH定义的目录顺序搜索同名的可执行文件，如果有多个同名指令，则先找到的会被执行。通过设置$PATH变量，可以在任何地方执行指令，无需输入绝对路径。 ... [详细]

蜡笔小新 2023-12-10 15:26:56
php
PHP组合工具以及开发所需的工具

本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件，包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境，包括推荐的AppServ等版本。 ... [详细]

蜡笔小新 2023-12-09 17:36:44
php
某点评网搜索策略的一些理解

本文介绍了某点评网的搜索策略，包括名称和地址的匹配策略，模糊匹配的方法以及不同口音和拼音的近似发音。同时提供了一些例子来说明这些策略的应用。 ... [详细]

蜡笔小新 2023-12-09 08:18:18

dvs5453401

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章