热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

语音与语言处理——正则表达式

正则表达式:时描述文本中的符号串的一个简单类别的公式。符号串可以使任意的字母、数字、空白、表、标点符号的组合。正则表达式的搜索需要一个试图搜索的模式以及一个待搜索的文

正则表达式:时描述文本中的符号串的一个简单类别的公式。符号串可以使任意的字母、数字、空白、表、标点符号的组合。

正则表达式的搜索需要一个试图搜索的模式以及一个待搜索的文本语料库。以下假定待搜索语料库是一个词处理系统,搜索返回结果是文档中的一行。

1.用形如/...../的形式表示一个正则表达式;

2.区分大小写;

3.用方括号表示所匹配的字符是析取的,即只表示其中的一个一个:如,/[abc]/表示a或b或c;

4.使用连字符“-”表示范围:如,/[a-z]/表示小写字母中的任意一个;

5.使用脱字符“^”,方括号可以用来表示不单独出现某个字符。注意:只有当^出现在 [ 后面第一个位置才被当做否定使用,否则仅仅表示 ^ 本身。如,[^a-z]表示不是小写字母;

6.使用?表示前面一个字符有或者无:如,/woodchucks?/表示woodchuck或者woodchucks;

7.Kleene *(cleany star)表示直接前面的 正则表达式 连续出现零次或多次:如,/[ab]*/表示零个或者多少个a或b,不是表示零个或多个右括号;

8.kleene+表示直接前面的 正则表达式 连续出现零次或多次:

9.通配符 . ,:表示与任何 单个 字符(回车符除外)相匹配的字符,如:/beg.n/可以表示beg'n或者begin或者begun;

10.锚号是一种把正则表达式锚在字符串中某一个位置的特殊符号,最普通的锚号包括,脱字符“^”、美元符号“$”:^放在正则表达式的首位,表示出现在一行的开始;^放在方括号内部首位表示不出现某个单独字符;^其他情况表示字符本身;

$表示一行是以什么结尾的,比如,/\.$/表示以 . 结尾的一行。其中必须使用转义字符\表示.而不是当做通配符。又如:/^The dog\.$/表示一行中只有"The dog.";

另,"\b"表示词界,"\B"表示非词界;

11.析取符 "|",表示或,只能取其中一个。如,/dog|cat/表示符号串是dog或者cat。注意,/twelve|nty/不能表示12或者20,因为符号序列优先级高于|,因此只能得到twelve或者nty;

12.圆括号运算符"("和")",将一个模式放入圆括号中使得该模式就像一个单独的字符来使用,而且在其中可以使用|和Kleene*等运算符,如:/twe(lve|nty)/表示twelve或者twenty;又如:/(Wow)*/表示Wow出现零次或者多次;

13.计数符{ },/{m,n}/表示前面的字符或表达式出现m到n次 ;/{m}/表示前面的字符或表达式出现m; /{m,}/表示前面的字符或表达式至少出现m次;

14.换行符\:用来引用某些特殊字符。

注意:算符具有优先次序,
  圆括号              ( )

  计数符              * + ? { }

  序列与锚号       ^The dog\.$

  析取符              |

 

转:https://www.cnblogs.com/weilen/p/9258082.html



推荐阅读
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • Lodop中特殊符号打印设计和预览样式不同的问题解析
    本文主要解析了在Lodop中使用特殊符号打印设计和预览样式不同的问题。由于调用的本机ie引擎版本可能不同,导致在不同浏览器下样式解析不同。同时,未指定文字字体和样式设置也会导致打印设计和预览的差异。文章提出了通过指定具体字体和样式来解决问题的方法,并强调了以打印预览和虚拟打印机测试为准。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版
    VNCViewerforMac是一款运行在Mac平台上的远程桌面工具,vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机,操作简 ... [详细]
  • 原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中,有两种配置文件,一种 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文介绍了使用postman进行接口测试的方法,以测试用户管理模块为例。首先需要下载并安装postman,然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时,可以进行异常测试,包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]
  • javascript  – 概述在Firefox上无法正常工作
    我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观:而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
author-avatar
幽咽小香
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有