正则表达式和字符串处理
- 格式:doc
- 大小:185.50 KB
- 文档页数:16
java 正则匹配字符串处理完后再放回原位置
摘要:
1.Java 正则表达式的概述
2.正则表达式的匹配操作
3.处理匹配到的字符串
4.将处理后的字符串放回原位置
正文:
一、Java 正则表达式的概述
正则表达式(Regular Expression,简称regex)是一种用于处理字符串的强大工具,它可以用来检查字符串是否符合某种模式、提取字符串中的特定部分等。
Java 作为一种广泛应用的编程语言,也提供了对正则表达式的支持。
二、正则表达式的匹配操作
在Java 中,我们可以使用`Pattern`和`Matcher`类来进行正则表达式的匹配操作。
首先,我们需要创建一个`Pattern`对象,然后使用这个对象来编译正则表达式。
接下来,我们可以使用编译后的`Pattern`对象来创建一个`Matcher`对象,这个对象可以帮助我们在原始字符串中查找匹配到的部分。
三、处理匹配到的字符串
当我们使用`Matcher`对象找到匹配到的字符串后,可以对其进行各种处理。
例如,我们可以将匹配到的字符串替换为新的内容,或者将匹配到的字符串提取出来,以便在其他地方使用。
四、将处理后的字符串放回原位置
在处理完匹配到的字符串后,我们需要将处理后的字符串放回原位置。
这可以通过多种方法实现,例如使用`StringBuilder`将处理后的字符串拼接回去,或者使用`String.replace()`方法将处理后的字符串替换回原字符串。
总结:通过使用Java 的正则表达式功能,我们可以方便地处理字符串,并在处理完后将结果放回原位置。
regexp正则表达式(原创版)目录1.正则表达式的概念和作用2.正则表达式的基本语法3.正则表达式的应用场景4.正则表达式的优缺点正文正则表达式(Regular Expression,简称 regexp)是一种用于处理字符串的强大工具,它可以用来检查字符串是否符合某种模式、提取字符串中的特定信息等。
正则表达式广泛应用于计算机科学和编程领域,例如文本编辑器、搜索引擎、数据验证等。
正则表达式的基本语法包括以下几种元素:1.字面字符:例如 abc、123 等,它们直接表示字符本身。
2.元字符:例如.(匹配任意字符)、*(匹配零个或多个前面的字符)、+(匹配一个或多个前面的字符)等,它们用来表示字符的匹配方式。
3.字符类:例如 [a-zA-Z](匹配所有英文字母)、[0-9](匹配所有数字)等,用来匹配特定类别的字符。
4.边界匹配符:例如^(表示字符串的开头)、$(表示字符串的结尾)等,用来指定匹配的位置。
5.分组和捕获:使用圆括号表示一个分组,可以对分组进行命名捕获,以满足特定需求。
正则表达式的应用场景包括但不限于:1.数据验证:检查用户输入的数据是否符合某种格式要求,例如邮箱地址、手机号码等。
2.文本处理:对文本进行搜索、替换、分割等操作,例如在网页中提取所有链接、去除文本中的空格等。
3.数据分析:对大量数据进行筛选、统计等操作,例如分析日志文件、提取表格数据等。
正则表达式的优点主要体现在其简洁、灵活和强大的表达能力上,它可以用来处理各种复杂的字符串问题。
然而,正则表达式也存在一定的缺点,例如语法较为复杂、不易理解和维护等。
对于初学者来说,需要花费一定时间和精力来学习和掌握正则表达式。
总之,正则表达式是一种重要的计算机技术,它在各个领域都发挥着重要作用。
Shell脚本编写的高级技巧使用正则表达式进行字符串匹配和替换Shell脚本编写的高级技巧:使用正则表达式进行字符串匹配和替换在Shell脚本编写过程中,我们经常需要对字符串进行处理。
而正则表达式是一种强大的工具,能够在字符串中进行模式匹配和替换操作。
本文将介绍如何使用正则表达式进行字符串匹配和替换的高级技巧。
一、基本概念正则表达式是一种用来描述字符模式的工具,它由一系列字符和特殊字符组成。
在Shell脚本中,我们可以使用正则表达式来检测字符串是否符合某种模式、提取符合模式的部分字符串、替换字符串中的某些内容等操作。
在正则表达式中,一些常用的特殊字符有:1. ^:匹配字符串的开头位置。
2. $:匹配字符串的末尾位置。
3. .:匹配任意单个字符。
4. *:匹配前面的字符零次或多次。
5. +:匹配前面的字符一次或多次。
6. ?:匹配前面的字符零次或一次。
7. []:匹配方括号中的任意一个字符。
8. [a-z]:匹配任意一个小写字母。
9. [A-Z]:匹配任意一个大写字母。
10. [0-9]:匹配任意一个数字。
11. \:转义字符,用来匹配特殊字符本身。
二、基本用法1. 字符串匹配在Shell脚本中,我们可以使用正则表达式来判断一个字符串是否匹配某种模式。
使用“=~”操作符可以进行匹配,例如:```shellif [[ $str =~ pattern ]]; thenecho "Matched"elseecho "Not matched"fi```其中,$str为待匹配的字符串,pattern为正则表达式模式。
如果$str 匹配上了该模式,则输出"Matched";否则输出"Not matched"。
2. 字符串提取使用正则表达式可以从一个字符串中提取符合模式的部分字符串。
在Shell脚本中,我们可以使用“=~”操作符配合正则表达式的()来进行提取,例如:```shellif [[ $str =~ pattern ]]; thenresult="${BASH_REMATCH[1]}"echo "Extracted string: $result"elseecho "No match"fi```其中,$str为待提取的字符串,pattern为正则表达式模式。
使用正则表达式进行字符串匹配和替换正则表达式是一种强大的工具,用于在字符串中进行匹配、查找和替换操作。
它通过定义一个模式来描述我们希望匹配的字符串的特征,然后再用这个模式去搜索和替换目标字符串。
在Python中,我们可以使用re模块来处理正则表达式操作。
下面将介绍一些常用的正则表达式匹配和替换操作。
1.匹配字符串中的数字:在正则表达式中,可以使用\d表示任意一个数字。
如果希望匹配多个数字,可以使用\d+表示多个数字。
例如,假设我们有一个字符串"abc123def456",希望匹配其中的数字部分,可以使用以下代码:```pythonimport restring = "abc123def456"pattern = "\d+"result = re.findall(pattern, string)print(result)```输出结果为['123', '456']。
2.匹配字符串中的字母:在正则表达式中,可以使用\w表示任意一个字母或数字(包括下划线)。
如果只希望匹配字母,可以使用[a-zA-Z]表示。
例如,假设我们有一个字符串"abc123def456",希望匹配其中的字母部分,可以使用以下代码:```pythonimport restring = "abc123def456"pattern = "[a-zA-Z]+"result = re.findall(pattern, string)```输出结果为['abc', 'def']。
3.匹配字符串中的特定字符:在正则表达式中,可以使用[]表示一个字符集合,可以匹配集合中的任意一个字符。
例如,[abc]匹配"a"、"b"或"c"。
(个人收集学习笔记)4字符串处理与正则表达式第四章字符串处理与正则表达式一、字符串处理介绍1、如果字符串处理函数和正则表达式都可以实现字符串操作,建议使用字符串处理函数,因为效率高。
2、因为PHP 是弱类型语言,所以其他类型的数据一般都可以直接应用于字符串操作函数里,而自动转换成字符串类型进行处理。
3、还可以将字符串视为数组,或当作字符集合来看待。
$str[0]$str{0}二、常用的字符串输出函数1、echo()函数:使用它的效率要比其他字符串输出函数高。
2、print()函数:功能和echo()一样,但它有返回值,成功返回1,不成功返回0。
3、die()函数:exit()函数的别名。
1)参数如果是字符串,则该函数会在退出前输出它。
2)如果参数是一个整数,这个值会被用做退出状态。
值在0-254之间,退出状态255由PHP 保留,不会使用。
状态0用于成功终止程序。
4、printf():用于输出格式化字符串。
1)例子:printf(“%s age is $d”,$str,$num);2)%d :带符号十进制数%u :无符号十进制数%f :浮点数%s :字符串%b :二进制数%c :依照ASCII 值的字符%%:返回百分比符号%o :八进制数%x :十六进制数(小写字母)%X :十六进制数(大写字母)3)如果%符号多于arg 参数,则必须使用占位符。
占位符被插入到%符号之后,由数字和\$组成。
如:printf(“The %2\$s book contains %1\$d pages.That’s a nice %2\$s full of %1\$d pages”,$num,$str);%2\$s 代表$str 。
5、sprintf()函数:用法和printf()一样,但它不是输出字符串,而是把格式化的字符串以返回值的形式写入到一个变量中。
三、常用的字符串格式化函数字符串的格式化就是将字符串处理为某种特定的格式。
实⽤正则表达式匹配和替换⼤全正则表达式⾮常有⽤,查找、匹配、处理字符串、替换和转换字符串,输⼊输出等。
⽽且各种语⾔都⽀持,例如.NET正则库,JDK正则包, Perl, JavaScript等各种脚本语⾔都⽀持正则表达式。
下⾯整理⼀些常⽤的正则表达式。
字符描述\将下⼀个字符标记为⼀个特殊字符、或⼀个原义字符、或⼀个向后引⽤、或⼀个⼋进制转义符。
例如,'n' 匹配字符 "n"。
'\n' 匹配⼀个换⾏符。
序列 '\\' 匹配 "\" ⽽ "\(" 则匹配 "("。
^匹配输⼊字符串的开始位置。
如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。
$匹配输⼊字符串的结束位置。
如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\n' 或 '\r' 之前的位置。
*匹配前⾯的⼦表达式零次或多次。
例如,zo* 能匹配 "z" 以及 "zoo"。
*等价于{0,}。
+匹配前⾯的⼦表达式⼀次或多次。
例如,'zo+' 能匹配 "zo" 以及"zoo",但不能匹配 "z"。
+ 等价于 {1,}。
匹配前⾯的⼦表达式零次或⼀次。
例如,"do(es)?" 可以匹配 "do" 或"does" 中的"do" 。
? 等价于 {0,1}。
{n}n是⼀个⾮负整数。
匹配确定的n次。
例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
正则表达式(Regular Expression,简称Regex)是一种强大的文本处理工具,它可以用来匹配、查找和提取特定模式的字符串。
在我们的日常工作中,经常会遇到需要提取固定字符串之间的内容的需求,而利用正则表达式可以轻松实现这一目标。
本文将深入探讨如何利用正则表达式提取固定字符串之间的内容,并共享一些实用的技巧和经验。
1. 简介在开始深入探讨如何利用正则表达式提取固定字符串之间的内容之前,让我们首先了解一下正则表达式的基本概念。
正则表达式是一种由晦涩难懂的符号和字符组成的表达式,用来描述字符串的特征。
比如我们可以用`[0-9]`来表示任意一个数字,用`[a-zA-Z]`来表示任意一个字母等等。
通过组合这些表达式,我们可以创建出满足特定模式的正则表达式。
2. 提取固定字符串之间的内容现在让我们来看一个具体的例子,假设我们有一个文本字符串,其中包含了一些固定格式的内容,而我们需要提取这些固定字符串之间的内容。
比如我们有如下的文本:```"Start: Hello World End"```如果我们需要提取"Start"和"End"之间的内容,即"Hello World",我们可以利用如下的正则表达式来实现:```Start: (.*?) End```在上面的正则表达式中,括号内的`.*?`表示匹配任意字符,而`?`表示非贪婪匹配,即尽量少地匹配字符。
这样一来,我们就可以成功地提取出"Start"和"End"之间的内容了。
3. 实用技巧和经验在实际使用正则表达式提取固定字符串之间的内容时,还有一些实用的技巧和经验需要我们注意。
我们需要注意非贪婪匹配的使用,以避免匹配到过多的内容。
我们可以通过预先编译正则表达式来提高匹配效率。
在处理大量文本时,我们还可以考虑使用多线程来并发匹配,以提高整体的处理速度。
正则表达式是一种强大的文本处理工具,通过定义匹配模式、字符集合和重复次数等规则,可以方便地实现对指定字符串的截取和提取。
在本文中,我将深入探讨正则表达式在截取指定字符串之间内容时的应用和实践。
1. 正则表达式的基本概念在介绍正则表达式如何截取指定字符串之间的内容之前,首先需要了解正则表达式的基本概念。
正则表达式是由普通字符(例如字母、数字、特殊符号)和元字符(例如"."、"*"、"[]"等)组成的表达式,用于定义匹配模式。
通过合理地组合这些字符和元字符,可以实现对文本中特定模式的匹配和提取。
2. 正则表达式截取指定字符串之间的内容当需要截取指定字符串之间的内容时,正则表达式可以为我们提供便利。
如果我们要从一段HTML代码中提取<a>标签内的信息位置区域,可以使用如下的正则表达式:```html/<a[^>]+href="([^"]+)"[^>]*>/```这个正则表达式可以匹配包含href属性的<a>标签,并提取其中的信息位置区域。
通过在正则表达式中使用括号来定义捕获组,我们可以方便地获取指定字符串之间的内容。
3. 正则表达式的深入应用除了简单的字符串截取,正则表达式还可以实现更复杂的内容提取。
当需要从一段文本中提取所有符合某种模式的通信方式号码时,可以使用如下的正则表达式:```javascript/(\d{3}-\d{8}|\d{4}-\d{7})/```这个正则表达式可以匹配常见的通信方式号码格式,并提取文本中所有符合该格式的通信方式号码。
通过在正则表达式中使用"|"(或)操作符,我们可以实现多种模式的匹配和提取。
4. 总结与回顾正则表达式在截取指定字符串之间的内容时,具有灵活、强大的特点。
通过合理地构建匹配模式和捕获组,我们可以实现对文本中任意内容的提取。
c语言中的正则表达式C语言中的正则表达式正则表达式是一种强大的模式匹配工具,常用于字符串的匹配、查找和替换。
在C语言中,我们可以使用正则表达式库来实现对字符串的高效处理。
本文将介绍C语言中的正则表达式的基本语法和用法,并通过示例代码展示其在实际应用中的作用。
一、正则表达式的基本语法C语言中的正则表达式使用的是POSIX标准的正则表达式语法。
下面是一些常用的正则表达式元字符和操作符:1. 字符类- []:匹配方括号中的任意一个字符,例如[abc]可以匹配字符a、b或c。
- [^]:匹配除方括号中的字符以外的任意一个字符,例如[^abc]可以匹配除了a、b和c以外的任意字符。
- -:表示字符范围,例如[a-z]表示匹配任意小写字母。
2. 重复次数- *:匹配前面的表达式零次或多次。
- +:匹配前面的表达式一次或多次。
- ?:匹配前面的表达式零次或一次。
- {n}:匹配前面的表达式恰好n次。
- {n,}:匹配前面的表达式至少n次。
- {n,m}:匹配前面的表达式至少n次但不超过m次。
3. 特殊字符- .:匹配任意一个字符。
- \:转义字符,用于匹配特殊字符本身,例如\.匹配点字符。
- ^:匹配行的开始位置。
- $:匹配行的结束位置。
二、C语言中的正则表达式库在C语言中,我们可以使用正则表达式库来实现对字符串的匹配、查找和替换。
常用的正则表达式库有POSIX标准库和PCRE库。
1. POSIX标准库POSIX标准库提供了一系列函数来处理正则表达式,包括编译正则表达式、执行匹配和释放资源等。
常用的函数有:- regcomp:编译正则表达式。
- regexec:执行正则表达式匹配。
- regfree:释放已编译的正则表达式。
下面是一个使用POSIX标准库的示例代码:```c#include <regex.h>#include <stdio.h>int main() {regex_t regex;int ret;// 编译正则表达式ret = regcomp(®ex, "a.*b", REG_EXTENDED); if (ret != 0) {printf("正则表达式编译失败\n");return -1;}// 执行匹配ret = regexec(®ex, "abc", 0, NULL, 0);if (ret == 0) {printf("匹配成功\n");} else if (ret == REG_NOMATCH) {printf("未匹配到结果\n");} else {printf("匹配失败\n");}// 释放资源regfree(®ex);return 0;}```2. PCRE库PCRE库是Perl Compatible Regular Expressions的缩写,是一个功能强大的正则表达式库,提供了更多的特性和功能。
C++中的字符串操作与正则表达式1. 概述C++作为一种广泛应用的编程语言,其字符串处理和正则表达式应用一直备受关注。
字符串是程序中常用的数据类型之一,而正则表达式则是用于进行复杂的模式匹配和文本搜索的工具。
本文将就C++中的字符串操作和正则表达式应用进行深入探讨,旨在帮助读者更好地理解和运用这两项重要的技术。
2. C++中的字符串操作字符串是由字符组成的序列,在C++中可以用char数组或者string类来表示和操作。
在处理字符串时,经常需要进行拼接、比较、查找、截取等操作。
C++提供了丰富的字符串操作函数和方法,如下所示:- 字符串拼接:使用"+"运算符或者append()方法可以将两个字符串拼接起来。
- 字符串比较:可以使用"=="、"!="等运算符进行字符串的比较,也可以使pare()方法对字符串进行比较。
- 字符串查找:可以使用find()方法或者find_first_of()、find_last_of()等方法来查找字符串中的子串或者字符。
- 字符串截取:使用substr()方法可以实现对字符串的截取操作。
3. C++中的空白字符空白字符是指在文本中不可见的字符,如空格、制表符、换行符等。
在C++中,空白字符的处理往往涉及到字符串的格式化和解析。
以下是一些常见的空白字符处理场景:- 去除空白字符:可以使用erase()方法结合remove_if()函数来去除字符串中的空白字符。
- 拆分字符串:可以使用stringstream类来将包含空白字符的字符串按空白字符进行拆分。
- 去除首尾空白字符:可以使用erase()方法结合find_first_not_of()和find_last_not_of()方法来去除字符串首尾的空白字符。
4. C++中的正则表达式正则表达式是一种用于描述字符串模式的工具,可以实现对文本的复杂模式匹配和搜索。
正则表达式和字符串处理第一章正则表达式概述正则表达式(Regular Expression)起源于人类神经系统的研究。
正则表达式的定义有以下几种:●用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。
●描述了一种字符串匹配的模式。
可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。
●由普通字符(a-z)以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。
●用于描述某些规则的的工具。
这些规则经常用于处理字符串中的查找或替换字符串。
也就是说正则表达式就是记录文本规则的代码。
●用一个字符串来描述一个特征,然后去验证另一个字符串是否符合这个特征。
以上这些定义其实也就是正则表达式的作用。
第二章正则表达式基础理论这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论:●元字符●字符串●字符转义●反义●限定符●替换●分组●反向引用●零宽度断言●匹配选项●注释●优先级顺序●递归匹配2.1 元字符在正则表达式中,元字符(Metacharacter)是一类非常特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、 \w等。
根据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符。
2.1.1 匹配位置的元字符包括:^、$、和\b。
其中^(脱字符号)和$(美元符号)都匹配一个位置,分别匹配行的开始和结尾。
比如,^string匹配以string开头的行,string$匹配以string结尾的行。
^string$匹配以string开始和结尾的行。
单个$匹配一个空行。
单个^匹配任意行。
\b匹配单词的开始和结尾,如:\bstr匹配以str开始的单词,但\b不匹配空格、标点符号或换行符号,所以,\bstr可以匹配string、string fomat等单词。
\bstr正则表达式匹配的字符串必须以str开头,并且str以前是单词的分界处,但此正则表达式不能限定str之后的字符串形式。
以下正则表达式匹配以ing结尾的字符串,如string、This is a string等Ing\b正则表达式ing\b匹配的字符串必须以ing结尾,并且ing后是分界符,以下正则表达式匹配一个完整的单词:\bstring\b。
2.1.2匹配字符的元字符匹配字符的元字符有7个:.(点号)、\w、\W、、s\、\S、\d和\D。
其中点号匹配除换行之外的任意字符;\w匹配单词字符(包括字母、汉字、下划线和数字);\W匹配任意非单词字符、\s匹配任意的空白字符,如空格、制表符、换行等;\S匹配任意的非空白字符;\d匹配任意数字字符;\D匹配任意的非数字字符。
如:^.$匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。
^\w$匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。
\ba\w\w\w\w\w\w\\b匹配以字母a开头长度等于7的任意单词\ba\w\w\w\d\d\d\D\b匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词2.2字符类字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。
字符类可以在[](方括号)中定义。
如:[012345]可以匹配数字0到5中的任意一个。
<H[123456]>可以匹配HTML标签中的H1到H6。
[Jj]ack可以匹配字符串Jack或jack。
但是,由于表达式[0123456789]书写非常不方便,连字符(-)便应用而生,[0-9]等价于[0123456789]。
[a-z]匹配任何小写字母,[A-Z]匹配任意大写字母。
如果要在字符类中包含连字符,则必须包含在第一位,如:[-a]表示表达式匹配-或者a。
在字符类中如果^是字符类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:[^abc]匹配除了abc以外的任意字符,[^-]匹配除了连字符以外的任意字符,a[^b]匹配a之后不是b的字符串。
表2-1 常用的字符类字符或表达式说明\w 匹配单词字符(包括字母、数字、下划线和汉字)\W 匹配任意的非单词字符(包括字母、数字、下划线和汉字) \s 匹配任意的空白字符,如空格、制表符、换行符、中文全角空格等\S 匹配任意的非空白字符\d 匹配任意数字\D 匹配任意的非数字字符[abc] 匹配字符集中的任何字符[^abc] 匹配除了字符集中包含字符的任意字符[0-9a-z_A-Z_] 匹配任何数字、字母、下划线。
等同于\w\p{name} 匹配{name}指定的命名字符类中的任何字符\P{name} 匹配除了{name}指定的命名字符类中之外的任何字符.匹配除了换行符号之外的任意字符[^0-9a-zA-Z_] 等同于\W2.3字符转义表2-2:常用的转义字符表达式可匹配\r, \n代表回车和换行符\t制表符\\代表 "\" 本身还有其他一些在后边章节中有特殊用处的标点符号,在前面加 "\" 后,就代表该符号本身。
比如:^, $ 都有特殊意义,如果要想匹配字符串中 "^" 和 "$" 字符,则表达式就需要写成 "\^" 和 "\$"。
可匹配匹配 ^ 符号本身匹配 $ 符号本身匹配小数点(.)本身2.4反义在使用正则表达式时,如果需要匹配不在字符类指定的范围内的字符时,可以使用反义规则。
其实我们已经使用过反义表达式,如\W、\S、\D、[^abc]等。
常用的反义表如下:表2-3:常用的反义表达式字符或表达式说明\W匹配任意不是字母,数字,下划线,汉字的字符\S匹配任意不是空白符的字符\D匹配任意非数字的字符\B匹配不是单词开头或结束的位置[^x]匹配除了x以外的任意字符[^aeiou]匹配除了aeiou这几个字母以外的任意字符2.4限定符正则表达式的元字符一次只能匹配一个位置或一个字符,如果需要匹配零个一个或多个字符时,则需要使用限定符。
限定符用于指定允许特定字符或字符集自身重复出现的次数。
如{n}表示出现n次;{n,}表示重复至少n次;{n,m}表示至少出现n次最多m次。
常用限定符如下表:表2-4:常用限定符字符描述*匹配前面的子表达式零次或多次。
例如,zo* 能匹配 "z" 以及"zoo"。
* 等价于{0,}。
+匹配前面的子表达式一次或多次。
例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。
+ 等价于 {1,}。
?匹配前面的子表达式零次或一次。
例如,"do(es)?" 可以匹配"do" 或 "does" 中的"do" 。
? 等价于 {0,1}。
{n}n是一个非负整数。
匹配确定的n次。
例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,}n是一个非负整数。
至少匹配n次。
例如,'o{2,}' 不能匹配"Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。
'o{1,}' 等价于 'o+'。
'o{0,}' 则等价于 'o*'。
{n,m}m和n均为非负整数,其中n<= m。
最少匹配n次且最多匹配m次。
刘, "o{1,3}" 将匹配 "fooooood" 中的前三个 o。
'o{0,1}' 等价于 'o?'。
请注意在逗号和两个数之间不能有空格。
*?尽可能少的使用重复的第一个匹配+?尽可能少的使用重复但至少使用一次??如果有可能使用零次重复或一次重复。
{n}?等同于{n}{n,}?尽可能少的使用重复但至少重复n次{n,m}?介于n次和m次之间,尽可能少的使用重复。
2.5贪婪、惰性和支配性匹配惰性匹配:先看字符串中的第一个字母是不是一个匹配,如果单独一个字符还不够就读入下一个字符,如果还没有发现匹配,就不断地从后续字符中读取,只道发现一个合适的匹配,然后开始下一次的匹配。
贪婪匹配:先看整个字符串是不是一个匹配,如果没有发现匹配,它去掉字符串中最后一个字符并再次尝试,如果还没有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。
支配性匹配:只尝试匹配整个字符串,如果整个字符串不能产生一个匹配,则不再进行尝试。
我们普通的字符类均是贪婪匹配,如果在字符类后加个问号(?)则表示懒惰匹配,要成为支配性匹配则在懒惰匹配后加个问号(?).2.6替换正则表达式0\d{2}-\d{8}和0\d{3}-\d{7}分别匹配区号为3位和4位的固定电话号码,如果需要同时匹配区号为3位和4位的固定电话号码,可以使用替换满足这一需求。
最简单的替换是使用竖线(|)表示。
以下表达式匹配了区号为3位号码为8位和区号为4位号码为7位的的电话号码,区号和号码均使用-连接,0\d{2}-\d{8}|0\d{3}-\d{7}表2-5 常用替换字符或表达式说明| 匹配竖线(|)左侧或右侧(?(表达式)yes|no) 表达式要么与yes部分匹配要么与no部分匹配,其中no部分可以省略。
(?(name)yes|no)以name命名的字符串要么与yas部分匹配,要么与no部分pp,其中no部分可以省略2.7分组分组又称为子表达式,即把一个正则表达式的全部或部分分成一个或多个组。
其中分组使用圆括号(),分组后把圆括号中的表达式看做一个整体来处理,比如:(abc){1,2}表示abc出现一次或两次的字符串,其中把abc看做一个整体来进行匹配。
2.8后向引用当一个正则表达式被分组后,每一个组将自动被赋予一个组号,该组号可以代表该组的表达式。
其中,组号的编制规则为:从左到右,以分组的左括号为标志,第一个组号为1,第二个分组号为2,以此类推。
如:(A?(B?(C?)))将产生3个组号,第一组为:(A?(B?(C?)));第二组为: (B?(C?));第三组为:(C?)。
反向引用提供了查找重复字符组的方便方法,反向引用可以使用数字命名(默认名称)的组号,也可以使用指定命名的组号。
比如:\b(\w)\1\b匹配两个字符一样的单词,此表达式和\b(\w)\w\b不一样,后者两个字符可以不一样。