正则表达式

普通字符
普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

一、非打印字符
非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列：
字符    描述
\cx    匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c‘ 字符。
\f          匹配一个换页符。等价于 \x0c 和 \cL。
\n        匹配一个换行符。等价于 \x0a 和 \cJ。
\r        匹配一个回车符。等价于 \x0d 和 \cM。
\s        匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S        匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t          匹配一个制表符。等价于 \x09 和 \cI。
\v        匹配一个垂直制表符。等价于 \x0b 和 \cK。

二、特殊字符
所谓特殊字符，就是一些有特殊含义的字符
特别字符    描述
\        转义字符。
^        匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。
$        匹配输入字符串的结尾位置。

?        匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。# ? 等价于 {0,1}。
*        匹配前面的子表达式零次或多次。# * 等价于{0,}。
+        匹配前面的子表达式一次或多次。# + 等价于 {1,}。

.        匹配除换行符 \n 之外的任何单字符。

[ ]       匹配中括号内所有字符
( )    标记一个子表达式的开始和结束位置。
{ }       标记限定符表达式的开始。

|        指明两项之间的一个选择。

三、限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。
字符    描述
?       匹配前面的子表达式零次或一次。? 等价于 {0,1}。
*       匹配前面的子表达式零次或多次。* 等价于{0,}。 # *、+限定符都是贪婪的，因为它们会尽可能多的匹配文字。
+        匹配前面的子表达式一次或多次。+ 等价于 {1,}。 # *、+限定符都是贪婪的，因为它们会尽可能多的匹配文字。
{n}    n 是一个非负整数。匹配确定的 n 次。
{n,}   n 是一个非负整数。至少匹配n 次。
{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。

四、定位符
定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式，这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。
定位符用来描述字符串或单词的边界，^ 和 $ 分别指字符串的开始与结束，\b 描述单词的前或后边界，\B 表示非单词边界。

字符    描述
^    匹配输入字符串开始的位置。
$    匹配输入字符串结尾的位置。
\b    字边界匹配。（例如：”er\b”可以匹配”never”中的”er”,但是不能匹配”verb”中的”er”）
\B    非字边界匹配。（例如：”er\b”可以匹配”verb”中的”er”,但是不能匹配”never”中的”er”）

五、其他
“\w” （小写w）表示字母或数字，等价于[a-zA-Z0-9]。
“\W” （大写W）表示非字母且非数字，与\w相反，等价于[^a-zA-Z0-9]。

“\d” （小写d）表示十进制数字，等价于[0-9]。
“\D” （大写D）匹配一个非数字字符，等价于[^0-9] 。

相关推荐