正则表达式语法
一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
下表是元字符及其在正则表达式上下文中的行为的一个完整参考列表:
字符 | 描述 |
---|---|
\ | 转义字符,在之前,我们在字符串也用过这字符,即一些字符具有特殊含义,对其进行转义使它成为普通字符,而用在普通字符上又表示其有特殊含义 |
^ | 匹配输入字符串的开始位置,如果设置了匹配多行(m),那么也匹配行的开头 |
$ | 匹配输入字符串的结束位置。如果设置了匹配多行(m),那么也匹配行的结束 |
* | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。刘, "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
? | 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。 |
. | 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。 |
(pattern) | 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,使用 $0…$9 属性。要匹配圆括号字符,请使用 '\(' 或 '\)'。 |
(?:pattern) | 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。 |
(?=pattern) | 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如, 'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?!pattern) | 负向预查,在任何不匹配pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 |
x|y | 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。 |
[xyz] | 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。 |
[^xyz] | 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。 |
[a-z] | 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。 |
[^a-z] | 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 |
\B | 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。 |
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
\d | 匹配一个数字字符。等价于 [0-9]。 |
\D | 匹配一个非数字字符。等价于 [^0-9]。 |
\f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
\r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [?\f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于 [^?\f\n\r\t\v]。 |
\t | 匹配一个制表符。等价于 \x09 和 \cI。 |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
\w | 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。 |
\W | 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。 |
\xn | 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如, '\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。. |
\num | 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。 |
\n | 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为后向引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。 |
\nm | 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式,则 nm 为后向引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足,若? n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。 |
\nml | 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。 |
\un | 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。 |
创建正则表达式
var re1=new RegExp("a"); var re2=/\d{2}/; alert(re1.test("a"));//true alert(re2.test("wa12le"));//true
RegExp构造函数第一个参数为正则表达式的文本内容,而第一个参数则为可选项标志.标志可以组合使用
g (全文查找)
i (忽略大小写)
m (多行查找)
var re1=new RegExp("a","i");
和正则表达式相关的方法和属性
正则表达式对象的方法
- test,返回一个 Boolean 值,它指出在被查找的字符串中是否存在模式。如果存在则返回 true,否则就返回 false。
- exec,用正则表达式模式在字符串中运行查找,并返回包含该查找结果的一个数组。
- compile,把正则表达式编译为内部格式,从而执行得更快。//这个目前很少用,谷歌浏览器支持有问题
测试正则表达式的具体用法:
上面的test方法仅仅知道了字符串是否匹配模式,如果我们需要知道哪些字符匹配了模式怎么办?
exec返回的数组第1到n元素中包含的是匹配中出现的任意一个子匹配
1 var version="XunLei.China 2012"; 2 var re=/^[a-z]+\.+[a-z]+\s+\d+$/i; 3 alert(re.test(version));//true 匹配成功 4 //问题是怎么知道版本号的信息,使用exec 5 alert(re.exec(version));//由于此时没有捕获值所以直接返回XunLei.China 2012 6 //这样我们只需要给版本号加个()用于保存捕获 7 var re1=/^[a-z]+\.+[a-z]+\s+(\d+)$/i; 8 var verArr=re1.exec(version); 9 alert(verArr[0]);//全部信息 10 alert(verArr[1]);//版本号 11 //简单的方法是重新定义一个正则式直接获取数字部分 12 var re2=/\d+/; 13 alert(re2.exec(version));//返回2012
此外:当字符串不匹配re时,exec方法将返回null。
String对象一些和正则表达式相关的方法
match,找到一个或多个正则表达式的匹配。
replace,替换与正则表达式匹配的子串。
search,检索与正则表达式相匹配的值。
split,把字符串分割为字符串数组。
1 var str="Hello Rohelm!"; 2 alert(str.replace("Rohelm","everyone"));//返回Hello everyone. 3 //上面使我们平时用的方法,当然我们可以联想到C#中正则类的字符串操作方法 4 //replace的第一个参数可以为正则表达式 5 var re=/\s+/;//空白字符 6 //在不知道字符串中有多少空白字符时,正则表达式极为方便 7 alert(str.replace(re,"^_×")); 8 var str = "2012-12-25"; 9 var arr = str.split("-");//返回["2012","12","25"] 10 alert(arr[0]+"年"+arr[1]+"月"+arr[2]+"日"); 11 //我们可以这样获取时间,但是用户可能任意的输入例如2012 2 21或者2012 —2 21 12 var re1=/[^0-9]+/;//用来匹配用户无法预知的输入补白 13 var str1="2012+2%21"; 14 var arr1=str1.split(re1);//按照正则表达式指定的规则分割字符串 15 alert(arr1[0]+"年"+arr1[1]+"月"+arr1[2]+"日"); 16 //在字符串中查找时我们常用indexOf,与之对应用于正则查找的方法是search 17 str2 = "万盛区集体大暴乱啊,重庆的孩子伤不起啊,伤不起!";//年龄不是一定的,我们用indexOf不能查找它的位置 18 re2 = /伤不起/; 19 alert(str2.search(re2));//返回查找到的字符串开始下标15 20 re3 = /伤不起/g;//我们加个全局标识发现其依然只匹配第一次出现的位置 21 //怎么去全局搜索呢?lastIndex 22 alert(str2.search(re3));//返回查找到的字符串开始下标15 23 //当search方法没有找到匹配时,将返回-1 24 //类似于exec方法,String对象的match方法也用于将字符串与正则表达式进行匹配并返回结果数组 25 //注意下.net中的Match和MatchCollection的不同,不过这里也差不多啦 26 var str4 = "I deeply LOVE my country and people!"; 27 var re4=/[A-Z]/;//匹配所有的大写字母 28 alert(str4.match(re4));//这样只是或返回I 29 var re5=/[A-Z]/g;//匹配所有的大写字母 30 alert(str4.match(re5));//这样返回["I","L","O","Y"] 31 //从字符串中抽取单词 32 re = /\b[a-z]\b/i;//\b表示单词边界 33 str = "one two three four"; 34 alert(str.match(re));//one,two,three,four 35 </script>
RegExp对象实例的一些属性
var re = /[a-z]/i; alert(re.source);//将[a-z]字符串输出 //请注意,直接alert(re)会将正则表达式连同前向斜线与标志输出,这是re.toString方法定义的 var re1=new RegExp("[a-z]","i"); alert(re1.source);//将[a-z]字符串输出
每个RegExp对象的实例具有lastIndex属性,它是被查找字符串中下一次成功匹配的开始位置,默认值是-1。
var re=/[a-z]/ig; var str="Hello World!"; alert(re.test(str)); alert(re.lastIndex);//1 alert(re.test(str)); alert(re.lastIndex);//2 alert(re.test(str)); alert(re.lastIndex);//3 alert(re.test(str)); alert(re.lastIndex);//4 var re1=/[a-z]/ig; var str1="Hello World!"; var arr=re1.exec(str1); alert(re1.lastIndex);//1 var arr=re1.exec(str1); alert(re1.lastIndex);//2
lastIndex 属性被 RegExp 对象的 exec 和 test 方法修改.并且它是可写的.当匹配失败(后面没有匹配),或lastIndex值大于字符串长度时,再执行exec等方法会将lastIndex设为0(开始位置)。
RegExp对象的静态属性
source,返回正则表达式模式的文本的复本。只读。
lastIndex,返回字符位置,它是被查找字符串中下一次成功匹配的开始位置。
$1...$9,返回九个在模式匹配期间找到的、最近保存的部分。只读。
input ($_),返回执行规范表述查找的字符串。只读。
lastMatch ($&),返回任何正则表达式搜索过程中的最后匹配的字符。只读。
lastParen ($+),如果有的话,返回任何正则表达式查找过程中最后括的子匹配。只读。
leftContext ($`),返回被查找的字符串中从字符串开始位置到最后匹配之前的位置之间的字符。只读。
rightContext ($'),返回被搜索的字符串中从最后一个匹配位置开始到字符串结尾之间的字符。只读。
//input 用于最后匹配的字符串(传递给test,exec方法的字符串) var re = /[A-Z]/; var str = "Hello,World!!!"; var arr = re.exec(str); alert(RegExp.input);//Hello,World!!! re.exec("asd");//因为tempstr不匹配 alert(RegExp.input);//仍然是Hello,World!!! var re1=/\d/; var str1="2012的春天"; var b=re1.test(str1); alert(RegExp.input);//"2012的春天" var c=re1.test("two birds on the tree make love every day!") alert(RegExp.input);//仍然是"2012的春天" //lastMatch 最后匹配的字符 re = /[a-z]/g; str = "love"; re.test(str); alert(RegExp.lastMatch);//l re.test(str); alert(RegExp["$&"]);//o ,$&是lastMatch的短名字,但由于它不是合法变量名,所以要。。 //lastParen 最后匹配的分组 re = /[a-z](\d+)/gi; str = "Class1 Class2 Class3"; re.test(str); alert(RegExp.lastParen);//1 re.test(str); alert(RegExp["$+"]);//2 //leftContext 返回被查找的字符串中从字符串开始位置到最后匹配之前的位置之间的字符 //rigthContext 返回被搜索的字符串中从最后一个匹配位置开始到字符串结尾之间的字符 re = /[A-Z]/g; str = "123ABC456"; re.test(str);//A alert(RegExp.leftContext);//123 alert(RegExp.rightContext);//BC456 re.test(str);//B alert(RegExp["$`"]);//123A alert(RegExp["$'"]);//C456