Java 正则表达式全攻略(二)
正则表达式引擎的内部工作机制
知道正则表达式引擎是如何工作的,将有助于你很快理解为何某个正则表达式不像你期望的那样工作,还可以 使你清楚如何对表达式进行性能优化。从最基本的正则表达式引擎实现思路上来分的话,有两种:确定型有限状态机(Deterministic Finite-State Automaton)简称DFA和不确定型有限状态机(Nodeterministic Finite-State Automaton)简称NFA,也有人称其为文本导向和正则导向。以下这个网址 http://osteele.com/tools/reanimator/ 以一种非常直观的方式说明了 DFA 和 NFA 对相同的表达式的不同编译结果。
由于我们的目的不在于学习状态机,所以我们忽略这2者的工作原理,直接对比他们的影响。就拿表达式 a|ab|abc|abcd 来对比。 我们可以看到NFA的结果比较复杂,而DFA十分简洁,这是否又会影响到2者的性能呢?确实如此,DFA的执行速度与表达式无关,它在编译时的优化已经优 于大多数 NFA引擎的复杂优化措施。而NFA的执行速度与表达式有着直接的关系。从匹配结果来看,DFA总是返回最左边最长的匹配结果,而NFA总是比较猴急,总 会匹配第一个找到的结果。根据这一点,我们可以轻易分辨出所使用的引擎是DFA还是NFA,你可以使用表达式 nfa|nfa not 对字符串”nfa not”进行测试,如果匹配结果是 nfa ,那该引擎是NFA的,而Java就是属于NFA的。最后一点就是,NFA能提供的功能比DFA更多,例如:捕获由括号内的子表达式匹配的文本、环视,以 及其他复杂的零长度确认、“惰性”量词等。而我们讲的是Java的正则表达式,那当然也就是在说NFA啦,而NFA由于功能比较多用起来比较方便,因此比 DFA要流行些。
正则导向的引擎总是返回最左边的匹配
这是需要你理解的很重要的一点:即使以后有可能发现一个“更好”的匹配,正则导向的引擎也总是返回最左边的匹配。 当把 cat 应用到“He captured a catfish for his cat”,引擎先比较 c 和“H”,结果失败了。于是引擎再比较 c 和“e”,也失败了。直到第四个字符, c 匹配了“c”。 a 匹配了第五个字符。到第六个字符 t 没能匹配“p”,也失败了。引擎再继续从第五个字符重新检查匹配性。直到第十五个字符开始, cat 匹配上了“catfish”中的“cat”,正则表达式引擎急切的返回第一个匹配的结果,而不会再继续查找是否有其他更好的匹配。
字符集
字符集是由一对方括号“[]”括起来的字符集合。使用字符集,你可以告诉正则表达式引擎仅仅匹配多个字符中的一个。如果你想匹配一个“a”或一个“e”,使用 [ae] 。你可以使用 gr[ae]y 匹配gray或grey。这在你不确定你要搜索的字符是采用美国英语还是英国英语时特别有用。相反, gr[ae]y 将不会匹配graay或graey。字符集中的字符顺序并没有什么关系,结果都是相同的。
你可以使用连字符“-”定义一个字符范围作为字符集。 [0-9] 匹配0到9之间的单个数字。你可以使用不止一个范围。 [0-9a-fA-F] 匹配单个的十六进制数字,并且大小写不敏感。你也可以结合范围定义与单个字符定义。 [0-9a-fxA-FX] 匹配一个十六进制数字或字母X。再次强调一下,字符和范围定义的先后顺序对结果没有影响。
取反字符集
在左方括号“[”后面紧跟一个尖括号“^”,将会对字符集取反。结果是字符集将匹配任何不在方括号中的字符。不像“.”,取反字符集是可以匹配回车换行符的。
需要记住的很重要的一点是,取反字符集必须要匹配一个字符。 q[^u] 并不意味着:匹配一个q,后面没有u跟着。它意味着:匹配一个q,后面跟着一个不是u的字符。所以它不会匹配“Iraq”中的q,而会匹配“Iraq is a country”中的q和一个空格符。事实上,空格符是匹配中的一部分,因为它是一个“不是u的字符”。如果你只想匹配一个q,条件是q后面有一个不是u 的字符,我们可以用后面将讲到的向前查看来解决。
字符集中的元字符
需要注意的是,在字符集中只有4个 字符具有特殊含义。它们是:“ ] \ ^ - ”。“]”代表字符集定义的结束;“\”代表转义;“^”代表取反;“-”代表范围定义。其他常见的元字符在字符集定义内部都是正常字符,不需要转义。例如,要搜索星号*或加号+,你可以用 [+*] 。当然,如果你对那些通常的元字符进行转义,你的正则表达式一样会工作得很好,但是这会降低可读性。
在字符集定义中为了将反斜杠“\”作为一个文字字符而非特殊含义的字符,你需要用另一个反斜杠对它进行转义。 [\\x] 将会匹配一个反斜杠和一个X。“]^-”都可以用反斜杠进行转义,或者将他们放在一个不可能使用到他们特殊含义的位置。我们推荐后者,因为这样可以增加可读性。比如对于字符“^”,将它放在除了左括号“[”后面的位置,使用的都是文字字符含义而非取反含义。如 [x^] 会匹配一个x或^。 []x] 会匹配一个“]”或“x”。 [-x] 或 [x-] 都会匹配一个“-”或“x”。
字符集的简写
因为一些字符集非常常用,所以有一些简写方式。
. | 任何字符(与行结束符可能匹配也可能不匹配) |
\d | 数字: [0-9] |
\D | 非数字: [^0-9] |
\s | 空白字符: [\t\n\x0b\f\r] |
\S | 非空白字符: [^\s] |
\w | 单词字符: [a-zA-Z_0-9] |
\W | 非单词字符: [^\w] |
字符集的重复
如果你用“ ?*+ ”操作符来重复一个字符集,你将会重复整个字符集。而不仅是它匹配的那个字符。正则表达式 [0-9]+ 会匹配837以及222。如果你仅仅想重复被匹配的那个字符,可以用向后引用达到目的。我们以后将讲到向后引用。
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次到更多次 |
{n,m} | 重复n到m次 |
结合前面的知识,我们就可以写出以下这类常用的表达式:
1: // 判断字符串是否一个合法的16进制
2: String regex = "[-+]?0[xX]?[0-9a-fA-F]+" ;
3: System.out.println( "0xFF" .matches(regex)); // true
4: System.out.println( "-0Xff" .matches(regex)); // true
5: System.out.println( "ff" .matches(regex)); // false
6: System.out.println( "0x1H" .matches(regex)); // false
7: // 简单地判断一个字符串是否合法的身份证号码
8: regex = "\\d{15}|\\d{18}" ;
9: System.out.println( "440104700101001" .matches(regex)); // ture;
10: System.out.println( "44010700101001" .matches(regex)); // false;
11: System.out.println( "440104197001010015" .matches(regex)); // ture;
12: System.out.println( "4401041970010100015" .matches(regex)); // false;