什么是正则?
假如现在你用python写一段代码,类似:
phone_number = input('please input your phone number : ')
你怎么判断这个phone_number是合法的呢?
根据手机号码一共11位并且是只以13、14、15、16、17、18、19开头的数字这些特点,用python写如下代码:
判断手机号码是否合法:
# 方法1
while True:
phone_number = input('please input your phone number : ')
if len(phone_number) == 11 \
and phone_number.isdigit()\
and (phone_number.startswith('13') \
or phone_number.startswith('14') \
or phone_number.startswith('15') \
or phone_number.startswith('16')\
or phone_number.startswith('17')\
or phone_number.startswith('18')\
or phone_number.startswith('19')):
print('是合法的手机号码')
else:
print('不是合法的手机号码')
# 方法2
import re
phone_number = input('please input your phone number : ')
if re.match('^(1[3-9])[0-9]{9}$',phone_number):
print('是合法的手机号码')
else:
print('不是合法的手机号码')
上面第二种更简练的方法就是正则。
正则表达式不仅在Python领域,在整个编程界都占有举足轻重的地位。 正则表达式 本身也和Python没有什么关系,就是 匹配字符串内容的一种规则 。而re模块是Python对正则的实现。
正则表达式
现在就先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/
首先要知道的是,谈到正则,就只和字符串相关了。在提供的工具中,你输入的每一个字都是一个字符串。
其次,如果在一个位置的一个值,不会出现什么变化,那么是不需要规则的。
比如你要用"1"去匹配"1",或者用"2"去匹配"2",直接就可以匹配上。这连python的字符串操作都可以轻松做到。
那么在之后我们更多要考虑的是在同一个位置上可以出现的字符的范围。
字符组
字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
字符:
|
|
. | 匹配除换行符以外的任意字符 |
\w | 匹配字母或数字或下划线 |
\s | 匹配任意的空白符 |
\d | 匹配数字 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
\b | 匹配一个单词的结尾 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结尾 |
\W |
|
\D |
|
\S |
|
a|b |
|
() |
|
[...] |
|
[^...] |
|
量词:
|
|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
. ^ $
正则 | 待匹配字符 |
匹配
结果 |
说明 |
海. | 海燕海娇海东 | 海燕海娇海东 | 匹配所有"海."的字符 |
^海. | 海燕海娇海东 | 海燕 | 只从开头匹配"海." |
海.$ | 海燕海娇海东 | 海东 | 只匹配结尾的"海.$" |
* + ? { }
正则 | 待匹配字符 |
匹配
结果 |
说明 |
李.? | 李杰和李莲英和李二棍子 |
李杰
|
|
李.* | 李杰和李莲英和李二棍子 | 李杰和李莲英和李二棍子 |
|
李.+ | 李杰和李莲英和李二棍子 | 李杰和李莲英和李二棍子 |
|
李.{1,2} | 李杰和李莲英和李二棍子 |
李杰和
|
|
注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配
正则 | 待匹配字符 |
匹配
结果 |
说明 |
李.*? | 李杰和李莲英和李二棍子 |
李
李 李 |
惰性匹配 |
字符集[][^]
正则 | 待匹配字符 |
匹配
结果 |
说明 |
李[杰莲英二棍子]* | 李杰和李莲英和李二棍子 |
李杰
|
|
李[^和]* | 李杰和李莲英和李二棍子 |
李杰
|
|
[\d] | 456bdha3 |
4
|
|
[\d]+ | 456bdha3 |
456
|
|
分组 ()与 或 |[^]
身份证号码是一个长度为15或18个字符的字符串,如果是15位则全部️数字组成,首位不能为0;如果是18位,则前17位全部是数字,末位可能是数字或x,下面我们尝试用正则来表示:
正则 | 待匹配字符 |
匹配
结果 |
说明 |
^[1-9]\d{13,16}[0-9x]$ | 110101198001017032 |
110101198001017032 |
表示可以匹配一个正确的身份证号 |
^[1-9]\d{13,16}[0-9x]$ | 1101011980010170 |
1101011980010170 |
|
^[1-9]\d{14}(\d{2}[0-9x])?$ | 1101011980010170 |
False |
|
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ | 110105199812067023 |
110105199812067023 |
|
转义符 \
在正则表达式中,有很多有特殊意义的是元字符,比如\n和\s等,如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义,变成'\\'。
在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n',那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念,此时的正则是r'\\n'就可以了。
正则 | 待匹配字符 |
匹配
结果 |
说明 |
\n | \n | False |
|
\\n | \n | True |
|
"\\\\n" | '\\n' | True |
|
r'\\n' | r'\n' | True |
|
贪婪匹配
贪婪匹配:在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配
正则 | 待匹配字符 |
匹配
结果 |
说明 |
<.*> |
你可能感兴趣的 |