正则-------Python re模块

系统 1176 0
原文链接: https://www.cnblogs.com/Eva-J/articles/7228075.html

什么是正则?

假如现在你用python写一段代码,类似:

            
              phone_number = input('please input your phone number : ')
            
          

你怎么判断这个phone_number是合法的呢?

            
              根据手机号码一共11位并且是只以13、14、15、16、17、18、19开头的数字这些特点,用python写如下代码:
            
          

判断手机号码是否合法:

            
              # 方法1
while True:
    phone_number = input('please input your phone number : ')
    if len(phone_number) == 11 \
            and phone_number.isdigit()\
            and (phone_number.startswith('13') \
            or phone_number.startswith('14') \
            or phone_number.startswith('15') \
            or phone_number.startswith('16')\
            or phone_number.startswith('17')\
            or phone_number.startswith('18')\
            or phone_number.startswith('19')):
        print('是合法的手机号码')
    else:
        print('不是合法的手机号码')
            
          
            
              # 方法2
import re
phone_number = input('please input your phone number : ')
if re.match('^(1[3-9])[0-9]{9}$',phone_number):
        print('是合法的手机号码')
else:
        print('不是合法的手机号码')
            
          

上面第二种更简练的方法就是正则。

        正则表达式不仅在Python领域,在整个编程界都占有举足轻重的地位。 正则表达式 本身也和Python没有什么关系,就是 匹配字符串内容的一种规则 。而re模块是Python对正则的实现。

 

 

正则表达式

现在就先来看一些实际的应用。在线测试工具   http://tool.chinaz.com/regex/

            
              首先要知道的是,谈到正则,就只和字符串相关了。在提供的工具中,你输入的每一个字都是一个字符串。
其次,如果在一个位置的一个值,不会出现什么变化,那么是不需要规则的。
  比如你要用"1"去匹配"1",或者用"2"去匹配"2",直接就可以匹配上。这连python的字符串操作都可以轻松做到。
那么在之后我们更多要考虑的是在同一个位置上可以出现的字符的范围。
            
          

字符组

            
              字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
            
          
                    
                      正则
                    
                  
                    
                      待匹配字符
                    
                  
                    
                      匹配
结果
                    
                  
                    
                      说明
                    
                  
                    
                      [0123456789]
                    
                  
                    
                      8
                    
                  
                    
                      True
                    
                  
                    
                      在一个字符组里枚举合法的所有字符,字符组里的任意一个字符
和"待匹配字符"相同都视为可以匹配
                    
                  
                    
                      [0123456789]
                    
                  
                    
                      a
                    
                  
                    
                      False
                    
                  
                    
                      由于字符组中没有"a"字符,所以不能匹配
                    
                  
 
                    
                      [0-9]
                    
                  
 
                    
                      7
                    
                  
                    
                      True
                    
                  
                    
                      也可以用-表示范围,[0-9]就和[0123456789]是一个意思
                    
                  
 
                    
                      [a-z]
                    
                  
 
                    
                      s
                    
                  
 
                    
                      True
                    
                  
 
                    
                      同样的如果要匹配所有的小写字母,直接用[a-z]就可以表示
                    
                  
 
                    
                      [A-Z]
                    
                  
 
                    
                      B
                    
                  
 
                    
                      True
                    
                  
 
                    
                      [A-Z]就表示所有的大写字母
                    
                  
 
                    
                      [0-9a-fA-F]
                    
                  
 
                    
                      e
                    
                  
 
                    
                      True
                    
                  
 
                    
                      可以匹配数字,大小写形式的a~f,用来验证十六进制字符
                    
                  

字符:

 
                    
                      元字符
                    
                  
 
                    
                      匹配内容
                    
                  
匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线
\s 匹配任意的空白符
\d 匹配数字
\n 匹配一个换行符
\t 匹配一个制表符
\b 匹配一个单词的结尾
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W
                    
                      匹配非字母或数字或下划线
                    
                  
\D
                    
                      匹配非数字
                    
                  
\S
                    
                      匹配非空白符
                    
                  
a|b
                    
                      匹配字符a或字符b
                    
                  
()
                    
                      匹配括号内的表达式,也表示一个组
                    
                  
[...]
                    
                      匹配字符组中的字符
                    
                  
[^...]
                    
                      匹配除了字符组中字符的所有字符
                    
                  

 

量词:

                    
                      量词
                    
                  
                    
                      用法说明
                    
                  
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

 

. ^ $

正则 待匹配字符 匹配
结果
说明
海. 海燕海娇海东 海燕海娇海东   匹配所有"海."的字符
^海. 海燕海娇海东 海燕 只从开头匹配"海."
  海.$   海燕海娇海东 海东 只匹配结尾的"海.$"

 

* + ? { }

正则 待匹配字符 匹配
结果
说明
李.? 李杰和李莲英和李二棍子

李杰
李莲
李二

 
                    
                      ?表示重复零次或一次,即只匹配"李"后面一个任意字符
                    
                  
 
李.* 李杰和李莲英和李二棍子 李杰和李莲英和李二棍子
                    
                      *表示重复零次或多次,即匹配"李"后面0或多个任意字符
                    
                  
李.+ 李杰和李莲英和李二棍子 李杰和李莲英和李二棍子
                    
                      +表示重复一次或多次,即只匹配"李"后面1个或多个任意字符
                    
                  
李.{1,2} 李杰和李莲英和李二棍子

李杰和
李莲英
李二棍

                    
                      {1,2}匹配1到2次任意字符
                    
                  

 注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配

正则 待匹配字符 匹配
结果
说明
李.*? 李杰和李莲英和李二棍子

惰性匹配

 

字符集[][^]

正则 待匹配字符 匹配
结果
说明
李[杰莲英二棍子]* 李杰和李莲英和李二棍子

李杰
李莲英
李二棍子

 
                    
                      表示匹配"李"字后面[杰莲英二棍子]的字符任意次
                    
                  
 
李[^和]* 李杰和李莲英和李二棍子

李杰
李莲英
李二棍子

                    
                      表示匹配一个不是"和"的字符任意次
                    
                  
[\d] 456bdha3

4
5
6
3

                    
                      表示匹配任意一个数字,匹配到4个结果
                    
                  
[\d]+ 456bdha3

456
3

                    
                      表示匹配任意个数字,匹配到2个结果
                    
                  

 

分组 ()与 或 |[^]

 身份证号码是一个长度为15或18个字符的字符串,如果是15位则全部️数字组成,首位不能为0;如果是18位,则前17位全部是数字,末位可能是数字或x,下面我们尝试用正则来表示:

正则 待匹配字符 匹配
结果
说明
^[1-9]\d{13,16}[0-9x]$ 110101198001017032

110101198001017032

   表示可以匹配一个正确的身份证号
^[1-9]\d{13,16}[0-9x]$ 1101011980010170

1101011980010170

                    
                      表示也可以匹配这串数字,但这并不是一个正确的身份证号码,它是一个16位的数字
                    
                  
^[1-9]\d{14}(\d{2}[0-9x])?$ 1101011980010170

False

                    
                      现在不会匹配错误的身份证号了
()表示分组,将\d{2}[0-9x]分成一组,就可以整体约束他们出现的次数为0-1次
                    
                  
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ 110105199812067023

110105199812067023

                    
                      表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}
                    
                  

 

转义符 \

        在正则表达式中,有很多有特殊意义的是元字符,比如\n和\s等,如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义,变成'\\'。

        在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n',那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念,此时的正则是r'\\n'就可以了。

正则 待匹配字符 匹配
结果
说明
\n \n  False
                    
                      因为在正则表达式中\是有特殊意义的字符,所以要匹配\n本身,用表达式\n无法匹配
                    
                  
\\n \n  True
                    
                      转义\之后变成\\,即可匹配
                    
                  
"\\\\n" '\\n'  True
                    
                      如果在python中,字符串中的'\'也需要转义,所以每一个字符串'\'又需要转义一次
                    
                  
r'\\n' r'\n'  True
                    
                      在字符串之前加r,让整个字符串不转义
                    
                  

 

贪婪匹配

贪婪匹配:在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配

正则 待匹配字符 匹配
结果
说明
<.*>


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论