匹配手机号
import
re
phoneRegex
=
re
.
compile
(
r
'''(
(\d{3}|\(\d{3}\))? # area code
(\s|-|.)? # separator
(\d{3}) # first 3 digits
(\s|-|.) # separator
(\d{4}) # last 4 digits
(\s*(ext|x|ext.)\s*(\d{2,5}))? # extension
)'''
,
re
.
VERBOSE
)
电话号码从一个“可选的” 区号开始, 所以区号分组跟着一个问号。因为区号可能只是 3 个数字(即\d{3}), 或括号中的 3 个数字(即(\d{3})), 所以应该用管道符号连接这两部分。可以对这部分多行字符串加上正则表达式注释# Area code,帮助你记忆(\d{3}|(\d{3}))?要匹配的是什么。
电话号码分割字符可以是
空格(\s)、 短横(-) 或句点(.)
, 所以这些部分也应该用管道连接。这个正则表达式接下来的几部分很简单: 3 个数字, 接下来是另一个分割符, 接下来是 4 个数字。最后的部分是可选的分机号,
包括任意数目的空格,接着 ext、 x 或 ext., 再接着 2 到 5 位数字。
匹配邮箱
emailRegex
=
re
.
compile
(
r
'''(
[a-zA-Z0-9._%+-]+ # username
@ # @ symbol
[a-zA-Z0-9.-]+ # domain name
(.[a-zA-Z]{2,4}) # dot-something
)'''
,
re
.
VERBOSE
)
E-mail 地址的用户名部分是一个或多个字符,字符可以包括: 小写和大写字母、 数字、句点、 下划线、 百分号、 加号或短横。可以将所有这些放入一个字符分类:
[a-zA-Z0-9._%+-]
。
域名和用户名用@符号分割,域名允许的字符分类要少一些,只允许字母、数字、句点和短横: [a-zA-Z0-9.-]。最后是“dot-com”部分(技术上称为“顶级域名”),它实际上可以是“dot-anything”。它有 2 到 4 个字符。