正则表达式

Python通过re模块实现对正则表达式的支持

匹配操作

re.match(pattern, string)从字符串的开始进行匹配，如果开始部分匹配成功就返回陪陪对象，否则返回None


import re
 
m = re.match('foo', 'food') # 返回匹配对象
print(m)    # 
 
m = re.match('foo', 'fbar')
print(m)    # None

搜索操作

re.search(pattern, string)扫描字符串，如果找到匹配就返回匹配对象，否则返回None


m = re.search('foo', 'hellofood')
print(m)    # 
 
m = re.search('foo', 'hello')
print(m)    # None

提取操作

re.findall(pattern, string)查找所有匹配，返回所有匹配结果的列表，没有匹配到就返回空列表


lst = re.findall('ab', 'abcdabcdabcd')
print(lst)  # ['ab', 'ab', 'ab']

re.finditer(pattern, string)查找所有匹配，返回所有匹配结果的一个iterator


lst = re.finditer('ab', 'abcdabcdabcd')
print(lst)    # 
 
for i in lst:
    print(f"{i}  {i.group()}")
 
"""
  ab
  ab
  ab
"""

替换操作

re.sub(pattern, string)用于替换匹配的字符串


text = "I am the bone of my sword"
print(re.sub('sword', 'blade', text))
# I am the bone of my blade

匹配字符

字符	功能
.	匹配任意1个字符（除了\n）
[]	匹配[]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字
\s	匹配空白，即空格，tab键
\S	匹配非空白
\w	匹配非特殊字符，即a-z、A-Z、0-9、_、汉字
\W	匹配特殊字符，即非字母、非数字、非汉字

匹配多个字符

字符	功能
*	匹配前一个字符0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少1次
？	匹配前一个字符出现1次或者0次，即要么1次，要么没有
{m}	匹配前一个字符出现m次
{m,n}	匹配前一个字符出现从m到n次

*示例


import re
 
ret = re.match("[A-Z][a-z]*", "M")
print(ret.group())    # M
 
ret = re.match("[A-Z][a-z]*", "MnnM")
print(ret.group())    # Mnn
 
ret = re.match("[A-Z][a-z]*", "AabbccCdd")
print(ret.group())    # Aabbcc

+示例


match_obj = re.match("py.+n", "python")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")
 
# python

？示例


match_obj = re.match("https?", "http")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")
 
# http

{m}、{m,n}示例


ret = re.match("[a-zA-Z0-9_]{6}","12a3G345H")
print(ret.group())  # 12a3G3
 
ret = re.match("[a-zA-Z0-9_]{8,20}","1a2b3c4d5e6f7g8h9ijklmn")
print(ret.group())  # 1a2b3c4d5e6f7g8h9ijk

贪婪模式与非贪婪模式

在正则表达式中，贪婪模式和非贪婪模式描述的是量词的匹配方式。

量词是正则表达式中指定匹配次数的元字符，主要有：

*：0次或多次

?：0次或1次

+：1次或多次

贪婪模式：两次会尽可能多的匹配字符

非贪婪模式：两次会尽可能少的匹配字符

在正则表达式中，贪婪模式是默认的，可以通过在量词后面加？将其转换为非贪婪模式


import re
 
# 贪婪模式
ret = re.match(".+
", "111
222
")
print(ret.group())  # 111
222
 
# 非贪婪模式
ret = re.match(".+?
", "111
222
")
print(ret.group())  # 111

匹配开头和结尾

^：匹配字符串开头


import re
 
# 匹配以数字开头的数据
match_obj = re.match("^\d.*", "6hello")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

$：匹配字符串结尾


# 匹配以数字结尾的数据
match_obj = re.match(".*\d$", "saber1")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

[^指定字符]：匹配指定字符以外的所有字符


match_obj = re.match("[^abc]", "d")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name的分组匹配到的字符串


import re
 
lst = ["archer", "saber", "lancer", "rider"]
 
for value in lst:
    match_obj = re.match("saber|archer", value)
    if match_obj:
        print(f"{match_obj.group()} nice!")
    else:
        print(value)


# 匹配邮箱
 
match_obj = re.match("\w{4,20}@(163|126|qq)\.com", "archer@qq.com")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")


# 匹配 电话:10086 类似的数据，提取"电话"文字和号码
match_obj = re.match("(电话):([1-9]\d{4,10})", "电话:10086")
 
 
if match_obj:
  print(match_obj.group())
  # 分组:默认是1一个分组，多个分组从左到右依次加1
  print(match_obj.group(1))
  # 提取第二个分组数据
  print(match_obj.group(2))
else:
  print("匹配失败")
 
 
# 电话
# 10086


match_obj = re.match("<[a-zA-Z1-6]+>.*", "abc
")

if match_obj:
print(match_obj.group())
else:
print("匹配失败")
match_obj = re.match("<([a-zA-Z1-6]+)>.*", "abc")
if match_obj:
print(match_obj.group())
else:
print("匹配失败")
# abc

# abc


match_obj = re.match("<(?P[a-zA-Z1-6]+)><(?P[a-zA-Z1-6]+)>.*",
                     "www.baidu.com
")
 
if match_obj:
  print(match_obj.group())
else:
  print("匹配失败")

正则中标志的使用

字符	功能
re.I (IGNORECASE)	忽略大小写
re.M (MULTILINE)	多行匹配，修改'^'和'$'的行为
re.S (DOTALL)	.可以匹配所有字符，包含换行符
re.U (UNICODE)	使用Unicode匹配
re.X (VERBOSE)	忽略空格和注释，使正则表达式更具有可读性


import re
 
# 忽略大小写
m1 = re.match('[a-z]+','Hello', re.I)
if m1:
    print(m1.group())
else:
    print('m1:匹配失败')
 
# .可以匹配所有字符，包含换行符
m2 = re.match('.+', "Hello\n\tWorld", re.S)
if m2:
    print(m2.group())
else:
    print('m2:匹配失败')
 
# 忽略空格和注释，使正则表达式更具有可读性
m3 = re.match(r"""
^
(
[a-z]+[A-Z]*
|
[A-Z]+[a-z]*
)
\s+
(World)
""","Hello World", re.X)
print(m3.group())
 
# Hello
# Hello
# 	World
# Hello World