Python通过re模块实现对正则表达式的支持
re.match(pattern, string)从字符串的开始进行匹配,如果开始部分匹配成功就返回陪陪对象,否则返回None
- import re
-
- m = re.match('foo', 'food') # 返回匹配对象
- print(m) #
-
- m = re.match('foo', 'fbar')
- print(m) # None
re.search(pattern, string)扫描字符串,如果找到匹配就返回匹配对象,否则返回None
- m = re.search('foo', 'hellofood')
- print(m) #
-
- m = re.search('foo', 'hello')
- print(m) # None
re.findall(pattern, string)查找所有匹配,返回所有匹配结果的列表,没有匹配到就返回空列表
- lst = re.findall('ab', 'abcdabcdabcd')
- print(lst) # ['ab', 'ab', 'ab']
re.finditer(pattern, string)查找所有匹配,返回所有匹配结果的一个iterator
- lst = re.finditer('ab', 'abcdabcdabcd')
- print(lst) #
-
- for i in lst:
- print(f"{i} {i.group()}")
-
- """
ab ab ab - """
re.sub(pattern, string)用于替换匹配的字符串
- text = "I am the bone of my sword"
- print(re.sub('sword', 'blade', text))
- # I am the bone of my blade
| 字符 | 功能 |
| . | 匹配任意1个字符(除了\n) |
| [] | 匹配[]中列举的字符 |
| \d | 匹配数字,即0-9 |
| \D | 匹配非数字 |
| \s | 匹配空白,即空格,tab键 |
| \S | 匹配非空白 |
| \w | 匹配非特殊字符,即a-z、A-Z、0-9、_、汉字 |
| \W | 匹配特殊字符,即非字母、非数字、非汉字 |
| 字符 | 功能 |
| * | 匹配前一个字符0次或者无限次,即可有可无 |
| + | 匹配前一个字符出现1次或者无限次,即至少1次 |
| ? | 匹配前一个字符出现1次或者0次,即要么1次,要么没有 |
| {m} | 匹配前一个字符出现m次 |
| {m,n} | 匹配前一个字符出现从m到n次 |
- import re
-
- ret = re.match("[A-Z][a-z]*", "M")
- print(ret.group()) # M
-
- ret = re.match("[A-Z][a-z]*", "MnnM")
- print(ret.group()) # Mnn
-
- ret = re.match("[A-Z][a-z]*", "AabbccCdd")
- print(ret.group()) # Aabbcc
-
- match_obj = re.match("py.+n", "python")
- if match_obj:
- print(match_obj.group())
- else:
- print("匹配失败")
-
- # python
- match_obj = re.match("https?", "http")
- if match_obj:
- print(match_obj.group())
- else:
- print("匹配失败")
-
- # http
- ret = re.match("[a-zA-Z0-9_]{6}","12a3G345H")
- print(ret.group()) # 12a3G3
-
- ret = re.match("[a-zA-Z0-9_]{8,20}","1a2b3c4d5e6f7g8h9ijklmn")
- print(ret.group()) # 1a2b3c4d5e6f7g8h9ijk
在正则表达式中,贪婪模式和非贪婪模式描述的是量词的匹配方式。
量词是正则表达式中指定匹配次数的元字符,主要有:
*:0次或多次
?:0次或1次
+:1次或多次
贪婪模式:两次会尽可能多的匹配字符
非贪婪模式:两次会尽可能少的匹配字符
在正则表达式中,贪婪模式是默认的,可以通过在量词后面加?将其转换为非贪婪模式
- import re
-
- # 贪婪模式
- ret = re.match(".+", "111222")
- print(ret.group()) # 111222
-
- # 非贪婪模式
- ret = re.match(".+?", "111222")
- print(ret.group()) # 111
^:匹配字符串开头
- import re
-
- # 匹配以数字开头的数据
- match_obj = re.match("^\d.*", "6hello")
- if match_obj:
- print(match_obj.group())
- else:
- print("匹配失败")
$:匹配字符串结尾
- # 匹配以数字结尾的数据
- match_obj = re.match(".*\d$", "saber1")
- if match_obj:
- print(match_obj.group())
- else:
- print("匹配失败")
[^指定字符]:匹配指定字符以外的所有字符
- match_obj = re.match("[^abc]", "d")
- if match_obj:
- print(match_obj.group())
- else:
- print("匹配失败")
| 字符 | 功能 |
| | | 匹配左右任意一个表达式 |
| (ab) | 将括号中的字符作为一个分组 |
| \num | 引用分组num匹配到的字符串 |
| (?P | 分组起别名 |
| (?P=name) | 引用别名为name的分组匹配到的字符串 |
- import re
-
- lst = ["archer", "saber", "lancer", "rider"]
-
- for value in lst:
- match_obj = re.match("saber|archer", value)
- if match_obj:
- print(f"{match_obj.group()} nice!")
- else:
- print(value)
- # 匹配邮箱
-
- match_obj = re.match("\w{4,20}@(163|126|qq)\.com", "archer@qq.com")
- if match_obj:
- print(match_obj.group())
- else:
- print("匹配失败")
- # 匹配 电话:10086 类似的数据,提取"电话"文字和号码
- match_obj = re.match("(电话):([1-9]\d{4,10})", "电话:10086")
-
-
- if match_obj:
- print(match_obj.group())
- # 分组:默认是1一个分组,多个分组从左到右依次加1
- print(match_obj.group(1))
- # 提取第二个分组数据
- print(match_obj.group(2))
- else:
- print("匹配失败")
-
-
- # 电话
- # 10086
- match_obj = re.match("<[a-zA-Z1-6]+>.*[a-zA-Z1-6]+>", "abc")
- match_obj = re.match("<(?P
[a-zA-Z1-6]+)><(?P[a-zA-Z1-6]+)>.*(?P=name2)>(?P=name1)>" , - "
www.baidu.com
") -
- if match_obj:
- print(match_obj.group())
- else:
- print("匹配失败")
| 字符 | 功能 |
| re.I (IGNORECASE) | 忽略大小写 |
| re.M (MULTILINE) | 多行匹配,修改'^'和'$'的行为 |
| re.S (DOTALL) | .可以匹配所有字符,包含换行符 |
| re.U (UNICODE) | 使用Unicode匹配 |
| re.X (VERBOSE) | 忽略空格和注释,使正则表达式更具有可读性 |
- import re
-
- # 忽略大小写
- m1 = re.match('[a-z]+','Hello', re.I)
- if m1:
- print(m1.group())
- else:
- print('m1:匹配失败')
-
- # .可以匹配所有字符,包含换行符
- m2 = re.match('.+', "Hello\n\tWorld", re.S)
- if m2:
- print(m2.group())
- else:
- print('m2:匹配失败')
-
- # 忽略空格和注释,使正则表达式更具有可读性
- m3 = re.match(r"""
- ^
- (
- [a-z]+[A-Z]*
- |
- [A-Z]+[a-z]*
- )
- \s+
- (World)
- ""","Hello World", re.X)
- print(m3.group())
-
- # Hello
- # Hello
- # World
- # Hello World