【python技巧】文本处理-re库字符匹配

【python技巧】文本处理-re库字符匹配
【python技巧】文本处理-re库字符匹配
- 1. 正则表达式
  1.1 测试工具
  1.2 限定符
  1.3 字符集
  1.4 运算符
  1.5 元字符
  1.6 懒惰匹配和贪婪匹配
我们读取文件内容，肯定不是单纯为了输出或者重新写入，对于文本我们一定有一些查找、定位的需求。
在Python中，还有一个专门用于文本处理的库，那就是re库。
下面我会介绍re库涉及的正则表达式的基本知识。
参考课程

 1. 正则表达式

正则表达式是用来进行字符串匹配的一个字符形式。

1.1 测试工具

常见的正则表达式测试工具有：
1. regex101
2. 代码编辑器搜索栏的正则表达式匹配
1.2 限定符
1. ?
  abc?表示字符c需要出现0次或者1次，或者换句话说，字符c至多出现一次。也就是说，abc?相当于abc和ab这两个字符串。
2. *
  ab*c表示字符b需要出现0次或者多次，或者换句话说，字符b可以出现任意多次。也就是说，ab*c相当于ac、abc、abbc、ab……bc等多个字符串。
3. +
  ab+c表示字符b需要出现1次或者多次，或者换句话说，字符b至少出现一次。也就是说，ab+c相当于abc、abbc、ab……bc等多个字符串。
  注意ab*c和ab+c的细微区别。
4. {}
- {num}
  ab{3}c表示字符b需要出现3次，或者换句话说，字符b只能出现2次。也就是说，ab{2}c相当于abbc这一个字符串。
- {num1,num2}
  ab{2,5}c表示字符b需要出现2或3或4或5次，也就是说，ab{2,5}c相当于abbc、abbbc、abbbbc、abbbbbc这四个字符串。
- {num,}
  ab{2,}c表示字符b需要出现2次及以上，也就说，ab{2,}c相当于abbc、abbbc、abbbbc、ab……bc等无数个字符串。
1.3 字符集

在正常情况下，上述的限定符只会对其前面的一个字符起作用。如果想要某个字符串作为一个组合，可以使用字符集。
(ab)+c表示字符串ab需要出现1次或者多次，或者换句话说，字符串ab至少出现一次。也就是说，(ab)+c相当于abc、ababc、abababc、ab……abc等多个字符串。

1.4 运算符
1. |
  a(b|d)c表示字符串b出现1次或者字符串d出现1次，也就是说，a(b|d)c相当于abc、adc这两个字符串。
a(boy|girl)c也同样适用，相当于aboyc或者agirlc这两个字符。
1. []
  []表示匹配字符能选择的范围，成为字符类，例如,[abc]+只会匹配a\b\c这三个字母出现一次或多次的字符串，而一般更经常使用的是[a-zA-Z0-9]*表示由大小写字母和数字组成的字符串，[a-zA-Z0-9_]*表示由大小写字母、数字和下划线组成的字符串。
2. ^
  ^表示取反字符类，也就是说，[^a-zA-Z0-9]*表示除了大小写字母、数字符号以外的其他字符出现一次或多次的字符串。
3. \
  \.表示转置，把一些有特殊意义的字符转变为实际字符
4. \b
  \b表示字符边界
1.5 元字符
1. \d数字字符
  1. \D非数字字符
2. \w单词字符，包括英文字母、数字、下划线
  1. \W非单词字符
3. \s空白字符，包括空格、制表符、换行符
  1. \S非空白字符
4. .任意字符，不包含换行符
5. ^匹配字符串的开头，例如^a匹配行首的a
6. $匹配字符串的结尾，例如x$匹配行尾的x
1.6 懒惰匹配和贪婪匹配
1. 贪婪匹配
  默认匹配尽可能多的字符。
2. 懒惰匹配
  例子：<.+>匹配<和>之间的任意字符，而<.+?>则会使用懒惰匹配
相关阅读:
MOOC_Java进阶_翁恺讲_第三周题
 传统IT人的崩溃瞬间……
数学建模入门
 图数据结构基础篇
 抽奖小程序源码：多功能萝卜抽奖系统微信小程序抽奖功能源码【更新】
力扣第1035题不相交的线中等 c++ (最长公共子序列) 动态规划附Java代码
 1.6 CAN通信 F28335-Simulink仿真自动代码生成
 内存虚拟化技术-POD和Ballooning
Kubernetes:kubelet 源码分析之探针
 Spring源码中的命名风格总结
原文地址：https://blog.csdn.net/weixin_44201830/article/details/133050141

【python技巧】文本处理-re库字符匹配

1. 正则表达式

1.1 测试工具

1.2 限定符

1.3 字符集

1.4 运算符

1.5 元字符

1.6 懒惰匹配和贪婪匹配