码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【从零学习python 】66.深入了解正则表达式:模式匹配与文本处理的利器


    文章目录

    • 正则表达式模式
      • 非打印字符
      • 特殊字符
      • 定位符
      • 重复
      • 特殊序列
      • 进阶案例

    正则表达式模式

    模式字符串使用特殊的语法来表示一个正则表达式:

    • 字母和数字表示他们自身,一个正则表达式模式中的字母和数字匹配同样的字符串。

    re.search(r'H','Hello') # 这里的 H 表示的就是字母 H 自身,代表有特殊含义

    多数字母和数字前加一个反斜杠时会拥有不同的含义。

    ret = re.search(r'\d','he12ms90') # 这里的 \d 表示的是匹配数字

    标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。

    ret = re.search(r'.','hello') // 这里的 . 表示的是匹配任意字符
    ret = re.search(r'\.','he.llo')  // 这里的 \. 进行了转义,才表示标点符号自身。
    
    • 1
    • 2

    反斜杠本身需要使用反斜杠转义。由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r’\t’,等价于\t )匹配相应的特殊字符。

    下表列出了正则表达式模式语法中的特殊元素,如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。

    非打印字符

    非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:

    字符描述
    \cx匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。
    \f匹配一个换页符。等价于 \x0c 和 \cL。
    \n匹配一个换行符。等价于 \x0a 和 \cJ。
    \r匹配一个回车符。等价于 \x0d 和 \cM。
    \s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
    \S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
    \t匹配一个制表符。等价于 \x09 和 \cI。
    \v匹配一个垂直制表符。等价于 \x0b 和 \cK。

    特殊字符

    所谓特殊字符,就是一些有特殊含义的字符。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:

    特殊字符描述
    ( )标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。
    .匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 . 。
    [标记一个中括号表达式的开始。要匹配 [,请使用 [。
    \将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。‘\n’ 匹配换行符, \ 匹配 \,而 ( 则匹配 ( 。
    {标记限定符表达式的开始。要匹配 {,请使用 {。
    ``
    \d匹配一个数字字符。等价于 [0-9]。
    [0-9]匹配任何数字。等价于 \d
    \D匹配一个非数字字符。等价于 [^0-9]。
    [a-z]匹配任何小写字母
    [A-Z]匹配任何大写字母
    [a-zA-Z0-9]匹配任何字母及数字。等价于\w
    \w匹配包括下划线的任何单词字符。等价于[A-Za-z0-9_]。
    \W匹配任何非单词字符。等价于 [^A-Za-z0-9_]。
    [\u4e00-\u9fa5]匹配纯中文

    定位符

    定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,即匹配在某些模式之前或之后的位置。下表列出了定位符:

    字符描述
    ^匹配输入字符串的开始位置。如果设置了 MULTILINE 标志,还会与换行符后的位置匹配。
    $匹配输入字符串的结束位置。如果设置了 MULTILINE 标志,还会与换行符前的位置匹配。
    \A只匹配输入字符串的开始处。
    \Z只匹配输入字符串的结束处,或者在换行符前的最后一个字符处。
    \b匹配一个单词边界,也就是指单词和空格间的位置。例如,er\b 可以匹配 “never” 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。
    \B匹配非单词边界。例如,er\B 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。

    重复

    下表列出了正则表达式中的重复相关的元字符及其含义:

    字符描述
    *匹配前一个字符零次或多次。
    +匹配前一个字符一次或多次。
    ?匹配前一个字符零次或一次。
    {n}匹配前一个字符恰好 n 次。
    {n,}匹配前一个字符至少 n 次。
    {n,m}匹配前一个字符至少 n 次,但是不超过 m 次。

    特殊序列

    特殊序列是具有特殊含义的反斜杠开头的序列。下表列出了正则表达式中可用的特殊序列:

    序列描述
    \A只匹配字符串开头。它和 ^ 的区别是,\A 即使在 MULTILINE 模式下也只能匹配字符串开头的位置,而不是行首的位置。
    \b匹配一个单词边界,也就是指单词和空格间的位置。
    \B匹配非单词边界。
    \d匹配任意数字字符,等价于 [0-9]。
    \D匹配任意非数字字符,等价于 [^0-9]。
    \s匹配任意空白字符,包括空格、制表符、换行符等等。
    \S匹配任意非空白字符。
    \w匹配任意字母或数字字符,等价于 [a-zA-Z0-9]。
    \W匹配任意非字母或数字字符,等价于 [^a-zA-Z0-9]。
    \Z只匹配字符串的结束,即使在 MULTILINE 模式下也只能匹配字符串末尾的位置,而不是行尾的位置。

    这些是正则表达式中常用的一些模式和元字符,用于匹配、查找和操作字符串。使用正则表达式可以快速、灵活地处理各种文本数据。

    进阶案例

    【Python】Python 实现猜单词游戏——挑战你的智力和运气!

    【python】Python tkinter库实现重量单位转换器的GUI程序

    【python】使用Selenium获取(2023博客之星)的参赛文章

    【python】使用Selenium和Chrome WebDriver来获取 【腾讯云 Cloud Studio 实战训练营】中的文章信息

    使用腾讯云 Cloud studio 实现调度百度AI实现文字识别

    【玩转Python系列【小白必看】Python多线程爬虫:下载表情包网站的图片

    【玩转Python系列】【小白必看】使用Python爬取双色球历史数据并可视化分析

    【玩转python系列】【小白必看】使用Python爬虫技术获取代理IP并保存到文件中

    【小白必看】Python图片合成示例之使用PIL库实现多张图片按行列合成

    【小白必看】Python爬虫实战之批量下载女神图片并保存到本地

    【小白必看】Python词云生成器详细解析及代码实现

    【小白必看】Python爬取NBA球员数据示例

    【小白必看】使用Python爬取喜马拉雅音频并保存的示例代码

    【小白必看】使用Python批量下载英雄联盟皮肤图片的技术实现

    【小白必看】Python爬虫数据处理与可视化

    【小白必看】轻松获取王者荣耀英雄皮肤图片的Python爬虫程序

    【小白必看】利用Python生成个性化名单Word文档

    【小白必看】Python爬虫实战:获取阴阳师网站图片并自动保存

    小白必看系列之图书管理系统-登录和注册功能示例代码

    小白实战100案例: 完整简单的双色球彩票中奖判断程序,适合小白入门

    使用 geopandas 和 shapely(.shp) 进行地理空间数据处理和可视化

    使用selenium爬取猫眼电影榜单数据

    图像增强算法Retinex原理与实现详解

    爬虫入门指南(8): 编写天气数据爬虫程序,实现可视化分析

    爬虫入门指南(7):使用Selenium和BeautifulSoup爬取豆瓣电影Top250实例讲解【爬虫小白必看】

    爬虫入门指南(6):反爬虫与高级技巧:IP代理、User-Agent伪装、Cookie绕过登录验证及验证码识别工具

    爬虫入门指南(5): 分布式爬虫与并发控制 【提高爬取效率与请求合理性控制的实现方法】

    爬虫入门指南(4): 使用Selenium和API爬取动态网页的最佳方法

    爬虫入门指南(3):Python网络请求及常见反爬虫策略应对方法

    爬虫入门指南(2):如何使用正则表达式进行数据提取和处理

    爬虫入门指南(1):学习爬虫的基础知识和技巧

    深度学习模型在图像识别中的应用:CIFAR-10数据集实践与准确率分析

    Python面向对象编程基础知识和示例代码

    MySQL 数据库操作指南:学习如何使用 Python 进行增删改查操作

    Python文件操作指南:编码、读取、写入和异常处理

    使用Python和Selenium自动化爬取 #【端午特别征文】 探索技术极致,未来因你出“粽” # 的投稿文章

    Python多线程与多进程教程:全面解析、代码案例与优化技巧

    Selenium自动化工具集 - 完整指南和使用教程

    Python网络爬虫基础进阶到实战教程

    Python入门教程:掌握for循环、while循环、字符串操作、文件读写与异常处理等基础知识

    Pandas数据处理与分析教程:从基础到实战

    Python 中常用的数据类型及相关操作详解

    【2023年最新】提高分类模型指标的六大方案详解

    Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能

    用4种回归方法绘制预测结果图表:向量回归、随机森林回归、线性回归、K-最近邻回归

  • 相关阅读:
    ifconfig与ip命令的比较
    MFC入门问题(n)
    SysTick—系统定时器
    本地搭建K8S开发环境
    Scrapy基本概念——Item Pipeline
    corosync+packmaker+drbd+nfs高可用存储
    HTML5+CSS3小实例:水波纹按钮效果
    4、运算符
    硬盘分哪几种类型及主要参数详解
    abaqus Isight学习
  • 原文地址:https://blog.csdn.net/qq_33681891/article/details/132444733
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号