• Centos7 Shell编程之正则表达式、文本处理工具


    1. 正则表达式

    正则表达式可以很灵活的提供各种模糊匹配的筛选规则。常被用来检索、替换那些符合某个模式的文本。grep、sed、awk等文本处理工具都支持通过正则表达式进行模式匹配

    1.1 常规匹配

    一串不包含特殊字符的正则表达式,匹配包含它自己的字符,例如:

    [root@bigdata001 ~]# cat /etc/passwd | grep root
    root:x:0:0:root:/root:/bin/bash
    operator:x:11:0:operator:/root:/sbin/nologin
    [root@bigdata001 ~]# 
    
    • 1
    • 2
    • 3
    • 4

    1.2 常用特殊字符

    特殊字符:^:匹配一行的开头,例如:

    [root@bigdata001 ~]# cat /etc/passwd | grep ^root
    root:x:0:0:root:/root:/bin/bash
    [root@bigdata001 ~]# 
    
    • 1
    • 2
    • 3

    特殊字符:$:匹配一行的结束,例如:

    [root@bigdata001 ~]# cat /etc/passwd | grep bash$
    root:x:0:0:root:/root:/bin/bash
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3

    特殊字符:.:匹配一个任意的字符,例如:

    [root@bigdata001 ~]# cat /etc/passwd | grep r..t
    root:x:0:0:root:/root:/bin/bash
    operator:x:11:0:operator:/root:/sbin/nologin
    ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3
    • 4
    • 5

    特殊字符:*:不单独使用,和上一个字符连用,表示匹配上一个字符0次或多次,例如

    [root@bigdata001 ~]# cat /etc/passwd | grep ro*t
    root:x:0:0:root:/root:/bin/bash
    operator:x:11:0:operator:/root:/sbin/nologin
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3
    • 4

    字符区间:[ ]:表示匹配某个范围内的一个字符

    • [68]:匹配6或者8
    • [0-9]:匹配一个0-9的数字
    • [0-9]*:匹配任意长度的数字字符串
    • [a-z]:匹配一个a-z之间的字符
    • [a-c, e-f]-匹配a-c或者e-f之间的任意一个字符
    [root@bigdata001 ~]# echo 12345 | grep "[0-9]*"
    12345
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3

    **特殊字符:**:表示转义,并不会单独使用。由于所有特殊字符都有其特定匹配模式,当我们想匹配某一特殊字符本身时(例如我想找出所有包含’$'的行),就会碰到困难。此时我们就要将转义字符和特殊字符连用,来表示特殊字符本身,例如:

    [root@bigdata001 ~]# echo -e 'abc$def'"\n123456" | grep '\$'
    abc$def
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3

    实战练习

    [root@bigdata001 ~]# echo 13667894536 | grep -E ^1[34578][0-9]{9}$
    13667894536
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3

    grep默认是不支持正则特殊字符{}的,需要开启拓展正则表达式功能

    2. 文本处理工具

    2.1 cut

    cut可以将文件中内容(也可以通过管道符传输),按照指定分隔符将每一行进行切割,然后取指定字节、字符、字段进行输出

    基本语法: cut [选项参数] filename

    选项参数如下:

    • -d 分隔符:按照指定分隔符分割每行数据,默认是制表符\t
    • -f 列号:取第几列。可以使用3,5表示取第三列和第五列,-33-55-分布表示取前三列、第三列到第五列、第五列和后面所有列
    • -c 字符号:表示取第个字符。不能指定分隔符
    • -b 字节号:表示取第个字节。不能指定分隔符

    示例:

    [root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 1
    root
    bigdata
    [root@bigdata001 ~]# 
    [root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 6-
    /root:/bin/bash
    /home/bigdata:/bin/bash
    [root@bigdata001 ~]#
    [root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -c 1
    r
    g
    [root@bigdata001 ~]# 
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    实战示例:

    [root@bigdata001 ~]# ifconfig ens33 | grep netmask | cut -d " " -f 10
    192.168.8.111
    [root@bigdata001 ~]# 
    
    • 1
    • 2
    • 3

    2.2 awk

    awk把文件逐行的读入(文件名或通过管道符传输),以空格为默认分隔符将每行切片,切开的部分再进行分析处理

    基本语法:awk [选项参数] ‘/pattern1/{action1} /pattern2/{action2} …’ filename

    • pattern:表示awk在数据中查找的内容,就是正则表达式匹配
    • action:在找到匹配内容时所执行的一系列命令

    选项参数说明

    • -F 分隔符:指定输入文件每行分隔符
    • -v 变量名=变量值:赋值一个用户定义变量

    awk的内置变量

    • FILENAME:文件名
    • NR:数据所在的行号
    • NF:每行切割后的列数

    示例1:

    [root@bigdata001 ~]# cat /etc/passwd | grep bash$
    root:x:0:0:root:/root:/bin/bash
    bigdata:x:996:1000::/home/bigdata:/bin/bash
    [root@bigdata001 ~]# 
    [root@bigdata001 ~]# awk -F ":" -v my_var=1 'BEGIN{print "begin line"} /bash$/{print $3+my_var", "$1", 文件名: "FILENAME", 行号: "NR",  列数: "NF} END{print "end line"}' /etc/passwd
    begin line
    1, root, 文件名: /etc/passwd, 行号: 1, 列数: 7
    997, gpadmin, 文件名: /etc/passwd, 行号: 22, 列数: 7
    end line
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • BEGIN和END都是可选的,表示在所有数据行读取之前或之后执行的操作
    • 可以不定义pattern,只定义action
    • print是awk内部的命令
    • $1表示第一列,$2表示第二列,依次类推

    示例2:

    [root@bigdata001 ~]# ifconfig | awk '/netmask/{print $2}'
    192.168.8.111
    127.0.0.1
    [root@bigdata001 ~]#
    
    • 1
    • 2
    • 3
    • 4

    前面的多个空格会当作一个空格,且只统计有内容的列所在的位置

    示例3:

    [root@bigdata001 ~]# cat test.awk
    #!/bin/awk -f
    
    # 在所有数据行读取之前的操作
    BEGIN {
        # 定义变量
        math = 0
        english = 0
     
        printf "name         math   english   total\n"
    }
    
    # 对每行数据进行的操作
    {
        math+=$2
        english+=$3
        printf "%-10s %6d %9d %7d\n", $1, $2, $3, $2+$3
    }
    
    # 在所有数据行读取之后的操作
    END {
        printf "total:     %6d %9d\n", math, english
        printf "average:   %6.2f %9.2f\n", math/NR, english/NR
    }
    [root@bigdata001 ~]# 
    [root@bigdata001 ~]# echo -e "zhang_san 60 80\nli_si 70 90" | awk -f test.awk
    name         math   english   total
    zhang_san      60        80     140
    li_si          70        90     160
    total:        130       170
    average:    65.00     85.00
    [root@bigdata001 ~]# 
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • printf是wak内置命令
    • printf中-表示左对齐,默认右对齐。数字表示宽度。s表示字符串,d表示数字,f表示浮点数(数字1.数字2:数字1表示宽度,数字2表示小数点位数)
  • 相关阅读:
    Using Cloud Functions
    arcgis插件 批量出图 按地块批量出图工具
    Chapter12 : Deep Learning Applied to Ligand-Based De Novo Drug Design
    Python量化接口源码分享
    代码随想录30——回溯:332重新安排行程、51N皇后、37解数独
    Java学习之八皇后
    【无标题】
    数字孪生+工业互联网标识解析,打造智能工厂新标杆!
    企业信息化安全方案设计实战参考
    Linux脚本shell中将Windos格式字符转换为unix
  • 原文地址:https://blog.csdn.net/yy8623977/article/details/125953688