• 10、文本处理工具



    尚硅谷2022版Linux扩展篇Shell教程-讲师:武晟然

    壁立千仞 无欲则刚

    10、文本处理工具

    10.1 cut

    cut 的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。

    cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。

    1)基本用法

    cut [选项参数] filename
    说明:默认分隔符是制表符

    2)选项参数说明

    选项参数功能
    -f列号,提取第几列
    -d分隔符,按照指定分隔符分割列,默认是制表符“\t”
    -c按字符进行切割 后加加 n 表示取第几列 比如 -c 1

    3)案例实操

    (1)数据准备

    [root@centos7-101 ~]# touch cut.txt
    [root@centos7-101 ~]# vim cut.txt
    dong shen
    guan zhen
    wo wo
    lai lai
    le le
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    (2)切割 cut.txt 第一列

    [root@centos7-101 ~]# cut -d " " -f 1 cut.txt 
    dong
    guan
    wo
    lai
    le
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    (3)切割 cut.txt 第二、三列

    [root@centos7-101 ~]# cut -d " " -f 2 cut.txt 
    shen
    zhen
    wo
    lai
    le
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    (4)对登录用户按:剪切提取

    # 原始数据
    [root@centos7-101 ~]# cat /etc/passwd | grep bash$
    root:x:0:0:root:/root:/bin/bash
    user:x:1000:1000:user:/home/user:/bin/bash
    tianyu:x:1001:1001::/home/tianyu:/bin/bash
    qiqi:x:1002:1002::/home/qiqi:/bin/bash
    # 截取后数据
    [root@centos7-101 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 1,6,7
    root:/root:/bin/bash
    user:/home/user:/bin/bash
    tianyu:/home/tianyu:/bin/bash
    qiqi:/home/qiqi:/bin/bash
    # 截取1到4列
    [root@centos7-101 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 1-4
    root:x:0:0
    user:x:1000:1000
    tianyu:x:1001:1001
    qiqi:x:1002:1002
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    (5)在 cut.txt 文件中切割出 guan

    [root@centos7-101 ~]# cat cut.txt |grep guan | cut -d " " -f 1
    guan
    
    • 1
    • 2

    (6)选取系统 PATH 变量值,第 2 个“:”开始后的所有路径:

    # 截取原始数据
    [root@centos7-101 ~]# echo $PATH
    /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin
    # 截取第3列到最后
    [root@centos7-101 ~]# echo $PATH | cut -d ":" -f 3-
    /usr/sbin:/usr/bin:/root/bin
    # 截取第2列
    [root@centos7-101 ~]# echo $PATH | cut -d ":" -f 2
    /usr/local/bin
    # 截取第2列到5列
    [root@centos7-101 ~]# echo $PATH | cut -d ":" -f 2-5
    /usr/local/bin:/usr/sbin:/usr/bin:/root/bin
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    (7)切割 ifconfig 后打印的 IP 地址

    [root@centos7-101 ~]# ifconfig ens33 | grep netmask | cut -d " " -f 10
    192.168.0.101
    
    • 1
    • 2

    10.2 awk

    一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。

    1)基本用法
    awk [选项参数] ‘/pattern1/{action1} /pattern2/{action2}…’ filename
    pattern:表示 awk 在数据中查找的内容,就是匹配模式
    action:在找到匹配内容时所执行的一系列命令

    2)选项参数说明

    选项参数功能
    -F指定输入文件分隔符
    -v赋值一个用户定义变量

    3)案例实操

    (1)数据

    [root@centos7-101 ~]# cat /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    bin:x:1:1:bin:/bin:/sbin/nologin
    daemon:x:2:2:daemon:/sbin:/sbin/nologin
    ...
    
    • 1
    • 2
    • 3
    • 4
    • 5

    passwd 数据的含义
    用户名:密码(加密过后的):用户 id:组 id:注释:用户家目录:shell 解析器

    (2)搜索 passwd 文件以 root 关键字开头的所有行,并输出该行的第 7 列。

    [root@centos7-101 ~]# cat /etc/passwd | awk -F ":" '/^root/ {print $7}'
    /bin/bash
    
    • 1
    • 2

    (3)搜索 passwd 文件以 root 关键字开头的所有行,并输出该行的第 1 列和第 7 列,中间以“,”号分割。

    [root@centos7-101 ~]# cat /etc/passwd | awk -F ":" '/^root/ {print $1","$7}'
    root,/bin/bash
    
    • 1
    • 2

    注意:只有匹配了 pattern 的行才会执行 action。

    (4)只显示/etc/passwd 的第一列和第七列,以逗号分割,且在所有行前面添加列名 user,shell 在最后一行添加"dahaige,/bin/zuishuai"。

    [root@centos7-101 ~]# cat /etc/passwd | awk -F ":" 'BEGIN{print "user,shell"} {print $1","$7} END{print "end"}'
    user,shell
    root,/bin/bash
    ...
    user,/bin/bash
    tianyu,/bin/bash
    qiqi,/bin/bash
    end
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    注意:BEGIN 在所有数据读取行之前执行;END 在所有数据执行之后执行。

    (5)将 passwd 文件中的用户 id 增加数值 1 并输出

    [root@centos7-101 ~]# cat /etc/passwd | awk -v i=1 -F ":" '{print $3+i}'
    1
    2
    3
    ...
    
    • 1
    • 2
    • 3
    • 4
    • 5

    4)awk 的内置变量

    变量说明
    FILENAME文件名
    NR已读的记录数(行号)
    NF浏览记录的域的个数(切割后,列的个数)

    5)案例实操

    (1)统计 passwd 文件名,每行的行号,每行的列数

    [root@centos7-101 ~]# awk -F ":" '{print "文件名:" FILENAME "行:" NR "列:" NF }' /etc/passwd
    文件名:/etc/passwd行:1列:7
    文件名:/etc/passwd行:2列:7
    文件名:/etc/passwd行:3列:7
    ... 
    
    • 1
    • 2
    • 3
    • 4
    • 5

    (2)查询 ifconfig 命令输出结果中的空行所在的行号

    [root@centos7-101 ~]# ifconfig | awk '/^$/{print "空行:" NR}'
    空行:12
    空行:21
    空行:29
    
    • 1
    • 2
    • 3
    • 4

    (3)切割指定 IP

    [root@centos7-101 ~]# ifconfig ens33 | awk '/netmask/ {print $2}'
    192.168.0.101
    
    • 1
    • 2

    (4)切割所有 IP

    [root@centos7-101 ~]# ifconfig | awk '/netmask/ {print $2}'
    192.168.0.101
    127.0.0.1
    192.168.122.1
    
    • 1
    • 2
    • 3
    • 4
  • 相关阅读:
    云资源管理
    五、资源控制器
    【知识分享】C语言应用-易错篇
    Android-SQLite数据库实战
    未履行数据保护义务造成数据泄露,某大药房被罚110万
    Flutter Widgets 之 RubyText
    QT day3
    软件开发中常见的设计原则
    【从零开始学习 SystemVerilog】2.11、SystemVerilog 数据类型—— Array Manipulation(数组操作)
    AutoSar CP学习概要
  • 原文地址:https://blog.csdn.net/zhao854116434/article/details/128125607