• kubernetes中pause容器的作用与源码详解


    概述

    摘要:上一篇文章我们介绍了kubernetes是如何通过pause容器来构建一个pod。本文我们对pause容器做一个总结,并再此基础上次深入浅出,从pause容器的源码详细了解pause容器的实现原理。

    正文

    pause容器是什么

    • 在 Kubernetes 中,Pause 容器是一种特殊类型的容器,它的主要作用是为其他容器提供一个可靠的、隔离的运行环境

    • Pause 容器还可以为 Pod 中的容器提供一个稳定的网络环境(net命名空间),确保容器的网络连接可靠性。

    • Pause 容器是一种轻量级的容器,它本身不包含任何业务逻辑。

    • Pause 容器的实现是基于 Docker 的 pause 镜像,可以在创建其他容器之前将其加载到 Pod 中,以确保 Pod 中的其他容器在 Pause 容器的基础上运行。

    • kubelet启动的时候必须通过–pod-infra-container-image=指定pause容器的。

    注意: kubernetes中的sandbox或infra容器就是指pause容器。

    pause容器的作用

    • 1、与 Kubernetes 其他组件的交互
      Pause 容器作为 Pod 中的一个组件,与 Kubernetes 的其他组件(如 API 服务器、Controller Manager 等)进行交互。当 Pod 被创建时,API 服务器将 Pause 容器的配置信息存储在 etcd 中,并通知 Controller Manager 对 Pod 进行处理。Controller Manager 将 Pause 容器与 Pod 中的其他容器一起调度到节点上运行。

    • 2、管理容器的生命周期
      Pause 容器通过使用名为 /pause 的进程来管理其他容器的生命周期。当 Pod 中的其他容器启动时,/pause 进程会将这些容器的启动信息记录在特定的文件中。当 Pod 被删除时,/pause 进程会检测到该文件并停止记录,以确保 Pod 中的容器在 Pause 容器的基础上一致地执行生命周期操作。

    • 3、实现容器之间的协调合作
      Pause 容器还通过使用 cni 网络插件来实现容器之间的协调合作。当 Pod 中的其他容器启动时,cni 网络插件将为这些容器分配 IP 地址并设置网络连接。这确保了 Pod 中的各个容器可以互相通信,实现协调合作。

    pause容器进入的方法

    默认情况下,kubenets会将pod中的pause容器隐藏,无法通过kubectl get pod -oyaml查看,也无法通过kubectl exec 方式进入 pause容器。那么如何才能进入到pause容器内呢?答案是使用nsenter工具

    不会显示pause容器

    root@dg02-k8s-pnode1:~# kubectl get pod blog -oyaml |grep -A 5 containerID |grep name
        name: nginx
        name: wordpress
    

    无法进入pause容器

    root@dg02-k8s-pnode1:~# kubectl exec -it  blog -c nginx  -- hostname
    blog
    root@dg02-k8s-pnode1:~# kubectl exec -it  blog -c wordpress   -- hostname
    blog
    root@dg02-k8s-pnode1:~# kubectl exec -it  blog -c pause  -- hostname
    Error from server (BadRequest): container pause is not valid for pod blog
    

    登录宿主,可以看到名为pod的blog的包括3个容器,其中0ba9e933f876就是pause容器,从容器的启动命令是/pause可以确定

    root@dg02-k8s-pnode3:~# docker ps |grep blog
    92ed1b5ec240        5848c6a70fbb                                        "/start.sh"              23 hours ago        Up 23 hours                             k8s_wordpress_blog_default_ae1cef6f-fb64-48b1-85ab-c2741531f62c_0
    f65ef066d577        5848c6a70fbb                                        "/start.sh"              23 hours ago        Up 23 hours                             k8s_nginx_blog_default_ae1cef6f-fb64-48b1-85ab-c2741531f62c_0
    0fbd3a8cdf87        mirrors.myoas.com/nebula-docker/seg/pod/pause:3.1   "/pause"                 23 hours ago        Up 23 hours                             k8s_POD_blog_default_ae1cef6f-fb64-48b1-85ab-c2741531f62c_0
    

    从宿主上尝试docker exec进入容器也不行,因为pause容器中没有sh环境

    root@dg02-k8s-pnode3:~# docker exec -it 0fbd3a8cdf87 sh
    OCI runtime exec failed: exec failed: container_linux.go:345: starting container process caused "exec: \"sh\": executable file not found in $PATH": unknown
    root@dg02-k8s-pnode3:~#
    

    查看pause容器在宿主中的pid

    root@dg02-k8s-pnode3:~# docker inspect 0fbd3a8cdf87  |grep -i pid
                "Pid": 324460,
                "PidMode": "",
                "PidsLimit": 0,
    

    查看pause容器对于的pid的状态

    root@dg02-k8s-pnode3:~# cat /proc/324460/status |head
    Name:	pause
    Umask:	0022
    State:	S (sleeping)
    Tgid:	324460
    Ngid:	0
    Pid:	324460
    PPid:	324437
    TracerPid:	0
    Uid:	0	0	0	0
    Gid:	0	0	0	0
    

    通过nsenter进入pause容器的网络命名空间

    可以看到pause容器为pod提供一个网络命名空间,路由是192.168.26.0/24。而非宿主的路由表。

    root@dg02-k8s-pnode3:~# nsenter -t  324460 -n bash
    root@dg02-k8s-pnode3:~# ip a
    1: lo:  mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
        link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
        inet 127.0.0.1/8 scope host lo
           valid_lft forever preferred_lft forever
    3: eth0@if12:  mtu 1450 qdisc noqueue state UP group default
        link/ether d6:1c:8e:24:f4:5b brd ff:ff:ff:ff:ff:ff link-netnsid 0
        inet 192.168.26.103/24 brd 192.168.26.255 scope global eth0
           valid_lft forever preferred_lft forever
    root@dg02-k8s-pnode3:~# ip route show
    default via 192.168.26.1 dev eth0
    192.168.0.0/16 via 192.168.26.1 dev eth0
    192.168.26.0/24 dev eth0  proto kernel  scope link  src 192.168.26.103
    root@dg02-k8s-pnode3:~#
    

    从pause容器对于的网络命名空间退出,查看路由表,则显示的是宿主的路由信息

    root@dg02-k8s-pnode3:~# exit
    exit
    root@dg02-k8s-pnode3:~# ip route show
    default via 10.234.0.1 dev eth0
    10.234.0.0/18 dev eth0  proto kernel  scope link  src 10.234.12.77
    169.254.0.0/16 dev eth0  scope link  metric 1000
    192.168.3.0/24 dev docker0  proto kernel  scope link  src 192.168.3.1 linkdown
    192.168.26.0/24 dev cni0  proto kernel  scope link  src 192.168.26.1
    192.168.38.0/24 via 192.168.38.0 dev flannel.1 onlink
    192.168.60.0/24 via 192.168.60.0 dev flannel.1 onlink
    root@dg02-k8s-pnode3:~#
    

    pause容器的源码解析

    说明:基于 kubernetes v1.12.0 源码分析

    源码路径:k8s.io/kubernetes/build/pause/pause.c

    源码中相关代码结构:

    在这里插入图片描述

    pause容器的相关代码主要包括三个文件:

    pause.c:pause容器中的pause程序的源码

    Makefile:由于pause.c程序代码是C语言编写,这里用Makefile来构建编译成二进制可执行文件

    Dockerfile: 用于将二进制程序pause,打包成docker镜像

    pause.c源码解读

    pause.c 源码中主要做三件事情.

    • 如果参数是-v,则打印版本号后退出

    • 定义处理三种信号的两个hanlder处理函数。主要处理两类信息:SIGINT、SIGTERM 退出信号和 SIGCHLD 信号. 当收到 SIGINT 或是 SIGTERM 后, pause 进程可直接退出. 收到 SIGCHLD 信号, 则调用 waitpid 进行回收进程.

    • 主进程 for 循环调用 pause() 函数,使进程阻塞并处于永久"睡觉"状态, 不占用 cpu 资源, 直到被终止或是收到信号。

    注意特别说明:

    • pod运行后,pause进程会作为 pod中PID 1的角色,当僵尸进程被父进程孤立时,pause.c代码中通过调用waitpid() 可以来捕获僵尸进程(参见sigreap)。这样我们就不会让僵尸在Kubernetes pod的PID命名空间中堆积。

    • 什么是僵尸进程 ? 简单说当子进程已经退出, 但因为其父进程没有回收释放, 导致仍然在进程表中的存在. 这里父进程需要调用 waitpid 系统调用来回收进行. 其实直接在 main 里配置忽略 SIGCHLD 信号也可以, 这样子进程的僵尸回收交给了 init 首进程, 也就是内核进程帮忙回收, 但不适合容器场景,因为容器里面init不是PID 1号进程.

    #include 
    #include 
    #include 
    #include 
    #include 
    #include 
    #include 
    
    #define STRINGIFY(x) #x
    #define VERSION_STRING(x) STRINGIFY(x)
    
    #ifndef VERSION
    #define VERSION HEAD
    #endif
    
    /* 当收到 SIGINT, SIGTERM 两种信号后,会调用该函数. */
    static void sigdown(int signo) {
      /* psignal() 函数用于将信号的编号转换为对应的信号名称,并将以指定格式打印到标准错误(stderr)。 */
      psignal(signo, "Shutting down, got signal");
      /* SIGINT 和 SIGTERM 都是正常干掉进程, exit code 为 0. */
      exit(0);
    }
    
    /* 当收到 SIGCHLD 信号也就是有子进程退出时,会调用该函数. */
    static void sigreap(int signo) {
      /* waitpid 监听进程组的子进程退出, WNOHANG 是非阻塞标记, 当没有找到子进程退出时, 不会阻塞. */
      /* -1 是什么? 1 为 pod 主进程, 通常也是pgid, -1 则是表示等待任意的子进程  */
      /* NULL 表示不获取子进程的退出状态 */
      while (waitpid(-1, NULL, WNOHANG) > 0)
        ;
    }
    
    /* 函数入口 */
    int main(int argc, char **argv) {
      int i;
      
      /* 打印 pause.c 版本 */
      for (i = 1; i < argc; ++i) {
        if (!strcasecmp(argv[i], "-v")) {
          printf("pause.c %s\n", VERSION_STRING(VERSION));
          return 0;
        }
      }
    
      
      
      if (getpid() != 1)
        /* 如果不是 1 号进程, 则打印错误.pause 进程在容器中必须已 1号进程运行 */
        fprintf(stderr, "Warning: pause should be the first process\n");
    
      
      
      /* 注册 signal 信号对应的回调方法 */
      if (sigaction(SIGINT, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
        // 当收到 SIGINT 信号,则调用上面定义的 sigdown()函数处理 
        return 1;
      if (sigaction(SIGTERM, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
         // 当收到 SIGTERM 信号,则调用上面定义的 sigdown()函数处理 
        return 2;
      if (sigaction(SIGCHLD, &(struct sigaction){.sa_handler = sigreap,
                                                 .sa_flags = SA_NOCLDSTOP},
                    NULL) < 0)
        // 当收到 SIGCHLD 信号,则调用上面定义的 sigreap()函数处理 
        return 3;
    
      // 循环等待
      for (;;)
        pause(); // 阻塞并等待 signal 信号
      fprintf(stderr, "Error: infinite loop terminated\n");
      return 42;
    }
    

    源码是有C语言编写,为了深刻理解pause.c代码,接下来我们对源码涉及的函数与系统调用方法进行逐一讲解与验证。

    singal的种类

    linux中信号用于通知进程发生了特定的事件或在进程之间进行通信。以下是一些常见的信号(不完整列表)以及它们的基本含义:

    SIGTERM:终止信号,用于请求进程正常终止。
    SIGKILL:强制终止信号,用于立即终止进程。
    SIGSTOP:停止信号,用于暂停进程的执行。
    SIGCONT:继续信号,用于恢复被停止的进程的执行。
    SIGCHLD:子进程状态改变信号,用于通知父进程子进程的退出或停止。
    SIGUSR1 和 SIGUSR2:用户自定义信号,可用于进程间自定义通信。
    SIGHUP:终端挂起信号,用于通知进程它的终端口是否断开连接。
    SIGPIPE:管道破裂信号,用于通知进程写入了一个已关闭的管道。
    SIGSEGV:段错误信号,用于通知进程访问了无效的内存地址。
    SIGBUS:总线错误信号,用于通知进程发生了总线错误。
    SIGILL:非法指令信号,用于通知进程执行了非法的机器指令。
    SIGFPE:浮点数异常信号,用于通知进程发生了浮点数运算异常。
    SIGALRM:定时器到时信号,用于定时器事件。
    SIGUSR1SIGUSR2:用户自定义信号,可用于进程间自定义通信

    psingal()

    UNIX-like 系统中,psignal() 函数用于将信号的编号转换为对应的信号名称,并将以指定格式打印到标准错误(stderr)。
    psignal() 函数位于 头文件中,其函数原型如下:

    void psignal(int signum, const char *msg);

    参数说明:
    signum:要转换的信号编号。
    msg:附加的用户自定义消息字符串,可以为空。
    关于信号编号,可以使用 中定义的常量,如 SIGINT、SIGTERM 等。
    以下是一个简单的示例程序,演示 psignal() 函数的用法:

    root@dg02-k8s-pnode1:~/pause# cat psignal.c
    #include 
    #include 
    
    int main() {
        /* int signum = SIGILL;*/
        int signum = SIGINT;
    
        psignal(signum, "Shutting down, got signal");
    
        return 0;
    }
    

    上述程序中调用了 psignal() 函数,将信号编号 SIGILL 转换为对应的信号名称并输出到标准错误流。可通过在终端运行该程序,触发信号 SIGILL 来查看结果。
    输出类似于:

    root@dg02-k8s-pnode1:~/pause# gcc psignal.c  -o psingal.out
    root@dg02-k8s-pnode1:~/pause# ./psingal.out
    Shutting down, got signal: Interrupt
    

    注意:
    psignal() 函数会将错误消息输出到标准错误流,因此在终端中可能无法捕捉到输出,但可以通过重定向或其他方法进行处理。
    psignal() 函数是线程安全的,在多线程环境下也可以正常使用

    waitpid()

    waitpid() 是一个在操作系统中非常常见的函数,用于等待一个子进程的终止。它的主要作用是将父进程挂起,直到指定的子进程退出或被信号中断。 以下是该函数的介绍:

    pid_t waitpid(pid_t pid, int *status, int options);

    pid 参数指定要等待的子进程的进程ID:
    pid > 0:等待指定进程ID的子进程
    pid = -1:等待任意子进程
    pid = 0:等待与调用进程属于同一进程组的所有子进程。
    pid < -1:等待与进程组ID等于pid绝对值的任意子进程。
    status 参数是一个整型指针,用于存储子进程的终止状态。可以通过一些宏和函数来解释状态:
    WIFEXITED(status):如果子进程正常退出,则返回true。
    WEXITSTATUS(status):如果WIFEXITED()返回true,则返回子进程的退出状态。
    WIFSIGNALED(status):如果子进程由于未捕获的信号而终止,则返回true。
    WTERMSIG(status):如果WIFSIGNALED()返回true,则返回导致子进程终止的信号编号。
    options 参数是一个整型值,用于指定等待的行为和选项,例如:
    WNOHANG:如果没有可用的子进程退出,则立即返回,而不挂起父进程。
    WUNTRACED:如果子进程进入暂停状态,也返回。

    while (waitpid(-1, NULL, WNOHANG) > 0)

    waitpid(-1, NULL, WNOHANG) 表示等待任意一个子进程退出,参数中的 -1 表示等待任意子进程,NULL 表示不获取子进程的退出状态,WNOHANG 表示非阻塞方式。该函数会立即返回:
    如果有子进程退出,返回值为子进程的进程ID(PID);
    如果没有子进程退出,返回值为 0。

    waitpid(-1, NULL, WNOHANG) > 0中,检查waitpid()返回值是否大于 0,即是否有子进程退出。如果有子进程退出,进入循环体内执行相应的操作。
    通过这段代码,父进程可以在不阻塞的情况下,检查是否有子进程退出,并采取相应的处理机制。

    注意,该代码片段在一个循环内while (waitpid(-1, NULL, WNOHANG) > 0),那么就可以连续获得多个子进程退出的信息。
    以下是一个示例说明该代码的用途(C语言):

    #include 
    #include 
    #include 
    #include 
    
    int main() {
        pid_t childPid;
        int i;
    
        for (i = 0; i < 5; i++) {
            childPid = fork();
    
            if (childPid == 0) {
                // 子进程
                sleep(i + 1);
                return i + 1;
            }
        }
    
        // while 循环等待所有子进程的退出
        while (waitpid(-1, NULL, WNOHANG) > 0) {
            // 等待子进程退出,并进行相关处理
            printf("子进程退出\n");
        }
    
        printf("所有子进程退出\n");
    
        return 0;
    }
    
    

    代码编译、运行与输出

    root@dg02-k8s-pnode1:~/pause# gcc mywaitpid.c -o mywaitpid.out
    root@dg02-k8s-pnode1:~/pause# ./mywaitpid.out
    所有子进程退出
    

    上述代码创建了5个子进程,每个子进程在不同的时间间隔后退出。父进程使用 waitpid(-1, NULL, WNOHANG) 在循环中检查是否有子进程退出,如果有子进程退出,则输出相应的信息。当所有子进程都退出后,跳出循环并输出相应的信息。

    pause()

    UNIX-like 系统中, pause() 是一个系统调用函数,用于使调用进程暂停执行,直到收到一个信号为止。pause() 函数可以用于等待信号的到来,然后根据信号的类型采取相应的行动。
    pause() 函数位于 头文件中,其函数原型如下:

    int pause(void);

    该函数没有参数,返回值为 -1 且设置 errno 为 EINTR 在收到信号时。
    以下是一个简单的示例程序,演示 pause() 函数的用法:

    #include 
    #include 
    #include 
    
    void handler(int signum) {
        printf("收到信号 %d\n", signum);
    }
    
    int main() {
        printf("等待信号...\n");
    
        // 注册信号处理函数
        signal(SIGINT, handler);
    
        // 阻塞并等待信号
        pause();
    
        printf("退出程序\n");
    
        return 0;
    }
    
    

    代码编译、运行与输出

    root@dg02-k8s-pnode1:~/pause# gcc pause.c -o pause.out
    root@dg02-k8s-pnode1:~/pause# ./pause.out
    等待信号...
    ^C收到信号 2
    退出程序
    

    上述程序中先注册了信号处理函数 handler()。程序会在 pause() 函数处等待信号的到来,如果收到 SIGINT 信号(例如按下 Ctrl+C),则调用信号处理函数输出相应信息并返回程序继续执行。
    需要注意的是,pause() 函数虽然看起来像是一个阻塞式函数,但实际上当接收到一个信号时,它会立即返回并设置 errno 为 EINTR。因此,如果没有正确的信号处理函数,pause() 函数可能会导致程序一直阻塞。

    pause容器镜像的构建

    利用Makefile将pause.c源码编译成二进制可执行文件pause后,放到bin/pause-${ARCH}目录下后.接下来就可以使用Dockerfile,将二进制文件打包成docker镜像了。由于Makefile涉及特定的语法,这里就不展开描述,如感兴趣可以查看源码。

    接下来再看看源码中的Dokerfile内容:

    FROM scratch
    ARG ARCH
    ADD bin/pause-${ARCH} /pause
    ENTRYPOINT ["/pause"]
    
    

    内容很简单,基础镜像是scratch,将pause二进制可执行文件,放到镜像的/目录下,再设置启动命令/pause

    总结

    本文从详细介绍pause.c源码的执行逻辑,在此基础上并总结了pause容器的作用。进过本文的学习我们对pause容器的实现有了本质的认识。

    参考文档

    https://linux.die.net/man/2/waitpid

    https://github.com/rfyiamcool/notes/blob/main/kubernetes_pause_code.md

    https://cloud.tencent.com/developer/article/1356655

  • 相关阅读:
    两数之和-(哈希)
    世界港口数据获取
    【故障公告】没有龙卷风,k8s集群翻船3次,投用双集群恢复
    目标检测 YOLOv5 - YOLOv5最新版本 6.2支持ncnn推理
    电动自行车CE认证、电动滑板车CE认证审核新标准解析
    vue之组件传值---父传子(属性)---子传父(emit,sync,v-model)
    MyEclipse 新手使用教程
    磁场发生器EM1电磁铁的主要技术参数
    【8.6】代码源 - 【前缀集】【矩阵游戏】【谁才是最终赢家?】【放置多米诺骨牌】
    CXYGZL实现钉钉、飞书和微信全面覆盖!!!
  • 原文地址:https://blog.csdn.net/xsw164711368/article/details/142304415