• Kubernetes:(五)Pod进阶(资源限制、健康检查)


    目录

    一:资源限制

    1.1概念

    1.2Pod和容器的资源请求和限制

    1.3CPU资源单位

    1.4内存资源单位

    1.5CPU和内存的Requests和Limits的特点

    1.6示例

    1.7释放内存(node节点,以node01为例)

    1.7.1查看内存

    二:健康检查(探针Probe) 

    2.1探针的三种规则

    2.2Probe支持的三种检查方法

    2.3探测获得的三种结果

    三:示例

    3.1示例1 exec方式

    3.2示例2 httpGet方式

    3.3示例3 tcpSocket 方式 

    3.4示例4 配置就绪探测 httpGet的方式

    3.5就绪探测示例2

    四:总结

    4.1探针(3 种) 

    4.2检查方式(3种)

    4.3探针可选的参数

    4.4重启策略

    一:资源限制

    1.1概念

    • 当定义 Pod 时可以选择性地为每个容器设定所需要的资源数量。最常见可设定资源是 CPU 和内存大小,以及其他类型的资源
    • 当为 Pod 中的容器指定了 request资源时,调度器就使用该信息来决定将 Pod 调度到哪个节点上。当还为容器指定了limit资源时,kubelet 就会确保运行的容器不会使用超出所设的 limit 资源量。kubelet 还会为容器预留所设的 request 资源量,供该容器使用
    • 如果 Pod 运行所在的节点具有足够的可用资源,容器可以使用超出所设置的 request 资源量。不过,容器不可以使用超出所设置的 limit 资源量
    • 如果给容器设置了内存的 limit 值,但未设置内存的 request 值,Kubernetes 会自动为其设置与内存 limit 相匹配的 request值。类似的,如果给容器设置了 CPU 的 limit 值但未设置CPU 的 request 值,则 Kubernetes 自动为其设置 CPU 的 request 值 并使之与CPU 的 limit 值匹配

    官网示例:

    https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/

    1.2Pod和容器的资源请求和限制

    1. 定义创建容器时预分配的CPU资源
    2. spec.containers[].resources.requests.cpu
    3. 定义创建容器时预分配的内存资源
    4. spec.containers[].resources.requests.memory
    5. 定义创建容器时预分配的巨页资源
    6. spec.containers[].resources.requests.hugepages-
    7. 定义cpu的资源上限
    8. spec.containers[].resources.limits.cpu
    9. 定义内存的资源上限
    10. spec.containers[].resources.limits.memory
    11. 定义巨页的资源上限
    12. spec.containers[].resources.limits.hugepages-

    1.3CPU资源单位

    • CPU 资源的 request 和 limit 以 cpu 为单位。Kubernetes 中的一个 cpu 相当于1个 vCPU(1个超线程)
    • Kubernetes 也支持带小数 CPU 的请求。spec.containers[].resources.requests.cpu 为0.5的容器能够获得一个 cpu 的一半 CPU资源(类似于Cgroup对CPU资源的时间分片)。表达式0.1等价于表达式 100m(毫秒),表示每1000毫秒内容器可以使用的CPU时间总量为0.1*1000 毫秒

    1.4内存资源单位

    • 内存的 request 和 limit 以字节为单位。 可以以整数表示,或者以10为底数的指数的单位(E、P、T、G、M、K)来表示,或者以2为底数的指数的单位(Ei、Pi、Ti、Gi、Mi、Ki)来表示。如1KB=103=1000,1MB=106=1000000=1000KB,1GB=10^9=1000000000=1000MB 1KiB=2^10=1024, 1MiB=2^20=1048576=1024KiB
    • PS∶在买硬盘的时候,操作系统报的数量要比产品标出或商家号称的小一些,主要原因是标出的是以 MB、GB为单位的,1GB就是1,000,000,000Byte,而操作系统是以2进制为处理单位的,,因此检查硬盘容量时是以MiB、GiB为单位,1GB=2^30=1,073,741,824,相比较而言,1GiB要比1GB多出1,073,741,824-1,000,000,000=73,741,824Byte,所以检测实际结果要比标出的少—些

    1.5CPU和内存的Requests和Limits的特点

    • Requests和Limits都是可选的。在Pod创建和更新时,如果未设置Requests和Limits,则使用系统提供的默认值,该默认值取决于集群配置。
    • 如果Requests没有配置,默认被设置等于Limits。
    • requests 是创建容器时需要预留的资源量。如果无法满足,则pod 无法调度。但是,这不是容器运行实际使用的资源,容器实际运行使用的资源可能比这个大,也可能比这个小。
    • Limit 是限制pod容器可以使用资源的上限。容器使用的资源无法高于这个限制任何情况下Limits都应该设置为大于或等于Requests。

    1.6示例

    1. [root@master ~]# vim demo1.yaml
    2. apiVersion: v1
    3. kind: Pod
    4. metadata:
    5. name: frontend
    6. spec:
    7. containers:
    8. - name: web
    9. image: nginx
    10. env:
    11. - name: WEB_ROOT_PASSWORD
    12. value: "password"
    13. resources:
    14. #此容器预分配资源:内存为 64Mi ; 每个cpu 分配250m
    15. requests:
    16. memory: "64Mi"
    17. cpu: "250m"
    18. #此容器限制使用资源(最大): 内存最大使用128Mi,每个cpu最大分配500m
    19. limits:
    20. memory: "128Mi"
    21. cpu: "500m"
    22. - name: db
    23. image: mysql
    24. env:
    25. - name: MYSQL_ROOT_PASSWORD
    26. value: "abc123"
    27. resources:
    28. #此容器的预分配资源:内存预分配为512Mi;cpu预分配为每个cpu的50%,即1000*50%=500m
    29. requests:
    30. memory: "512Mi"
    31. cpu: "0.5"
    32. #此容器的限制使用资源配额为:内存最大使用1Gi;cpu最大使用1000m
    33. limits:
    34. memory: "1Gi"
    35. cpu: "1"
    36. #pod有两个容器,web 和db。所以,总的请求资源和限制资源为 web 和db 请求,限制资源总和。
    37. #其中,cpu 的资源请求和限制,是以单个cpu 资源进行计算的。如果有多个cpu,则最终的结果是数值*N
    1. apiVersion: v1
    2. kind: Pod
    3. metadata:
    4. name: frontend
    5. spec:
    6. containers:
    7. - name: web
    8. image: nginx
    9. env:
    10. - name: WEB_ROOT_PASSWORD
    11. value: "password"
    12. resources:
    13. requests:
    14. memory: "64Mi"
    15. cpu: "250m"
    16. limits:
    17. memory: "128Mi"
    18. cpu: "500m"
    19. - name: db
    20. image: mysql
    21. env:
    22. - name: MYSQL_ROOT_PASSWORD
    23. value: "abc123"
    24. resources:
    25. requests:
    26. memory: "512Mi"
    27. cpu: "0.5"
    28. limits:
    29. memory: "1Gi"
    30. cpu: "1"

    1. kubectl apply -f demo1.yaml
    2. #成功部署好后查看状态
    3. kubectl get pods
    4. kubectl describe pod frontend

    1. #查看pod的详细信息,查看pod被调度到了哪个node节点
    2. kubectl get pod -o wide
    3. #查看node01 节点的信息
    4. kubectl describe nodes node01

    1.7释放内存(node节点,以node01为例)

    由于mysql对于内存的使用要求比较高,因此需要先检查内存的可用空间是否能够满足mysql的正常运行,若剩余内存不够,可对其进行释放操作。

    1.7.1查看内存

    1. [root@node01 ~]# free -mh
    2. total used free shared buff/cache available
    3. Mem: 1.9G 1.0G 86M 26M 870M 663M
    4. Swap: 0B 0B 0B

    内存总量为1.9G,实际使用1G,因此可有内存应该为0.9G左右。
    但是由于有870M的内存被用于缓存,导致了free仅为86M。
    86M剩余可用内存显然是不够用的,因此需要释放缓存。

    手动释放缓存

    echo [1\2\3] > /proc/sys/vm/drop_caches

    1. [root@node01 ~]# cat /proc/sys/vm/drop_caches
    2. 0
    3. [root@node01 ~]# echo 3 > /proc/sys/vm/drop_caches
    4. [root@node01 ~]# free -mh
    5. total used free shared buff/cache available
    6. Mem: 1.9G 968M 770M 26M 245M 754M

    0:0是系统默认值,默认情况下表示不释放内存,由操作系统自动管理
    1:释放页缓存
    2:释放dentries和inodes
    3:释放所有缓存

    注意:
    如果因为是应用有像内存泄露、溢出的问题,从swap的使用情况是可以比较快速可以判断的,但free上面反而比较难查看。相反,如果在这个时候,我们告诉用户,修改系统的一个值,“可以”释放内存,free就大了。用户会怎么想?不会觉得操作系统“有问题”吗?所以说,既然核心是可以快速清空buffer或cache,也不难做到(这从上面的操作中可以明显看到),但核心并没有这样做(默认值是0),我们就不应该随便去改变它。
    一般情况下,应用在系统上稳定运行了,free值也会保持在一个稳定值的,虽然看上去可能比较小。当发生内存不足、应用获取不到可用内存、OOM错误等问题时,还是更应该去分析应用方面的原因,如用户量太大导致内存不足、发生应用内存溢出等情况,否则,清空buffer,强制腾出free的大小,可能只是把问题给暂时屏蔽了。


    二:健康检查(探针Probe) 

    健康检查,又名探针(Probe):探针是由kubelet对容器执行定期诊断

    2.1探针的三种规则

    StartupProbe(1.17版本新增):判断容器内的应用程序是否已经启动,主要针对于不能确定具体启动时间应用。如果配置了startupProbe探测,则在startuProbe状态为success 之前,其他所有探针都处于无效状态,知道它成功后其他探针才起作用。如果startupProbe失败,kubelet将杀死容器你,容器将根据restartPolicy来重启。如果容器没有配置startupProbe,则默认状态为Success。

    LivenessProbe(存活性探针):判断容器是否正在运行。如果探测失败,则kubectl 会杀死容器,并且容器将根据 restartPolicy 来设置 Pod 状态。如果容器不提供存活探针,则默认状态为Success。

    • 存活性探测,判断pod是否需要重启 

    ReadinessProbe(就绪性探针)一般用于探测容器内的程序是否健康,它的返回值如果为success,那么就代表这个容器已经完成启动,并且程序已经是可以接受流量的状态。

    • 就绪性探测,判断pod是否能够提供正常服务。

    注:以上规则可以同时定义。在readinessProbe检测成功之前,Pod的running状态是不会变成ready状态。

    startupProbe、livenessProbe、ReadinessProbe之间的区别:

    startupProbe: pod只检测一次,剩下的两种只要你的pod存在就会一直去检测

    livenessProbe、ReadinessProbe:建议使用接口级的健康检查

    2.2Probe支持的三种检查方法

    Exec:在容器内执行一个命令,如果返回值为0,则认为容器健康。

    TCPSocket:通过TCP连接检查容器内的端口是否是通的,如果是通的就认为容器健康。

    HTTPGet:通过应用程序暴露的API地址来检查程序是否是正常的,如果状态码为200~400之间,则认为容器健康。

    2.3探测获得的三种结果

    每次探测,都将会获得以下三种结果之一:

    • 成功: 容器通过了诊断
    • 失败: 容器未通过诊断
    • 未知:诊断失败,因此不会采取任何行动

    三:示例

    3.1示例1 exec方式

    exec 官网示例

    配置存活、就绪和启动探测器 | Kubernetes
    1. vim demo2.yaml
    2. ==========================================================
    3. apiVersion: v1
    4. kind: Pod
    5. metadata:
    6. labels:
    7. test: liveness
    8. name: liveness-exec
    9. spec:
    10. containers:
    11. - name: liveness
    12. image: busybox
    13. args:
    14. - /bin/sh
    15. - -c
    16. - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 60
    17. livenessProbe:
    18. exec:
    19. command:
    20. - cat
    21. - /tmp/healthy
    22. failureThreshold: 1
    23. initialDelaySeconds: 5
    24. periodSeconds: 5

    探针可选的参数:

    • initialDelaySeconds∶指定 kubelet 在执行第一次探测前应该等待5秒,即第一次探测是在容器启动后的第6秒才开始执行。默认是 0 秒,最小值是 0。
    • periodSeconds∶指定了 kubelet 应该每 5 秒执行一次存活探测。默认是 10 秒。最小值是 1。
    • failureThreshold∶当探测失败时,Kubernetes 将在放弃之前重试的次数。存活探测情况下的放弃就意味着重新启动容器。就绪探测情况下的放弃 Pod 会被打上未就绪的标签。默认值是 3。最小值是 1。
    • timeoutSeconds∶探测超时后等待多少秒。默认值是 1 秒。最小值是 1。(在 Kubernetes 1.20 版本之前,exec 探针会忽略timeoutSeconds 探针会无限期地持续运行,甚至可能超过所配置的限期,直到返回结果为止。)

    在这个配置文件中,可以看到 Pod 中只有一个容器。

    periodSeconds 字段指定了 kubelet 应该每 5 秒执行一次存活探测。

    initialDelaySeconds 字段告诉 kubelet 在执行第一次探测前应该等待 5 秒。

    kubelet 在容器内执行命令 cat /tmp/healthy 来进行探测。 如果命令执行成功并且返回值为 0,kubelet 就会认为这个容器是健康存活的。 如果这个命令返回非 0 值,kubelet 会杀死这个容器并重新启动它。

    1. #创建pod
    2. kubectl create -f demo2.yaml
    3. #跟踪查看pod 信息
    4. kubectl get pod -o wide -w
    5. #新开一个终端,查看pod 的消息信息
    6. kubectl describe pod liveness-exec

    3.2示例2 httpGet方式

    1. vim demo3.yaml
    2. ==========================================================
    3. apiVersion: v1
    4. kind: Pod
    5. metadata:
    6. name: liveness-httpget
    7. namespace: default
    8. spec:
    9. containers:
    10. - name: liveness-httpget-container
    11. image: nginx
    12. imagePullPolicy: IfNotPresent
    13. ports:
    14. - name: nginx
    15. containerPort: 80
    16. livenessProbe:
    17. httpGet:
    18. port: nginx #指定端口,这里使用的是之前的ports里的name,也可以直接写端口
    19. path: /index.html #指定路径
    20. initialDelaySeconds: 1
    21. periodSeconds: 3
    22. timeoutSeconds: 10

    在这个配置文件中, 可以看到 Pod 也只有一个容器。initialDelaySeconds 字段告诉 kubelet 在执行第一次探测前应该等待 3秒。periodSeconds 字段指定了 kubelet 每隔 3 秒执行一次存活探测。 timeoutSeconds字段指定了超时等待时间为10S,kubelet 会向容器内运行的服务(服务会监听 80端口)发送一个HTTP GET 请求来执行探测。如果服务器上/index.html路径下的处理程序返回成功代码,则 kubelet 认为容器是健康存活的。如果处理程序返回失败代码,则 kubelet 会杀死这个容器并且重新启动它。

    任何大于或等于 200 并且小于 400 的返回代码标示成功,其它返回代码都标示失败。

    1. #加载yaml文件
    2. kubectl create -f demo3.yaml
    3. #进入容器删除网页文件进行测试
    4. kubectl exec -it liveness-httpget -- rm -rf /usr/share/nginx/html/index.html
    5. #查看pod的详细参数
    6. kubectl get pod
    7. kubectl describe pod liveness-httpget

    3.3示例3 tcpSocket 方式 

    官方示例:

    1. apiVersion: v1
    2. kind: Pod
    3. metadata:
    4. name: goproxy
    5. labels:
    6. app: goproxy
    7. spec:
    8. containers:
    9. - name: goproxy
    10. image: k8s.gcr.io/goproxy:0.1
    11. ports:
    12. - containerPort: 8080
    13. readinessProbe:
    14. tcpSocket:
    15. port: 8080
    16. initialDelaySeconds: 5
    17. periodSeconds: 10
    18. livenessProbe:
    19. tcpSocket:
    20. port: 8080
    21. initialDelaySeconds: 15
    22. periodSeconds: 20

    如你所见,TCP 检测的配置和 HTTP 检测非常相似。 下面这个例子同时使用就绪(readinessProbe)和存活(livenessProbe)探测器。

    kubelet 会在容器启动 5 秒后发送第一个就绪探测。 这会尝试连接 goproxy 容器的 8080 端口。 如果探测成功,这个 Pod 会被标记为就绪状态,kubelet 将继续每隔 10 秒运行一次检测。

    除了就绪探测,这个配置包括了一个存活探测。 kubelet 会在容器启动 15 秒后进行第一次存活探测。 与就绪探测类似,会尝试连接 goproxy 容器的 8080 端口。 如果存活探测失败,这个容器会被重新启动

    编写tcpSocket 方式示例

    1. [root@master ~]# vim tcpsocket.yaml
    2. apiVersion: v1
    3. kind: Pod
    4. metadata:
    5. name: probe-tcp
    6. spec:
    7. containers:
    8. - name: nginx
    9. image: soscscs/myapp:v1
    10. livenessProbe:
    11. initialDelaySeconds: 5
    12. timeoutSeconds: 1
    13. tcpSocket:
    14. port: 8080
    15. periodSeconds: 3

    1. kubectl create -f tcpsocket.yaml
    2. #查看容器里的端口(查看有无8080端口)
    3. kubectl exec -it probe-tcp -- netstat -natp
    4. #查看pod的状态和详细信息
    5. [root@master ~]# kubectl get pods
    6. [root@master ~]# kubectl describe pod probe-tcp

    3.4示例4 配置就绪探测 httpGet的方式

    1. [root@master ~]# vim readiness-httpget.yaml
    2. apiVersion: v1
    3. kind: Pod
    4. metadata:
    5. name: readiness-httpget
    6. namespace: default
    7. spec:
    8. containers:
    9. - name: readiness-httpget-container
    10. image: soscscs/myapp:v1
    11. imagePullPolicy: IfNotPresent
    12. ports:
    13. - name: http
    14. containerPort: 80
    15. readinessProbe:
    16. httpGet:
    17. port: 80
    18. path: /index1.html
    19. initialDelaySeconds: 1
    20. periodSeconds: 3
    21. livenessProbe:
    22. httpGet:
    23. port: http
    24. path: /index.html
    25. initialDelaySeconds: 1
    26. periodSeconds: 3
    27. timeoutSeconds: 10
    1. #创建pod
    2. [root@master ~]# kubectl create -f readiness-httpget.yaml
    3. #查看pod的详细信息
    4. [root@master ~]# kubectl get pod -w
    5. [root@master ~]# kubectl describe pod readiness-httpget
    6. #此时,因为容器里没有 index1.html文件,所以,httpGet的就绪探测失败
    7. [root@master ~]# kubectl exec -it readiness-httpget -- ls /usr/share/nginx/html

    1. #进入容器,创建index1.html,让就绪探测成功
    2. [root@master ~]# kubectl exec -it readiness-httpget sh
    3. / # cd /usr/share/nginx/html/
    4. /usr/share/nginx/html # ls
    5. 50x.html index.html
    6. /usr/share/nginx/html # echo abc > index1.html
    7. /usr/share/nginx/html # exit
    8. [root@master ~]# kubectl get pods

    3.5就绪探测示例2

    1. [root@master ~]# vim readiness-myapp.yaml
    2. apiVersion: v1
    3. kind: Pod
    4. metadata:
    5. name: myapp1
    6. labels:
    7. app: myapp
    8. spec:
    9. containers:
    10. - name: myapp
    11. image: soscscs/myapp:v1
    12. ports:
    13. - name: http
    14. containerPort: 80
    15. readinessProbe:
    16. httpGet:
    17. port: 80
    18. path: /index.html
    19. initialDelaySeconds: 5
    20. periodSeconds: 5
    21. timeoutSeconds: 10
    22. ---
    23. apiVersion: v1
    24. kind: Pod
    25. metadata:
    26. name: myapp2
    27. labels:
    28. app: myapp
    29. spec:
    30. containers:
    31. - name: myapp
    32. image: soscscs/myapp:v1
    33. ports:
    34. - name: http
    35. containerPort: 80
    36. readinessProbe:
    37. httpGet:
    38. port: 80
    39. path: /index.html
    40. initialDelaySeconds: 5
    41. periodSeconds: 5
    42. timeoutSeconds: 10
    43. ---
    44. apiVersion: v1
    45. kind: Pod
    46. metadata:
    47. name: myapp3
    48. labels:
    49. app: myapp
    50. spec:
    51. containers:
    52. - name: myapp
    53. image: soscscs/myapp:v1
    54. ports:
    55. - name: http
    56. containerPort: 80
    57. readinessProbe:
    58. httpGet:
    59. port: 80
    60. path: /index.html
    61. initialDelaySeconds: 5
    62. periodSeconds: 5
    63. timeoutSeconds: 10
    64. ---
    65. apiVersion: v1
    66. kind: Service
    67. metadata:
    68. name: myapp
    69. spec:
    70. selector:
    71. app: myapp
    72. type: ClusterIP
    73. ports:
    74. - name: http
    75. port: 80
    76. targetPort: 80

    所有的自主式Pod,name不可以相同。但是使用同一个标签myapp。 service通过标签选择器和对应标签的pod关联 

    1. [root@master ~]# kubectl create -f readiness-myapp.yaml
    2. #查看这些资源的详细信息。
    3. [root@master ~]# kubectl get pods,svc,endpoints -o wide
    4. #删除myapp1的 index.html文件,让就绪探测 失败
    5. [root@master ~]# kubectl exec -it myapp1 -- rm -rf /usr/share/nginx/html/index.html
    6. # 查看发现,就绪探测失败的pod被从关联的service中移除ip
    7. [root@master ~]# kubectl get pods,svc,endpoints -o wide


    四:总结

    4.1探针(3 种) 

    1. livenessProbe(存活探针)∶判断容器是否正常运行,如果失败则杀掉容器(不是pod),再根据重启策略是否重启容器
    2. readinessProbe(就绪探针)∶判断容器是否能够进入ready状态,探针失败则进入noready状态,并从service的endpoints中剔除此容器
    3. startupProbe∶判断容器内的应用是否启动成功,在success状态前,其它探针都处于无效状态

    4.2检查方式(3种)

    1. exec∶使用 command 字段设置命令,在容器中执行此命令,如果命令返回状态码为0,则认为探测成功
    2. httpget∶通过访问指定端口和url路径执行http get访问。如果返回的http状态码为大于等于200且小于400则认为成功
    3. tcpsocket∶通过tcp连接pod(IP)和指定端口,如果端口无误且tcp连接成功,则认为探测成功

    4.3探针可选的参数

    1. initialDelaySeconds∶ 容器启动多少秒后开始执行探测
    2. periodSeconds∶探测的周期频率,每多少秒执行一次探测
    3. failureThreshold∶探测失败后,允许再试几次
    4. timeoutSeconds ∶ 探测等待超时的时间 

    4.4重启策略

    Pod在遇到故障之后“重启”的动作Pod在遇到故障之后“重启”的动作

    Always:当容器终止退出后,总是“重启”容器,默认策略

    OnFailure:当容器异常退出(退出状态码非0)时,重启容器

    Never:当容器终止退出,从不“重启”容器。

    (注意:k8s中不支持重启Pod资源,只有删除重建,重建)

  • 相关阅读:
    计算机组成与体系结构-进制转换
    MySQL 高级函数大全(更新完成)
    【0146】判断System V shared memory以前的段是否存在并正在使用?(3)
    什么是 PKI? 公钥基础设施的定义和指南
    SQL Server 数据库之备份和恢复数据库
    优思学院和优思教育有关系吗?
    Keil C251条件编译宏的应用实例
    嵌入式开发--CubeMX使用入门教程
    递归路由,怎么递归的?BGP4+
    孩子学习编程对学习有帮助吗?
  • 原文地址:https://blog.csdn.net/ver_mouth__/article/details/126107153