Linux Cgroups

Linux CGroup全称Linux Control Group，是Linux内核的一个功能，用来限制，控制与分离一个进程组群的资源（如CPU、内存、磁盘输入输出等）。这个项目最早是由Google的工程师在2006年发起（主要是Paul Menage和Rohit Seth），最早的名称为进程容器（process containers）。在2007年时，因为在Linux内核中，容器（container）这个名词太过广泛，为避免混乱，被重命名为cgroup，并且被合并到2.6.24版的内核中去。然后，其它开始了他的发展。

Linux CGroupCgroup 可让您为系统中所运行任务（进程）的用户定义组群分配资源 — 比如 CPU 时间、系统内存、网络带宽或者这些资源的组合。您可以监控您配置的 cgroup，拒绝 cgroup 访问某些资源，甚至在运行的系统中动态配置您的 cgroup。

主要提供了如下功能：

● Resource limitation: 限制资源使用，比如内存使用上限以及文件系统的缓存限制。

● Prioritization: 优先级控制，比如：CPU利用和磁盘IO吞吐。

● Accounting: 一些审计或一些统计，主要目的是为了计费。

● Control: 挂起进程，恢复执行进程。

使用 cgroup，系统管理员可更具体地控制对系统资源的分配、优先顺序、拒绝、管理和监控。可更好地根据任务和用户分配硬件资源，提高总体效率。

在实践中，系统管理员一般会利用CGroup做下面这些事（有点像为某个虚拟机分配资源似的）：

● 隔离一个进程集合（比如：nginx的所有进程），并限制他们所消费的资源，比如绑定CPU的核。

● 为这组进程分配其足够使用的内存

● 为这组进程分配相应的网络带宽和磁盘存储限制

● 限制访问某些设备（通过设置设备的白名单）

那么CGroup是怎么干的呢？我们先来点感性认识吧。

首先，Linux把CGroup这个事实现成了一个file system，你可以mount。在我的CentOS7.9下，你输入以下命令你就可以看到cgroup已为你mount好了。


[root@sentry ~]# mount -t cgroup
cgroup on /sys/fs/cgroup/systemd type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,xattr,release_agent=/usr/lib/systemd/systemd-cgroups-agent,name=systemd)
cgroup on /sys/fs/cgroup/cpu,cpuacct type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,cpuacct,cpu)
cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,hugetlb)
cgroup on /sys/fs/cgroup/memory type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,memory)
cgroup on /sys/fs/cgroup/net_cls,net_prio type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,net_prio,net_cls)
cgroup on /sys/fs/cgroup/freezer type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,freezer)
cgroup on /sys/fs/cgroup/perf_event type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,perf_event)
cgroup on /sys/fs/cgroup/pids type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,pids)
cgroup on /sys/fs/cgroup/blkio type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,blkio)
cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,cpuset)
cgroup on /sys/fs/cgroup/devices type cgroup (rw,nosuid,nodev,noexec,relatime,seclabel,devices)

或者使用lssubsys命令：


[root@sentry ~]# lssubsys  -m
cpuset /sys/fs/cgroup/cpuset
cpu,cpuacct /sys/fs/cgroup/cpu,cpuacct
memory /sys/fs/cgroup/memory
devices /sys/fs/cgroup/devices
freezer /sys/fs/cgroup/freezer
net_cls,net_prio /sys/fs/cgroup/net_cls,net_prio
blkio /sys/fs/cgroup/blkio
perf_event /sys/fs/cgroup/perf_event
hugetlb /sys/fs/cgroup/hugetlb
pids /sys/fs/cgroup/pids

我们可以看到，在/sys/fs下有一个cgroup的目录，这个目录下还有很多子目录，比如： cpu，cpuset，memory，blkio……这些，这些都是cgroup的子系统。分别用于干不同的事的。

你可以到/sys/fs/cgroup的各个子目录下去make个dir，你会发现，一旦你创建了一个子目录，这个子目录里又有很多文件了。


[root@sentry cpu]# mkdir limit
[root@sentry cpu]# cd limit/
[root@sentry limit]# ll
总用量 0
-rw-r--r--. 1 root root 0 7月   6 18:38 cgroup.clone_children
--w--w--w-. 1 root root 0 7月   6 18:38 cgroup.event_control
-rw-r--r--. 1 root root 0 7月   6 18:38 cgroup.procs
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.cpu_exclusive
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.cpus
-r--r--r--. 1 root root 0 7月   6 18:38 cpuset.effective_cpus
-r--r--r--. 1 root root 0 7月   6 18:38 cpuset.effective_mems
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.mem_exclusive
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.mem_hardwall
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.memory_migrate
-r--r--r--. 1 root root 0 7月   6 18:38 cpuset.memory_pressure
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.memory_spread_page
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.memory_spread_slab
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.mems
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.sched_load_balance
-rw-r--r--. 1 root root 0 7月   6 18:38 cpuset.sched_relax_domain_level
-rw-r--r--. 1 root root 0 7月   6 18:38 notify_on_release
-rw-r--r--. 1 root root 0 7月   6 18:38 tasks

CPU 限制

假设，我们有一个非常吃CPU的程序，叫cpu_limit，其源码如下：


#include 
int main(void)
{
    int i = 0;
    for(;;) i++;
    return 0;
}

执行起来后，毫无疑问，CPU被干到了100%（下面是top命令的输出）

gcc cpu_limit.c -Wall -o cpu_limit && ./cpu_limit


  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                                                                  
31344 root      20   0    4212    352    280 R 100.0  0.0   0:15.82 deadloop

然后，我们这前不是在/sys/fs/cgroup/cpu下创建了一个limit的group。我们先设置一下这个group的cpu利用的限制：


[root@sentry]# cat /sys/fs/cgroup/cpu/limit/cpu.cfs_quota_us 
-1
[root@sentry limit]# echo 20000 > /sys/fs/cgroup/cpu/limit/cpu.cfs_quota_us

我们看到，这个进程的PID是31344，我们把这个进程加到这个cgroup中：


# echo 31344 >> /sys/fs/cgroup/cpu/limit/tasks

然后，就会在top中看到CPU的利用立马下降成20%了。（前面我们设置的20000就是20%的意思）


  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                                                                  
31344 root      20   0    4212    352    280 R  20.3  0.0   3:38.55 deadloop

内存使用限制

我们再来看一个限制内存的例子（下面的代码是个死循环，其它不断的分配内存，每次512个字节，每次休息一秒）：


#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <unistd.h>
int main(void)
{
    int size = 0;
    int chunk_size = 1024*1024;
    void *p = NULL;
    while(1) {
        if ((p = realloc(p, chunk_size)) == NULL) {
            printf("out of memory!!\n");
            break;
        }
        memset(p, 1, chunk_size);
        size += chunk_size;
        printf("[%d] - memory is allocated [%8d] bytes \n", getpid(), size);
        sleep(1);
    }
    return 0;
}

编译并执行程序

gcc mem_limit.c -Wall -o mem_limit && ./mem_limit

然后，在我们另外一边：


# 创建memory cgroup
$ mkdir /sys/fs/cgroup/memory/limit
$ echo 64k > /sys/fs/cgroup/memory/limit/memory.limit_in_bytes
# 禁用swap
echo 0 > memory.swappiness
# 把上面的进程的pid加入这个cgroup
$ echo [pid] > /sys/fs/cgroup/memory/limit/tasks

你会看到，一会上面的进程就会因为内存问题被kill掉了。


[26991] - memory is allocated [   70144] bytes 
[26991] - memory is allocated [   70656] bytes 
[26991] - memory is allocated [   71168] bytes 
[26991] - memory is allocated [   71680] bytes 
[26991] - memory is allocated [   72192] bytes 
[26991] - memory is allocated [   72704] bytes 
[26991] - memory is allocated [   73216] bytes 
已杀死

Cgroup的内存限制可能会有一些延迟，特别是在内存使用接近限制时。系统需要一些时间来检测和响应内存限制的超出情况。Cgroup内存限制可能不会精确到字节级别，因此设置的内存限制和实际触发OOM杀死进程的内存使用量之间可能会有一些差异。以下是一些可能的原因和解释：

1. 内存使用延迟

Cgroup的内存限制可能会有一些延迟，特别是在内存使用接近限制时。系统需要一些时间来检测和响应内存限制的超出情况。

2. 内存使用统计

Cgroup内存限制考虑的不仅仅是用户态内存，还包括内核态内存和其它系统开销。因此，进程的实际内存使用量可能比你看到的数值要高。

3. 内存分配单位

内存分配可能是以页（通常为4KB）为单位进行的，因此实际分配的内存可能会超过指定的限制。Cgroup可能会在分配内存的边界上进行四舍五入处理。

4. 内存缓存和缓冲区

系统可能会为进程分配额外的内存用于缓存和缓冲区，这些内存可能在Cgroup限制之外。实际的内存使用量可能会略高于配置的限制。

5. OOM决策延迟

即使内存使用超过了限制，OOM杀死进程的决策可能需要一些时间来执行。内核需要检测到内存超出限制并执行相应的操作，这可能会有一定的延迟。

磁盘I/O限制

我们先看一下我们的硬盘IO，我们的模拟命令如下：（从/dev/sda上读入数据，输出到/dev/null上）

dd if=/dev/sda of=/dev/null iflag=direct

dd 命令默认会使用一定的缓存来提高性能，这可能会导致短时间内的瞬时读取速度超过你设置的限制。可以尝试使用 dd 命令的 iflag=direct 选项来禁用缓存，这样可以更准确地测试实际的磁盘读取速度

我们通过iotop命令我们可以看到相关的IO速度是128MB/s（虚拟机内）：


  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND                                                                                                                                       
25722 be/4 root      128.87 M/s    0.00 B/s  0.00 %  1.30 % dd if=/dev/sda of=/dev/null

然后，我们先创建一个blkio（块设备IO）的cgroup

mkdir /sys/fs/cgroup/blkio/limit

并把读IO限制到1MB/s，并把前面那个dd命令的pid放进去（注：8:0 是设备号，你可以通过ls -l /dev/sda1获得）：


echo '8:0 1048576'  > /sys/fs/cgroup/blkio/limit/blkio.throttle.read_bps_device 
echo [pid] > /sys/fs/cgroup/blkio/limit/tasks

再用iotop命令，你马上就能看到读速度被限制到了1MB/s左右。


  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND                                                                                                                                       
13571 be/4 root     1043.21 K32    0.00 B/s  0.00 % 97.64 % dd if=/dev/sda of=/dev/null iflag=direct

CGroup的子系统

好了，有了以上的感性认识我们来，我们来看看control group有哪些子系统：

● blkio — 这个子系统为块设备设定输入/输出限制，比如物理设备（磁盘，固态硬盘，USB 等等）。

● cpu — 这个子系统使用调度程序提供对 CPU 的 cgroup 任务访问。

● cpuacct — 这个子系统自动生成 cgroup 中任务所使用的 CPU 报告。

● cpuset — 这个子系统为 cgroup 中的任务分配独立 CPU（在多核系统）和内存节点。

● devices — 这个子系统可允许或者拒绝 cgroup 中的任务访问设备。

● freezer — 这个子系统挂起或者恢复 cgroup 中的任务。

● memory — 这个子系统设定 cgroup 中任务使用的内存限制，并自动生成内存资源使用报告。

● net_cls — 这个子系统使用等级识别符（classid）标记网络数据包，可允许 Linux 流量控制程序（tc）识别从具体 cgroup 中生成的数据包。

● net_prio — 这个子系统用来设计网络流量的优先级

● hugetlb — 这个子系统主要针对于HugeTLB系统进行限制，这是一个大页文件系统。

关于各个子系统的参数细节，以及更多的Linux CGroup的文档，你可以看看下面的文档：

● Linux Kernel的官方文档

● Redhat的官方文档

CGroup的术语

CGroup有下述术语：

● 任务（Tasks）：就是系统的一个进程。

● 控制组（Control Group）：一组按照某种标准划分的进程，比如官方文档中的Professor和Student，或是WWW和System之类的，其表示了某进程组。Cgroups中的资源控制都是以控制组为单位实现。一个进程可以加入到某个控制组。而资源的限制是定义在这个组上，就像上面示例中我用的haoel一样。简单点说，cgroup的呈现就是一个目录带一系列的可配置文件。

● 层级（Hierarchy）：控制组可以组织成hierarchical的形式，既一颗控制组的树（目录结构）。控制组树上的子节点继承父结点的属性。简单点说，hierarchy就是在一个或多个子系统上的cgroups目录树。

● 子系统（Subsystem）：一个子系统就是一个资源控制器，比如CPU子系统就是控制CPU时间分配的一个控制器。子系统必须附加到一个层级上才能起作用，一个子系统附加到某个层级以后，这个层级上的所有控制族群都受到这个子系统的控制。Cgroup的子系统可以有很多，也在不断增加中。

相关阅读:
Web3安全风险令人生畏，应该如何应对？
02-1解析xpath
DLG4NLP
STL源码剖析 | priority_queue优先队列底层模拟实现
【uniapp】开发app运行到手机预览（运行到安卓app基座）
智慧工地解决方案，实现安全预警、机械智能监控、作业指导、绿色施工、劳务管理、工程进度监控、施工质量检查
Open Office XML 格式中的 Style 设计原理
sqlserver保存微信Emoji表情
jQuery对于链和捕获的实战研究
ROS中的坐标变换

原文地址：https://blog.csdn.net/huchao_lingo/article/details/140448558