【从0开始编写webserver·基础篇#01】为什么需要线程池？写一个线程池吧

线程池

参考：

1、游双Linux高性能服务器编程

2、TinyWebServer

注：虽然是"从0开始"，但最好对（多）线程、线程同步等知识点有所了解再看，不然可能有些地方会理解不到位（但也有可能是我没说明到位，水平有限，见谅）

Web服务器与线程池的关系

Web服务器需要同时处理多个客户端请求，并且每个请求可能需要花费很长时间来处理，如数据库查询、文件读写等操作。

因此Web服务器不太可能是单线程的，要实现并发操作就必须引入多线程技术

使用线程池的服务器属于多线程服务器。线程池本质上是一种多线程技术，通过在程序启动时创建一定数量的工作线程，并将所有请求任务加入到任务队列中，以便线程池中的多个工作线程可以同时处理请求任务。

在Web服务器中，线程池的作用是有效地处理并发请求，提高服务器的并发能力和性能。

具体地，Web服务器通过线程池实现以下几个方面的功能：

提高并发性能：线程池可以在同一时刻处理多个请求，从而提高服务器的并发处理能力，减少请求响应时间。
控制线程数量：线程池可以控制同时执行的线程数量，从而避免线程数目过多导致系统资源耗尽。
管理线程状态：线程池可以对工作线程进行管理，并监测工作线程的状态，如是否空闲、是否存活等。
避免线程创建销毁开销：使用线程池可以避免频繁地创建和销毁线程，从而减少系统开销，提高服务器的性能。

实现一个线程池

前置知识：互斥锁、信号量、C++模板编程

（注：代码中使用的）

线程池在代码实现上是一个模板类，使用模板的原因是方便进行复用

线程池模板类，主要用于管理多个线程并处理任务。其中包含以下主要成员变量和函数：

成员变量：线程数量（m_thread_number）、最大请求数（m_max_requests）、线程池数组（m_threads）、请求队列（m_workqueue）、互斥锁（m_queuelocker）、信号量（m_queuestat）和是否停止标志（m_stop）。
成员函数：构造函数（threadpool()）、析构函数（~threadpool()）、添加任务（append()）、子线程中要执行的工作函数（worker()）和启动线程池中的一个或多个线程进行任务处理的函数（run()）。

下面是该代码的工作流程和原理：

1、创建线程池

创建时，会先判断线程数和最大请求数是否小于等于0。之后，会创建一个大小为 m_thread_number 的线程池数组，并将其设置为线程脱离状态，即在创建完线程之后就可以将其与当前的进程分离，避免线程阻塞主线程和其他相关线程的运行。如果创建时失败，则抛出异常。

2、添加任务

往任务队列中添加请求时，会先加锁（使用互斥锁），以确保多个进程不会争抢。之后，会判断任务队列中的请求数是否超过 m_max_requests，如果队列大小大于最大请求数，则解锁并返回 false。否则，将请求添加到队列中，解锁并增加信号量，通知线程池中的线程，有新任务需要处理。最终返回 true。

3、线程工作函数

当收到信号量后，线程会先上锁（使用互斥锁），以确保多个线程不会同时访问队列。之后，会判断任务队列是否为空。如果队列为空，则解锁并继续等待下一次信号量的到来。否则，取出队列顶部的请求，并将其弹出队列。最后，解锁，并调用任务函数（request->process()）。

4、析构函数

执行析构函数时，将 m_stop 设置为 true，供线程判断是否要停止。

定义线程池类

先来定义一下线程池类

template threadpool {
private:
    int m_thread_number;//线程数
    int m_max_requests;//最大请求数
    bool m_stop;//停止符
    pthread_t* m_thread;//线程池数组
    std::list m_workqueue;//任务队列
    locker queuelocker;//互斥锁，locker是对系统提供的mutex方法的封装，位于locker.h中
    sem m_queuestat;//信号量
private:
    static void* worker(void* arg);//工作函数
    void run();		//线程池的主函数，用于检查任务队列中的请求
    
public:
    threadpool(int m_thread_number = 8, int m_max_requests = 1000);//构造
    ~threadpool();//析构
    bool append();//将请求加入m_workqueue中   	
}

其实也没有很复杂，但是有以下几个点需要注意：

1、线程池数组m_thread和任务队列m_workqueue是没有直接联系的

在线程池类初始化时，线程池数组就会根据指定的线程数m_thread_number 来创建对应数量的线程

这些线程会被阻塞（一直调用 run函数检查 m_workqueue 中有无请求），直到 **外部调用线程池对象的代码 **通过调用threadpool类的对象的append()方法 向任务队列中添加新的任务

这时，append()才会定义模板类中声明的任务队列m_workqueue（也就是往队列中push请求任务）

此时，之前被创建的某个线程检查到队列中有任务，于是其获取到了锁

将队列中的请求弹出，调用对应的任务函数进行处理

综上，虽然线程池数组和任务队列没有直接联系，但是他们具有协作关系，实现服务器对于请求的监听和处理操作

2、工作函数为什么要定义为静态的，并且其返回值为什么是`void*`？

在C语言中，函数的返回值只能是一个类型。但是有些时候，我们需要从一个函数中返回多个值或者不同类型的值。

在这种情况下，我们可以使用指针或者void指针来达到这个目的。

在这里，worker被定义为static void*，其中void*表示一个指向内存地址的指针，但是它没有指定具体的数据类型。

这意味着worker函数可以返回任何类型的指针，这使得worker函数具有更大的灵活性，并且可以处理各种不同类型的数据。

同时，通过将worker函数声明为static，它只能在当前文件中使用，可以避免与其他文件中的函数名称重复的问题。

好了，线程池模板类定义完了，现在需要在类外分别实现各个成员函数

按顺序来：构造函数->析构函数->...

实现线程池构造函数

构造函数负责根据给定的thread_number来创建线程

首先，我们需要判断所给的参数范围是否合法

然后创建线程池数组，大小为thread_number，最后调用pthread_create函数创建线程，使用pthread_detach函数将线程设置为脱离状态

template //通过参数列表进行初始化
threadpool::threadpool(int thread_number, int max_requests):m_thread_number(thread_number),m_max_requests(max_requests),
    m_stop(false), m_threads(NULL){
    //异常判断，线程数和最大请求数小于0，报错
        if((thread_number <= 0) || (max_requests <= 0)){
            throw std:: exception();
        }
        m_threads = new pthread_t[m_thread_number];//创建线程池数组
        if(!m_threads){
            throw std:: exception();
        }
        for(int i = 0; i < thread_number; ++i){
            printf("创建第 %d 个线程\n", i);
            if(pthread_create(m_threads + i, NULL, worker, this) != 0){
                delete[] m_threads;
                throw std::exception();//创建失败
            }
            if(pthread_detach(m_threads[i])){//在调用pthread_detach()函数之后，线程将进入“分离”状态，这意味着它不能再被其他线程或主线程等待和加入。
            }
        }     
}

从构造函数可知，线程是在线程池创建时就被创建的，并且数量是固定的

有以下注意点：

1、pthread_create函数的传入参数

pthread_create()函数需要四个输入参数，分别是：

1.线程标识符指针（pthread_t *），用于存储新创建线程的标识符；

2.线程属性指针（const pthread_attr_t *），用于设置新线程的属性。如果不需要设置，则可以将该参数设置为NULL；

3.指向函数的指针（void (start_routine) (void *)），用于作为新线程的入口点。新线程开始执行时会从该函数开始执行；

4.传递给新线程入口点函数的参数指针（void *），该参数可以是任意类型的指针，它会被传递给新线程入口点函数。

在本代码中，pthread_create()函数的第一个参数是一个pthread_t类型的指针，该指针用于存储新创建线程的标识符。

第二个参数设置为NULL，因为我们不需要设置新线程的属性。

第三个参数是一个指向worker函数的指针，作为新线程的入口点。

最后一个参数是一个指向当前threadpool对象的指针，它被传递给worker函数作为参数，让worker函数能够访问到threadpool对象的所有

成员。

m_threads + i 表示将 m_threads指针向后偏移 i 个 pthread_t类型的长度，即指向线程池中第i个工作线程的标识符。

m_threads 是一个指向pthread_t类型的数组，当使用 m_threads[i] 时，实际上是对m_threads数组中第i个元素进行访问。

因此，m_threads + i 表示对 m_threads数组进行偏移，使其指向第i个元素的地址。

在pthread_create()函数中，需要传递一个指向线程标识符的指针作为参数，来保存新建线程的标识符。

因此，可以使用 m_threads + i 作为该参数，表示将指向第i个工作线程的标识符的地址传递给pthread_create()函数。

worker是一个静态成员函数，它作为线程执行的入口点，用于处理任务队列中的请求。

this指针是一个指向当前threadpool对象的指针，它被传递给worker函数作为参数。

由于worker函数是静态的，因此无法访问threadpool对象的非静态成员。

（为了防止重名所以设为静态）

因此，需要将threadpool对象的指针作为参数传递给worker函数，以便让worker函数能够访问threadpool对象的所有成员。

在pthread_create()函数中，需要将worker函数的指针作为参数传递，而this指针则用于向worker函数传递threadpool对象的指针。

通过这种方式，就可以让worker函数访问到threadpool对象的所有成员变量和成员函数。

析构函数

主要作用就是停止线程池。删除线程池数组，并回收资源

//实现析构函数  
template
threadpool::~threadpool(){
    delete[] m_threads;//用完之后就把线程池数组删除
    m_stop = true;//执行析构函数时将其置为true，供线程判断是否要停止
}

实现工作函数worker

从上面的分析可知，worker函数会在线程池初始化时被构造函数调用

template
void* threadpool::worker(void* arg){
    threadpool* pool = (threadpool* )arg;
    pool->run();
    return pool;
}

该函数主要做的事情就是就是接收一个线程池对象

具体来说， worker函数从 pthread_create()函数中得到了一个void类型的指针作为输入参数。

这个指针可以通过 pthread_create() 的最后一个参数（也就是 this ）进行传递，即线程创建时调用的arg参数。

什么意思呢？

我们要调用pthread_create()函数创建一个线程，此时我们需要提供线程的存储位置、线程属性参数、新线程的入口函数以及该入口函数所需的参数的指针

在创建线程时，需要传入一个入口函数的指针，用于告诉操作系统新线程应该从哪里开始执行程序代码。在这里，我们将worker函数作为入口函数，以便启动一个新线程，并且让该线程执行线程池的工作函数run()。

也就是说，我们在实例化一个线程池类的时候（假设为A），同时也把一个指向A的指针作为参数传给了worker函数（通过pthread_create()函数），worker函数再调用A中的成员函数run（）用于处理任务

由于run()函数被定义为非静态成员函数，无法直接作为入口函数使用，因此我们选择了worker函数作为入口函数，并在其中调用run()函数。在C++中，可以将任何函数作为新线程的入口函数，只要它符合线程函数的格式要求（即返回值为void*类型，参数为void*类型）。在实际编程中，通常会选择一个适当的函数作为入口函数，以实现所需的功能。

实现任务处理函数run

新线程以worker函数为入口进行执行后，会通过指针去调用run()函数，通过循环不断检查任务队列来获取任务（如果有的话）

取到任务之后会调用相应的处理函数进行处理（这里是process()，还没定义）

template
void threadpool::run(){
    while(!m_stop){
        //阻塞等待捕获sem信号量
        m_queuestat.wait();
        
        //拿到信号量之后上锁
        m_queuelocker.lock();
        
        if(m_workqueue.empty()){
            m_queuelocker.unlock();//若队列为空就解锁
            continue;
        }
        //取出队列头部的请求
        T* request = m_workqueue.front();
        m_workqueue.pop_front();
        m_queuelocker.unlock();//解锁
        
        if(!request) continue;//没有东西就继续循环
        request->process();//有就调用对应的处理函数
    }
}

这里用到了互斥锁与信号量

上锁是为了保证在多线程的情况下，不会出现资源争夺的情况，保证线程安全

信号量的使用则涉及到了服务器整体的设计结构，后面再说（面试重点）

实现添加任务函数append

到目前为止，一个所谓的"线程池"已经基本完工

这个"池"可以创建一个数组存放创建好的线程对象，并维护一个任务队列，从队列中不断检查是否有新任务（外界对服务器的请求）到来

从代码来看，run函数只有在收到信号量时才会去检查队列

那么是谁负责发送（改变）信号量呢？那肯定是负责将任务加入队列的那个部分，也就是append函数了

template
void threadpool::append(T* request){
    //触发append就意味着有新请求来了，此时需要有线程来处理，所以为了安全要上锁
    m_queuelocker.lock();
    //判断当前队列中的任务是否已经达到最大请求上限
    if(m_workqeue.size() > m_max_requests){
        m_queuelocker.unlock();//是就解锁
        return false;//添加失败
    }
    m_workqueue.push_back(request);//往任务队列添加一个请求
    m_queuelocker.unlock();
    
    m_queuestat.post();//修改信号量
    return true;
    
}

在向队列添加任务后，append修改了信号量m_queuestat，使得阻塞在wait()处的run函数开始检查队列，获取刚被加入到队列中的任务

至此，线程池的全部功能实现完毕

完整代码

threadpool.h

#ifndef THREADPOOL_H 
#define THREADPOOL_H

#include 
#include 
#include 
#include "locker.h"

//线程池类，将其定义为模板类是为了代码的复用
//模板参数T就是任务类
template
class threadpool {
private:
    //线程数量
    int m_thread_number;
    //线程池数组，大小为m_thread_number
    pthread_t * m_threads;//使用pthread_t一是为了性能，二是为了线程安全（相对于vector来说）
    //请求队列中最多允许的待处理请求数
    int m_max_requests;
    //请求队列
    std::list m_workqueue;
    //互斥锁
    locker m_queuelocker;
    //信号量，用于判断是否有任务需要处理
    sem m_queuestat;
    //是否结束线程
    bool m_stop;

private:
    //子线程中要执行的代码
    static void* worker(void* arg);
    void run();

public:
    threadpool(int thread_number = 8, int max_request = 10000);
    ~threadpool();

    bool append(T* request);
};
//模板外实现线程池构造函数
template//参数列表初始化
threadpool::threadpool(int thread_number, int max_requests):
    m_thread_number(thread_number),m_max_requests(max_requests),
    m_stop(false), m_threads(NULL){
        //异常判断，线程数和最大请求数小于0，报错
        if((thread_number <= 0) || (max_requests <= 0)){
            throw std:: exception();
        }

        m_threads = new pthread_t[m_thread_number];//创建线程池数组
        if(!m_threads){
            throw std:: exception();
        }
        //创建thread_number个线程，并将它们设置为线程脱离
        //线程脱离指的是在一个多线程程序中，某个线程完成了它原本需要执行的任务之后，
        //并不立即结束自己的执行，而是继续保持运行状态，直到其他线程也完成了它们的任务之后才退出。
        //这种情况下，该线程被称为“脱离线程”（detached thread）
        /*线程脱离通常用于需要长时间运行的后台任务，通过将这些任务单独分配给脱离线程来处理，可以避免阻塞主线程和其他相关线程的运行。*/
        for(int i = 0; i < thread_number; ++i){
            printf("创建第 %d 个线程\n", i);
            //C++里面的woker是静态的，所以要传入this来访问类里变量
            /*在C++中，对指针进行加减操作会根据指针类型的大小进行调整。
            因此，m_threads + i表示将m_threads指针向后偏移i个pthread_t类型的长度，即指向线程池中第i个工作线程的标识符。
            m_threads是一个指向pthread_t类型的数组，当使用m_threads[i]时，实际上是对m_threads数组中第i个元素进行访问。
            m_threads + i表示对m_threads数组进行偏移，使其指向第i个元素的地址。
            在pthread_create()函数中，需要传递一个指向线程标识符的指针作为参数，来保存新建线程的标识符。
            因此，可以使用m_threads + i作为该参数，表示将指向第i个工作线程的标识符的地址传递给pthread_create()函数。*/
            if(pthread_create(m_threads + i, NULL, worker, this) != 0){//为了让worker访问非静态成员，传入this
                delete[] m_threads;
                throw std::exception();//创建失败
            }
            if(pthread_detach(m_threads[i])){//在调用pthread_detach()函数之后，线程将进入“分离”状态，这意味着它不能再被其他线程或主线程等待和加入。
            }
        }
    }

//实现析构函数  
template
threadpool::~threadpool(){
    delete[] m_threads;//用完之后就把线程池数组删除
    m_stop = true;//执行析构函数时将其置为true，供线程判断是否要停止
}

//实现append
template
bool threadpool::append(T* request){//往队列中添加任务，要保证线程同步
    m_queuelocker.lock();//添加互斥锁
    if(m_workqueue.size() > m_max_requests){//任务队列大小大于最大请求数
        m_queuelocker.unlock();//解锁并报错，此时的任务数已经超出上限
        return false;
    }

    m_workqueue.push_back(request);//往队列中增加一个请求
    m_queuelocker.unlock();//解锁
    //将请求加入工作队列的操作是需要保证其原子性的，因此需要互斥锁保证多个进程不会争抢
    m_queuestat.post();//增加信号量，通知线程池中的线程，有新任务需要处理
    return true;
    /*当一个新的任务被添加到队列中时，会调用 m_queuestat.post() 增加信号量。
    在线程池初始化时，每个工作线程都被创建并阻塞在 m_queuestat.wait() 上等待信号量的触发。
    一旦 m_queuestat 的值大于 0，其中的一个线程就会从阻塞状态唤醒并开始处理队列中的请求。*/
}

template//线程池的工作函数，其中模板参数T未被使用。该函数是作为新线程启动时调用的入口函数
void* threadpool::worker(void* arg){
    // 传入void 类型指针 arg 
    /*arg 是在启动线程时传递给该线程函数的参数。
    以下代码中，它被转换为 threadpool* 类型，因为它实际上是一个指向 threadpool 结构体的指针。
    然后，将这个指针赋值给名为 pool 的变量，以便在该函数中访问和操作 threadpool 结构体的成员。*/
    threadpool* pool = (threadpool* ) arg;//在pthread_create中传入worker
    pool->run();//启动线程池中的一个或多个线程，并将待处理任务提交给线程池进行处理
    return pool;
}

template
void threadpool::run(){
    while(!m_stop){
        m_queuestat.wait();//等待append函数传过来的信号量，收到表示需要运行线程池，使用其中的线程处理来处理任务
        //可能有数据到了，上锁
        /*关于为什么这里要上锁：
            收到信号量时，任务队列 m_workqueue 可能为空，也可能不为空，这取决于在等待信号量之前是否有新任务被添加到了队列中。
            如果没有新任务被添加，那么 m_workqueue 仍然为空。如果有新任务被添加，那么 m_workqueue 将不为空。
            需要注意的是，在多线程编程中，一个线程在等待信号量时，另一个线程可能会往任务队列中添加新任务，因此需要通过加锁（比如互斥锁）来保证对任务队列的访问是线程安全的。
            这样可以避免出现竞态条件（race condition，也就是线程不同步），从而确保程序的正确性。
        */
        m_queuelocker.lock();
        /*在等待信号量的线程执行之前，如果没有任何其他线程向任务队列中添加新的任务，那么收到信号量时 m_workqueue 可能为空。这种情况可以出现在以下几种情况下：
            在初始化程序时，创建了一个空的任务队列并等待信号量，此时 m_workqueue 为空。
            所有的任务都已经被处理完毕，并且等待信号量的线程尚未收到新的任务添加进来。
            等待信号量的线程刚刚完成了处理该任务队列中的所有任务，然后又立即等待信号量，此时 m_workqueue 为空。
        */
        if(m_workqueue.empty()){
            m_queuelocker.unlock();//解锁
            continue;//继续循环，查看队列中是否有数据
        }
        //取出队列顶部的请求，并将其弹出队列
        T* request = m_workqueue.front();
        m_workqueue.pop_front();
        //取完请求后，解锁
        m_queuelocker.unlock();

        if(!request){
            continue;//没获取到就继续循环
        }
        //调用任务函数
        request->process();
    }
}
#endif

locker.h

#ifndef LOCKER_H //没定义就定义一个LOCKER_H
#define LOCKER_H

#include //互斥锁相关
#include 
#include //信号量相关
//线程头部机制的封装类
//互斥锁类
class locker{
private:
    pthread_mutex_t m_mutex;//创建一个互斥锁
public:
    locker(){//构造函数
        if(pthread_mutex_init(&m_mutex, NULL) != 0){//初始化一个互斥锁，默认属性
            throw std::exception();//抛出异常
        }
    }
    ~locker(){//析构函数，销毁
        pthread_mutex_destroy(&m_mutex);
    }
    
    bool lock(){//上锁
        return pthread_mutex_lock(&m_mutex) == 0;//判断当前线程是否成功获取到了互斥锁 m_mutex。如果返回值为0，则表示当前线程已经成功获取到了该互斥锁；如果返回值不为0，则表示当前线程未能获取到该互斥锁。
    }
    bool unlock(){
        return pthread_mutex_unlock(&m_mutex) == 0;
    }
    pthread_mutex_t * get(){//获取互斥量
        return &m_mutex;
    }
};
//条件变量类
//判断队列中有无数据，没有就让线程停着，有就唤醒线程
class cond {
private:
    pthread_cond_t m_cond;//创建一个条件变量
public:
    cond(){//构造函数
        if (pthread_cond_init(&m_cond, NULL) != 0) {
            throw std::exception();
        }
    }
    ~cond() {//析构函数
        pthread_cond_destroy(&m_cond);
    }
    
    bool wait(pthread_mutex_t *m_mutex) {
        int ret = 0;
        ret = pthread_cond_wait(&m_cond, m_mutex);
        return ret == 0;
    }
    bool timewait(pthread_mutex_t *m_mutex, struct timespec t) {//超时
        int ret = 0;
        ret = pthread_cond_timedwait(&m_cond, m_mutex, &t);
        return ret == 0;
    }
    bool signal() {//唤醒一个或多个线程
        return pthread_cond_signal(&m_cond) == 0;
    }
    bool broadcast() {//唤醒所有线程
        return pthread_cond_broadcast(&m_cond) == 0;
    }
};
//信号量类
class sem{
private:
    sem_t m_sem;
public:
    sem(){
        if(sem_init(&m_sem, 0, 0) != 0){
            throw std:: exception();
        }
    }
    ~sem(){
        sem_destroy(&m_sem);
    }
    //等待信号量
    bool wait(){
        return sem_wait(&m_sem) == 0;
    }
    //增加信号量
    bool post(){
        return sem_post(&m_sem) == 0;
    }
};
#endif

相关阅读:
分布式存储技术解读系列之三：Swift | 架构进阶
 数据之道读书笔记-01数据驱动的企业数字化转型
 LeetCode+ 66 - 70 高精度、二分专题
 性能调优读书笔记（上篇）
SpringBoot 使用 Sa-Token 完成权限认证
 【笔记】docker-compose.yml 文件更改后重新启动加载更改后的内容
 杰哥教你面试之一百问系列:java多线程
 服务器数据恢复—服务器发生故障导致数据丢失如何恢复服务器数据？
ElasticSearch的安装配置
 数据结构的定义以及其相关概念
原文地址：https://www.cnblogs.com/DAYceng/p/17399982.html