• Linux面试题2:网络IO模型 & IO多路复用


    网络IO

    先确定一下范围,我们讨论的都是网络IO,现阶段计算机早已经从CPU密集型转换成网络IO密集型,所以网络io的类型对于服务响应而言更重要。

    五种IO模型

    依据Unix的IO分类,网络IO分为五类

    • 阻塞IO(BlockingIO
    • 非阻塞IO(Non-Blocking IO
    • IO多路复用( IO Multiplexing
    • 信号驱动IO(signal driven IO
    • 异步IO(async IO

    内核态和用户态

    可见另一篇文章

    网络IO的两阶段阶段

    1. 等待网卡读就绪 —> 将网卡数据复制奥内核缓冲区
    2. 将内核缓冲区的数据复制到用户空间

    其中:第一阶段主要用来区分是否是阻塞IO

    阻塞与非阻塞

    进行一个IO操作之后,无论是否有数据、是否就绪,是否会立刻返回而不阻塞用户进程的逻辑。
    当用户进程发出read操作时,如果kernel中的数据没有准备好,不会block用户进程,而是返回一个EAGAIN err。从用户的角度而言,发起一个读操作,不需要等待,马上得到了一个结果。
    一旦kernel的数据准备好了,收到用户进程的一个systemcall,就会马上把数据拷贝到用户内存,然后返回。

    同步与异步

    第二阶段,内核将数据拷贝到用户空间是否是同步进行的,决定是否是异步IO;除了aync IO以外其他都是同步的IO模型。

    面试回答

    概述

    IO多路复用实际就是select/poll/epoll这些多路选择器,使用一个线程同时监听多个文件描述符(fd_set), I/O事件,阻塞等待并且在某个文件描述符可读写时收到通知。linux在处理网络IO连接时的优化,复用的不是I/O连接,而是复用的是线程,让一个线程处理多个连接。

    select/poll/epoll

    选择器 运行逻辑 特点 缺点
    select 1.最大并发数限制; 2.每次调用select,需要把fd_set集合拷贝到内核态;3.性能衰减严重
    poll poll与select类似,只是没有最大并发数限制
    epoll

    select

    #include 
    #include 
    #include 
     
    int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);
     
    // 和 select 紧密结合的四个宏:
    void FD_CLR(int fd, fd_set *set);
    int FD_ISSET(int fd, fd_set *set);
    void FD_SET(int fd, fd_set *set);
    void FD_ZERO(fd_set *set);
    
    

    运行逻辑
    fd_set如果是1 字节byte, 1byte = 8bit,每一个bit可以表示一个文件描述符fd,则1byte的fd_set最大可以对应8个fd

    1. 执行 FD_ZERO(&set), 则 set 用位表示是 0000,0000
    2. 若 fd=5, 执行 FD_SET(fd, &set); 后 set 变为 0001,0000(第 5 位置 为 1)
    3. 再加入 fd=2, fd=1,则 set 变为 0001,0011
    4. 执行 select(6, &set, 0, 0, 0) 阻塞等待
    5. 若 fd=1, fd=2 上都发生可读事件,则 select 返回,此时 set 变为 0000,0011 (注意:没有事件发生的 fd=5 被清空)

    特点

    1. 可以监控的文件描述符个数取决于 sizeof(fd_set)的值。如果 sizeof(fd_set) = 512, 每个bit表示一个文件描述符, 512 * 8 = 4096。
    2. 需要拷贝 fd_set,转换成一个array
    3. 需要循环fd_set,线性扫描整个fd_set

    epoll

    epoll是Linux Kernel 2.6之后引入的IO事件驱动技术,本质上还是一个线程处理所有链接的等待消息准备好IO事件。但是 当数十万的并发连接存在时,可能每一毫秒猪油数百个活跃的链接,同时其余数十万连接在这一毫秒是非活跃的,而select&poll的使用方法是 返回的活跃链接 == select(全部带监控的连接)

    高频调用的接口是select()方法,而这个方法任何轻微的效率损失都会被高频两个字放大。epoll解决了这个问题.

    #include   
    int epoll_create(int size); // int epoll_create1(int flags);
    int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
    int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
    
    

    epoll的工作原理如下图:

    • epoll_ctl 来插入和删除一个fd,实现从用户态到内核态的拷贝,确保每一个fd只在生命周期一次拷贝。
    • epoll使用红黑树存储所有监控的fd,红黑树的时间复杂度O(logN)。
    • 每一个fd有一个关键步骤:fd回合相应的设备(网卡、硬盘)驱动程序建立一个回调关系,在fd相应的时间出发之后,内核就会调用这个回调函数,ep_poll_callback,这个回调函数会把fd添加到fdllist的双向链表(就绪列表之中)epoll_wait这个就是检查是否有就绪的fd,所以非常高效。

    Reactor网络模型

    Linux平台主流的高性能网络库/框架中,大都采用了Reactor模式,比如netty、libevent等。

    Reactor模式本质上是指 IO多路复用 + 非阻塞IO的模式。

    通常是: 一个主线程负责做event-loop时间循环和IO读写,通过select/poll/epoll_wait等系统调用监听IO事件,业务逻辑提交给其他工作线程去做。
    非阻塞IO核心思想是避免阻塞在read()或者write()或者其他IO系统调用上,这样可以最大限度的服用event-loop线程,让一个线程能服务多个sockets。

    Reactor模式的基本工作流程如下:

    1. Server端完成在bind&Listen之后,
  • 相关阅读:
    电脑格式化了怎么恢复?格式化恢复,4个步骤就足够了
    yolo5 训练无人人机识别系统
    4.力扣c++刷题-->删除有序数组中的重复项 II
    Pyspark图计算:GraphFrames的安装及其常用方法
    GIS之深度学习10:运行Faster RCNN算法
    Spring-IOC入门案例
    学校ROS培训项目记录
    str.c_str() 补充C中没有string类型的问题
    我的创作纪念日
    第十五章 Spring Cloud Alibaba 入门介绍
  • 原文地址:https://www.cnblogs.com/fenngz/p/16926621.html