• HDFS读写流程


    HDFS的读数据流程

    • 1.客户端向NameNode请求读文件,NameNode通过查询元数据,找到文件块所在的DataNode地址,并返回地址给客户端
    • 2.挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据
    • 3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以packet为单位校验)
    • 4.客户端以packet为单位接收,先在本地缓存,然后写入目标文件
    • 5.关闭资源

    HDFS的写数据流程

    • 1.首先客户端向NameNode请求上传文件
    • 2.然后NameNode检查目录树是否可以创建文件(检查权限——是否允许上传,检查目录结构是否存在)。当都通过的时候响应客户端,反馈可以上传文件
    • 3.客户端接收到可以上传文件的允许后,切分Block块,向NameNode请求上传第一个Block,上传到哪几个DataNode
    • 4.NameNode进行计算,选择副本存储节点,第一个选择的是本地节点,第二个选择的是其他机架的一个节点,第三个是其他机架的另一个节点(默认三个副本存储节点)。并把这三个节点返回给客户端(dn1、dn2、dn3)
    • 5.客户端拿到这三个节点后,创建一个流,向离的最近的一个节点(dn1)进行请求建立Block传输通道,而最近的节点(dn1)会向另外的节点(dn2)进行请求建立通道,另外的节点(dn2)会向第三个节点请求传输通道(dn3)
    • 6.三个节点接收到请求建立通道后,逐一进行应答客户端
    • 7.客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,dn1收到一个packet后就会复制一份并传给dn2,dn2传给dn3
    • 8.最后一个datanode成功存储之后会返回一个ack数据包,在pipeline里传递至客户端,在客户端的内部维护着"ack queue",会将返回的ack进行对比,只要有一个DataNode的ack能匹配上,就认为本次写入是成功的。
    • 9.当一个 Block 传输完成之后,客户端再次请求 NameNode 上传第二个 Block 的服务器。(重复执行 3-7 步)
    • 10.传输完毕之后,客户端关闭流资源,并且会告诉hdfs数据传输完毕,然后hdfs收到传输完毕就恢复元数据

    DataNode写入数据失败处理流程

    • pipeline被关闭,在确认队列中剩下的包会被添加进数据队列的起始位置上,以至于在失败的节点下游的任何节点都不会丢失任何的包。
    • 之后与NameNode练习后,当前在一个好的DataNode会联系NameNode,给失败节点上还未写完的块生成一个新的标识ID,以至于如果这个失败的DataNode不久后恢复了,这个不完整的块会被删除。
    • 失败节点从pipeline中移除,之后剩下来好的DataNode会组成一个新的pipeline,剩下的这些块(刚刚放进数据队列队首的包)会继续写进pipeline中好的DataNode中。
    • 最后,NameNode注意到备份数小于规定的备份数,它就安排在另一个节点上创建完成备份,直接从已有的块中复制就好了。直到满足了备份数。如果有多个节点写入失败了,如果满足了最小备份数的设置,写入也将成功,之后剩下的备份会被集群异步的执行备份,直到满足了备份数。
  • 相关阅读:
    计算机网络
    元梦之星内测上线,如何在B站打响声量?
    DeeTune:基于 eBPF 的百度网络框架设计与应用
    算法训练第六十五天|螺旋遍历二维数组
    arm架构docker安装mysql5.7
    react native常用插件
    关于博客园绝境求商的一点点感想!
    Springboot设置文件上传大小限制
    全流程机器视觉工程开发(二)PaddleDetection:拉框,然后开始训练模型
    使用nginx发布tomcat站点
  • 原文地址:https://blog.csdn.net/qq_42456324/article/details/126795897