码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码


    文章目录

    • 13.MapReduce框架原理
      • 13.1InputFormat数据输入
        • 13.1.3FileInputFormat切片源码解析
          • 13.1.3.1切片源码断点在哪断并且介绍相关源码:
          • 13.1.3.2切片源码详解
          • 13.1.3.3总结,那些可以证明你看过切片的源码

    13.MapReduce框架原理

    13.1InputFormat数据输入

    13.1.3FileInputFormat切片源码解析

    13.1.3.1切片源码断点在哪断并且介绍相关源码:

    断点在https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501
    这篇文章写了一部分了,可以先跟着上篇文章做,然后再看这篇文件就好理解了。

    在这里插入图片描述一直运行到这一步然后强制进入。
    在这里插入图片描述在这个位置打上断点,然后再断点处强行进入

    在这里插入图片描述进去后在这两个地方打上断点

    在这里插入图片描述然后进入这个断点
    在这里插入图片描述就到FileInputFormat类里面了

    在这里插入图片描述然后一直往上翻到最上面,点这个按下f4,就可以出现继承关系(type hierarchy)

    在这里插入图片描述

    • 红色框住的是最常用的
      TextInputFormat是默认的按行切
      CombineTextInputFormat把多个小文件放到一起统一的进行切割
    • 还有两个不经常用的
      NLineInputFormat按行进行切割
      KeyValueTextInputFormat

    在这里插入图片描述
    我是设置过的,参考的尚硅谷的java课程,有兴趣的可以看下我之前的博客,或者你在设置里面全部快捷键里搜一下type hierarchy
    在这里插入图片描述就可以知道你的快捷键是什么了

    https://blog.csdn.net/Redamancy06/article/details/126134561

    在这里插入图片描述这里minSize获取的是1,1是怎么来的,可以看getFormatMinSplitSize这个和getMinSplitSize方法

    在这里插入图片描述getFormatMinSplitSize方法他是返回的是1,

    在这里插入图片描述他这个值是由mapreduce.input.fileinputformat.split.minsize这个值来决定

    这个参数去mapred-default.xml里面找

    在这里插入图片描述

    <property>
      <name>mapreduce.input.fileinputformat.split.minsize</name>
      <value>0</value>
      <description>The minimum size chunk that map input should be split
      into.  Note that some file formats may have minimum split sizes that
      take priority over this setting.</description>
    </property>
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    这里的值默认是0
    所以minSize的值取1

    在这里插入图片描述
    maxSize没有获取到,是为什么呢,进入getMaxSplitSize方法里面看看

    在这里插入图片描述他的值是由mapreduce.input.fileinputformat.split.maxsize这个值决定
    在这里插入图片描述在mapred-default.xml里面mapreduce.input.fileinputformat.split.maxsize是找不到的,如果找不到,则会返回long的最大值,

    在这里插入图片描述这里开始循环变量输入的个数,这里可以说明是一个文件一个文件的切片

    在这里插入图片描述这里可以看出来文件地址,和文件大小

    在这里插入图片描述

    在这里插入图片描述

    然后继续往下走到这里,isSplitable是检查是否支持切片,如果是压缩文件就不支持切片

    在这里插入图片描述
    然后再往下走到这里,blockSize是块的大小为32m,因为是在本地,所以他是32m

    在这里插入图片描述然后再往下走,splitSize是切片大小,他也是32m,是怎么来的,进入computeSplitSize方法看看
    在这里插入图片描述
    因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小

    在这里插入图片描述
    如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理

    在这里插入图片描述
    这行代码就是将切片信息存在本地
    在这里插入图片描述
    然后后面就是job提交源码的过程,有兴趣的可以看我之前写的博客https://blog.csdn.net/Redamancy06/article/details/126501627?spm=1001.2014.3001.5501

    13.1.3.2切片源码详解

    在这里插入图片描述
    在这里插入图片描述双shift打开查找文件,然后输入InputFormat
    在这里插入图片描述
    然后按f4打开这个进入FileInputFormat
    在这里插入图片描述
    然后ctrl+f3查看对应的方法

    最主要关心的是getSplits这个方法

    在这里插入图片描述
    这个方法里有切片是怎么切的

    13.1.3.3总结,那些可以证明你看过切片的源码

    在这里插入图片描述他的切片原则是按照每一个文件单独切片

    在这里插入图片描述还有这个,他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小

    在这里插入图片描述然后就是这个1.1倍的事

  • 相关阅读:
    面试遇到算法题:实现LRU缓存
    N9917A|是德科技keysight N9917A微波分析仪
    点云处理实战 PCL求解点云表面曲率
    Window环境下不安装DM数据库,编译dmPython
    离散数学19_第8章图___图的连通性
    SpringBoot 导出多个Excel文件,压缩成.zip格式下载
    Ubuntu 20.04 设置开机自启脚本
    视频直播点播平台EasyDSS调用接口后,录像回看无法打开是什么原因?
    基于Python+Django深度学习的身份证识别考勤系统设计与实现
    ClickHouse删除数据之delete问题详解
  • 原文地址:https://blog.csdn.net/Redamancy06/article/details/126527995
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号