• 问题解决:MapReduce输出结果乱码(Eclipse)


    大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。
    1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…
    2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。
    3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!
    博客导航跳转(请收藏):邵奈一的技术博客导航
    | 公众号 | 微信 | CSDN | 掘金 | 51CTO | 简书 | 微博 |


    0x00 教程内容

    1. 本文章是属于常见的问题,主要是对问题进行了场景还原、接着一步一步操作探索原因,最后解决问题。

    0x01 问题呈现

    统计结果直接使用Eclipse打开,发现是乱码的:
    在这里插入图片描述
    此时,将此文件拖到Notepad++软件打开,也是乱码的:
    在这里插入图片描述

    0x02 探索原因

    对于乱码问题,常见的原因可能是编辑器编码设置问题,也可能是输入文件的编码格式没对应。所以,此时可以使用Notepad++打开一下需要统计的文件,看一下是什么格式的。

    可以看到是GB2312:
    在这里插入图片描述
    扩展解释:
    GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码;
    GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名。
    总体说来,GBK包括所有的汉字,包括简体和繁体。而gb2312则只包括简体汉字。

    此时,再去查看一下项目的编码格式:
    右击项目名,选择Properties,查看到是UTF-8:
    在这里插入图片描述
    所以大家也可以再回去看一下在Notepad++中的统计结果,格式其实也是UTF-8格式的。

    0x03 解决问题

    解决办法一

    将需要统计的文本文件,转化成UTF-8就可以了,操作如下:

    在这里插入图片描述

    重新执行统计任务,可以看到执行结果:

    在这里插入图片描述
    其实我们一般都是用UTF-8格式的,包括Eclipse的设置也是一样,如果大家的配置跟我的不一致,也可以考虑跟我一样设置好。

    解决办法二

    如果不想改项目的编码设置,比如现在是这样:

    在这里插入图片描述
    同时待统计的文件也是GB2312:
    在这里插入图片描述
    那么我们在读取文件的时候可以指定一下文件格式,修改一下代码:

    //String lines = value.toString();
    String lines = new String(value.getBytes(),0,value.getLength(),"GBK"); 
    
    • 1
    • 2

    可以看到统计结果也是乱码的:
    在这里插入图片描述
    但是!用Notepad++打开,是非乱码的,而且格式是UTF-8的。我将Eclipse设置成不是UTF-8,其实也是为了说明一个问题:MapReduce默认就是输出成UTF-8格式的。

    此时,其实你也可以像上面的步骤一样,将Eclipse的编码再设置回UTF-8,你在Eclipse里看到的乱码文件,就变成中文了:
    在这里插入图片描述

    0xFF 总结

    1. 所以,最简单的办法其实还是将需要统计文件的编码格式改成UTF-8,这样我们就不需要改代码了,否则,你需要指定输入文件的编码格式,不然就会像开头的统计结果一样,只有三行,而且是乱码的。

    邵奈一 原创不易,如转载请标明出处,教育是一生的事业。


  • 相关阅读:
    计网第五章(运输层)(八)(TCP的连接释放)
    测试人必备的Linux常用命令大全...【全网最全面整理】
    JVM之VisualVM工具的使用
    外贸怎么在谷歌搜索客户?
    多层前馈神经网络及BP算法
    8、IOC 之容器扩展点
    使用redis pipeline提升性能
    micronet ICCV2021
    HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
    ai智能电话机器人是如何自主学习的
  • 原文地址:https://blog.csdn.net/shaock2018/article/details/126032745