问题解决：MapReduce输出结果乱码（Eclipse）

大家好，我是邵奈一，一个不务正业的程序猿、正儿八经的斜杠青年。
1、世人称我为：被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…
2、这几年，我整理了很多IT技术相关的教程给大家，爱生活、爱分享。
3、如果您觉得文章有用，请收藏，转发，评论，并关注我，谢谢！
博客导航跳转（请收藏）：邵奈一的技术博客导航
| 公众号 | 微信 | CSDN | 掘金 | 51CTO | 简书 | 微博 |

教程目录

0x00 教程内容
0x01 问题呈现
0x02 探索原因
0x03 解决问题
- - - - 解决办法一
      - 解决办法二
0xFF 总结

0x00 教程内容

本文章是属于常见的问题，主要是对问题进行了场景还原、接着一步一步操作探索原因，最后解决问题。

0x01 问题呈现

统计结果直接使用Eclipse打开，发现是乱码的：
在这里插入图片描述
此时，将此文件拖到Notepad++软件打开，也是乱码的：

0x02 探索原因

对于乱码问题，常见的原因可能是编辑器编码设置问题，也可能是输入文件的编码格式没对应。所以，此时可以使用Notepad++打开一下需要统计的文件，看一下是什么格式的。

可以看到是GB2312：
在这里插入图片描述
扩展解释：
GB2312是中国规定的汉字编码，也可以说是简体中文的字符集编码;
GBK 是 GB2312的扩展 ,除了兼容GB2312外，它还能显示繁体中文，还有日文的假名。
总体说来，GBK包括所有的汉字，包括简体和繁体。而gb2312则只包括简体汉字。

此时，再去查看一下项目的编码格式：
右击项目名，选择Properties，查看到是UTF-8：
在这里插入图片描述
所以大家也可以再回去看一下在Notepad++中的统计结果，格式其实也是UTF-8格式的。

0x03 解决问题

解决办法一

将需要统计的文本文件，转化成UTF-8就可以了，操作如下：

在这里插入图片描述

重新执行统计任务，可以看到执行结果：

在这里插入图片描述
其实我们一般都是用UTF-8格式的，包括Eclipse的设置也是一样，如果大家的配置跟我的不一致，也可以考虑跟我一样设置好。

解决办法二

如果不想改项目的编码设置，比如现在是这样：

在这里插入图片描述
同时待统计的文件也是GB2312：

那么我们在读取文件的时候可以指定一下文件格式，修改一下代码：

//String lines = value.toString();
String lines = new String(value.getBytes(),0,value.getLength(),"GBK"); 
1
2

可以看到统计结果也是乱码的：
在这里插入图片描述
但是！用Notepad++打开，是非乱码的，而且格式是UTF-8的。我将Eclipse设置成不是UTF-8，其实也是为了说明一个问题：MapReduce默认就是输出成UTF-8格式的。

此时，其实你也可以像上面的步骤一样，将Eclipse的编码再设置回UTF-8，你在Eclipse里看到的乱码文件，就变成中文了：
在这里插入图片描述

0xFF 总结

所以，最简单的办法其实还是将需要统计文件的编码格式改成UTF-8，这样我们就不需要改代码了，否则，你需要指定输入文件的编码格式，不然就会像开头的统计结果一样，只有三行，而且是乱码的。

邵奈一 原创不易，如转载请标明出处，教育是一生的事业。

相关阅读:
网络安全——黑客自学（笔记）
45-3 护网溯源 - 为什么要做溯源工作
MybatisPlus 4 DML 编程控制 4.4 乐观锁
Redis实战案例及问题分析之单机优惠券秒杀
Win10系统如何关闭防火墙？
FindDiff_Qt找不同项目
矩阵点乘multiply()函数和矩阵乘法dot()函数
ImageJ软件使用教程（二）：图像测量
网络原理，了解xml, json,protobuffer的特点
贪心算法求解图的m着色问题

原文地址：https://blog.csdn.net/shaock2018/article/details/126032745