.由于业务需要,需要读取文本文件内容。所以参考了网上的一些写法,测试过程中还是踩了坑。故在此做一下记录。
.Net Framework 中获取文件编码格式的方法:
代码完全照搬来自文章:《C# 获取文件编码格式》(感谢哈!)
主要代码如下:
- public class FileEncoding
- {
- ///
- /// 给定文件的路径,读取文件的二进制数据,判断文件的编码类型
- ///
- /// 文件路径
- ///
文件的编码类型 - public static System.Text.Encoding GetType(string FILE_NAME)
- {
- FileStream fs = new FileStream(FILE_NAME, FileMode.Open, FileAccess.Read);
- Encoding r = GetType(fs);
- fs.Close();
- return r;
- }
-
- ///
- /// 通过给定的文件流,判断文件的编码类型
- ///
- /// 文件流
- ///
文件的编码类型 - public static System.Text.Encoding GetType(FileStream fs)
- {
- Encoding reVal = Encoding.Default;
- BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
- int i;
- int.TryParse(fs.Length.ToString(), out i);
- byte[] ss = r.ReadBytes(i);
- if (IsUTF8Bytes(ss) || (ss[0] == 0xEF && ss[1] == 0xBB && ss[2] == 0xBF))
- {
- reVal = Encoding.UTF8;
- }
- else if (ss[0] == 0xFE && ss[1] == 0xFF && ss[2] == 0x00)
- {
- reVal = Encoding.BigEndianUnicode;
- }
- else if (ss[0] == 0xFF && ss[1] == 0xFE && ss[2] == 0x41)
- {
- reVal = Encoding.Unicode;
- }
- r.Close();
- return reVal;
- }
-
- ///
- /// 判断是否是不带 BOM 的 UTF8 格式
- ///
- ///
- ///
- private static bool IsUTF8Bytes(byte[] data)
- {
- int charByteCounter = 1; //计算当前正分析的字符应还有的字节数
- byte curByte; //当前分析的字节.
- for (int i = 0; i < data.Length; i++)
- {
- curByte = data[i];
- if (charByteCounter == 1)
- {
- if (curByte >= 0x80)
- {
- //判断当前
- while (((curByte <<= 1) & 0x80) != 0)
- {
- charByteCounter++;
- }
- //标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X
- if (charByteCounter == 1 || charByteCounter > 6)
- {
- return false;
- }
- }
- }
- else
- {
- //若是UTF-8 此时第一位必须为1
- if ((curByte & 0xC0) != 0x80)
- {
- return false;
- }
- charByteCounter--;
- }
- }
- if (charByteCounter > 1)
- {
- throw new Exception("非预期的byte格式");
- }
- return true;
- }
- }
.Net Core 中获取文件编码的方法
然而,上面的代码在.Net Core + 默认ANSI编码的win操作系统(早于win10) 中运行会出现中文乱码的现象。主要原因在于Encoding.Default属性在.Net Core 中值发生了变化。
微软官方文档中对 Encoding.Default 属性 做出了如下解释:

也就是说:
.NET Core 中,Encoding.Default 等于 Encoding.GetEncoding("gb2312")
.NET Core 中, Encoding.Default 等于 UTF8Encoding
所以.Net Core 中如果继续用上面参考文章中的代码,在读取ANSI文件时会发生乱码。而ANSI 在简体中文系统下就是 GB2312。
所以适用于.net core 的获取文件编码的方法的代码如下:
- public class FileEncoding
- {
- ///
- /// 给定文件的路径,读取文件的二进制数据,判断文件的编码类型
- ///
- /// 文件路径
- ///
文件的编码类型 - public static System.Text.Encoding GetType(string FILE_NAME)
- {
- FileStream fs = new FileStream(FILE_NAME, FileMode.Open, FileAccess.Read);
- Encoding r = GetType(fs);
- fs.Close();
- return r;
- }
-
- ///
- /// 通过给定的文件流,判断文件的编码类型
- ///
- /// 文件流
- ///
文件的编码类型 - public static System.Text.Encoding GetType(FileStream fs)
- {
- Encoding reVal = Encoding.GetEncoding("gb2312");
- BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
- int i;
- int.TryParse(fs.Length.ToString(), out i);
- byte[] ss = r.ReadBytes(i);
- if (IsUTF8Bytes(ss) || (ss[0] == 0xEF && ss[1] == 0xBB && ss[2] == 0xBF))
- {
- reVal = Encoding.UTF8;
- }
- else if (ss[0] == 0xFE && ss[1] == 0xFF && ss[2] == 0x00)
- {
- reVal = Encoding.BigEndianUnicode;
- }
- else if (ss[0] == 0xFF && ss[1] == 0xFE && ss[2] == 0x41)
- {
- reVal = Encoding.Unicode;
- }
- r.Close();
- return reVal;
-
- }
-
- ///
- /// 判断是否是不带 BOM 的 UTF8 格式
- ///
- ///
- ///
- private static bool IsUTF8Bytes(byte[] data)
- {
- int charByteCounter = 1; //计算当前正分析的字符应还有的字节数
- byte curByte; //当前分析的字节.
- for (int i = 0; i < data.Length; i++)
- {
- curByte = data[i];
- if (charByteCounter == 1)
- {
- if (curByte >= 0x80)
- {
- //判断当前
- while (((curByte <<= 1) & 0x80) != 0)
- {
- charByteCounter++;
- }
- //标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X
- if (charByteCounter == 1 || charByteCounter > 6)
- {
- return false;
- }
- }
- }
- else
- {
- //若是UTF-8 此时第一位必须为1
- if ((curByte & 0xC0) != 0x80)
- {
- return false;
- }
- charByteCounter--;
- }
- }
- if (charByteCounter > 1)
- {
- throw new Exception("非预期的byte格式");
- }
- return true;
- }
- }
主要就是把:
Encoding reVal = Encoding.Default;
改成:
Encoding reVal = Encoding.GetEncoding("gb2312");