.Net Core 获取文件编码格式

.由于业务需要，需要读取文本文件内容。所以参考了网上的一些写法，测试过程中还是踩了坑。故在此做一下记录。

.Net Framework 中获取文件编码格式的方法：

代码完全照搬来自文章：《C# 获取文件编码格式》（感谢哈！）

主要代码如下：


public class FileEncoding
{
    ///  
    /// 给定文件的路径，读取文件的二进制数据，判断文件的编码类型 
    ///  
    /// 文件路径 
    /// 文件的编码类型 
    public static System.Text.Encoding GetType(string FILE_NAME)
    {
        FileStream fs = new FileStream(FILE_NAME, FileMode.Open, FileAccess.Read);
        Encoding r = GetType(fs);
        fs.Close();
        return r;
    }
 
    ///  
    /// 通过给定的文件流，判断文件的编码类型 
    ///  
    /// 文件流 
    /// 文件的编码类型 
    public static System.Text.Encoding GetType(FileStream fs)
    {
        Encoding reVal = Encoding.Default;
        BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
        int i;
        int.TryParse(fs.Length.ToString(), out i);
        byte[] ss = r.ReadBytes(i);
        if (IsUTF8Bytes(ss) || (ss[0] == 0xEF && ss[1] == 0xBB && ss[2] == 0xBF))
        {
            reVal = Encoding.UTF8;
        }
        else if (ss[0] == 0xFE && ss[1] == 0xFF && ss[2] == 0x00)
        {
            reVal = Encoding.BigEndianUnicode;
        }
        else if (ss[0] == 0xFF && ss[1] == 0xFE && ss[2] == 0x41)
        {
            reVal = Encoding.Unicode;
        }
        r.Close();
        return reVal;
    }
 
    ///  
    /// 判断是否是不带 BOM 的 UTF8 格式 
    ///  
    ///  
    ///  
    private static bool IsUTF8Bytes(byte[] data)
    {
        int charByteCounter = 1; //计算当前正分析的字符应还有的字节数 
        byte curByte; //当前分析的字节. 
        for (int i = 0; i < data.Length; i++)
        {
            curByte = data[i];
            if (charByteCounter == 1)
            {
                if (curByte >= 0x80)
                {
                    //判断当前 
                    while (((curByte <<= 1) & 0x80) != 0)
                    {
                        charByteCounter++;
                    }
                    //标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X 
                    if (charByteCounter == 1 || charByteCounter > 6)
                    {
                        return false;
                    }
                }
            }
            else
            {
                //若是UTF-8 此时第一位必须为1 
                if ((curByte & 0xC0) != 0x80)
                {
                    return false;
                }
                charByteCounter--;
            }
        }
        if (charByteCounter > 1)
        {
            throw new Exception("非预期的byte格式");
        }
        return true;
    }
}

.Net Core 中获取文件编码的方法

然而，上面的代码在.Net Core + 默认ANSI编码的win操作系统（早于win10）中运行会出现中文乱码的现象。主要原因在于Encoding.Default属性在.Net Core 中值发生了变化。

微软官方文档中对 Encoding.Default 属性做出了如下解释：

也就是说：

.NET Core 中，Encoding.Default 等于 Encoding.GetEncoding("gb2312")

.NET Core 中， Encoding.Default 等于 UTF8Encoding

所以.Net Core 中如果继续用上面参考文章中的代码，在读取ANSI文件时会发生乱码。而ANSI 在简体中文系统下就是 GB2312。

所以适用于.net core 的获取文件编码的方法的代码如下：


public class FileEncoding
{
    ///  
    /// 给定文件的路径，读取文件的二进制数据，判断文件的编码类型 
    ///  
    /// 文件路径 
    /// 文件的编码类型 
    public static System.Text.Encoding GetType(string FILE_NAME)
    {
        FileStream fs = new FileStream(FILE_NAME, FileMode.Open, FileAccess.Read);
        Encoding r = GetType(fs);
        fs.Close();
        return r;
    }
 
    ///  
    /// 通过给定的文件流，判断文件的编码类型 
    ///  
    /// 文件流 
    /// 文件的编码类型 
    public static System.Text.Encoding GetType(FileStream fs)
    {
        Encoding reVal = Encoding.GetEncoding("gb2312");
        BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
        int i;
        int.TryParse(fs.Length.ToString(), out i);
        byte[] ss = r.ReadBytes(i);
        if (IsUTF8Bytes(ss) || (ss[0] == 0xEF && ss[1] == 0xBB && ss[2] == 0xBF))
        {
            reVal = Encoding.UTF8;
        }
        else if (ss[0] == 0xFE && ss[1] == 0xFF && ss[2] == 0x00)
        {
            reVal = Encoding.BigEndianUnicode;
        }
        else if (ss[0] == 0xFF && ss[1] == 0xFE && ss[2] == 0x41)
        {
            reVal = Encoding.Unicode;
        }
        r.Close();
        return reVal;
 
    }
 
    ///  
    /// 判断是否是不带 BOM 的 UTF8 格式 
    ///  
    ///  
    ///  
    private static bool IsUTF8Bytes(byte[] data)
    {
        int charByteCounter = 1; //计算当前正分析的字符应还有的字节数 
        byte curByte; //当前分析的字节. 
        for (int i = 0; i < data.Length; i++)
        {
            curByte = data[i];
            if (charByteCounter == 1)
            {
                if (curByte >= 0x80)
                {
                    //判断当前 
                    while (((curByte <<= 1) & 0x80) != 0)
                    {
                        charByteCounter++;
                    }
                    //标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X 
                    if (charByteCounter == 1 || charByteCounter > 6)
                    {
                        return false;
                    }
                }
            }
            else
            {
                //若是UTF-8 此时第一位必须为1 
                if ((curByte & 0xC0) != 0x80)
                {
                    return false;
                }
                charByteCounter--;
            }
        }
        if (charByteCounter > 1)
        {
            throw new Exception("非预期的byte格式");
        }
        return true;
    }
}

主要就是把：

Encoding reVal = Encoding.Default;

改成：

Encoding reVal = Encoding.GetEncoding("gb2312");

相关阅读:
vue3基础（三）组件命名及调用，render,render中获取插槽值，函数式组件，异步组件,vue3中data只有函数形式
 SegNeXt学习记录（一）：配置环境 & 测试代码
 MySQL常用语句一章解读数据库的底层原理
 [go 面试] 一致性哈希：数据分片与负载均衡的黄金法则
 Mybatis学习笔记4 用javassist动态实现DAO接口基于接口的CRUD
Docker consul的容器服务更新与发现
 vite vue3安装element-plus
java-php-python-ssm学生综合测评系统计算机毕业设计
 群晖synology DSM 7.2设置钉钉Webhooks通知
 交换机和路由器技术-18-热备份路由选择协议HSRP
原文地址：https://blog.csdn.net/guigenyi/article/details/126307665