• .Net中字符串不变性与相等判断的特殊场景


    今天写bug的时候帮同事解决了一个有趣的问题,可能很多人都会答错。分享给大家。

    问题

    请看以下例子,并回答问题。

    var s1 = "12";
    var s2 = "12";
    
    //序列化方式1
    var o3 = Newtonsoft.Json.JsonConvert.DeserializeObject<string>(Newtonsoft.Json.JsonConvert.SerializeObject(s1));
    //序列化方式2
    MemoryStream stream = new MemoryStream();
    System.Runtime.Serialization.Formatters.Binary.BinaryFormatter bf = new System.Runtime.Serialization.Formatters.Binary.BinaryFormatter();
    bf.Serialize(stream, s1);
    stream.Seek(0, SeekOrigin.Begin);
    var o4 = bf.Deserialize(stream);
    
    //====分割线===================================================
    
    var e1 = object.ReferenceEquals(s1, s2);
    
    var e2 = o4 == s1;
    
    var e3 = s1.Equals(o4);
    
    var e4 = o3 == o4;
    
    Console.ReadKey();
    

    请回答分割线后e1, e2, e3, e4 值为true还是false。

    人人都知道在.Net中字符串是享元模式的经典范例。字符串具有不变性。(至少在托管层,事实上可以在非托管层修改字符串的值),但你真的能回答对上面的问题么?


    答案

    
    e1 = true;
    e2 = false;
    e3 = true;
    e4 = false;
    
    

    要了解这个问题首先可以看下字符串在内存中的布局。

    如何在visual studio中查看变量的内存布局

    在VS中可以非常方便的查看托管或非托管变量的内存值。方法如下。

    • 依次在调试模式下打开 调试 -> 窗口 -> 内存 -> 内存1(1~4均可) 打开内存对话框。
    • 在地址栏中输入引用类型的变量名即可。
    • 如果你的数据是struct类型则需要加&取地址符。

    字符串变量在内存中的布局

    在.Net中字符串是以UTF-16格式在内存中保存的。在本例中s1的内存如下。

    00 00 00 00 00 00 00 00 98 d6 fc e5 fb 7f 00 00 02 00 00 00 31 00 32 00

    这里可能与你拿到的结果不一样。你可能并没有前8位0x00,因为我把对象头带上了。下面依次解释各段含义。

    • 00 00 00 00 00 00 00 00 最开始的8比特是对象头。其中,在64位下,高4位为0,低4位为一个不为0的数(这里由于并没有执行lock或Gethashcode操作,所以这里为0,感兴趣的自行实验.)
    • 98 d6 fc e5 fb 7f 00 00对象的MethodTable,根据类型而不同,对象的引用指向的位置。
    • 02 00 00 00 字符串长度,这里是2。
    • 31 00 32 00 字符串数组* char,注意都是小端模式。

    拿以上s1 s2 o3 o4分别实验可以发现他们的内存一模一样,其中s1 s2直接就是同一块内存地址,但剩下的内存地址都不一样

    比较与解答

    1. e1 = true; 通过内存看合情合理,毕竟都同一块内存了。

    2. e2 = false; 这里如果用的VS的版本比较高的话,也能看出来。因为这里VS会提示:

      可能非有意的引用比较。

      既然是引用比较,内存地址都不一样,肯定是false了。但是如果vs版本不高的话则迷惑性就较大了,其实这里做的是ReferenceEquals的比较。

    3. e3 = true; 这里问题出在.Net代码里。字符串类型Equals方法被重载了。

            // Determines whether two strings match.
            public override bool Equals([NotNullWhen(true)] object? obj)
            {
                if (object.ReferenceEquals(this, obj))
                    return true;
    
                if (!(obj is string str))
                    return false;
    
                if (this.Length != str.Length)
                    return false;
    
                return EqualsHelper(this, str);
            }
    

    EqualsHelper方法最终则调用如下。(在.Net 6下)

            // Optimized byte-based SequenceEquals. The "length" parameter for this one is declared a nuint rather than int as we also use it for types other than byte
            // where the length can exceed 2Gb once scaled by sizeof(T).
            public static unsafe bool SequenceEqual(ref byte first, ref byte second, nuint length)
    

    由于实现过于复杂(.Net framework 4.5.2下则较简单,直接按长度比较char,有兴趣的自行查阅),这里就不贴具体实现了。我们很容易看出这里比较的目的是比较两段内存是否相等,显然为true

    1. e4 = false;这里是为了比较不同序列化方式的影响,和e2类似,结果显然是false

    结论

    虽然.Net中字符串是享元模式创建的,但并不能保证同一字符串在内存里只有一份。比如序列化情况等例外情况。如果读者知道其他情况也可以告诉我,提前说声感谢

  • 相关阅读:
    Nginx的进程结构
    idea默认带的equals和hashcode引起的bug
    LVS+keepalived——高可用集群
    Redis—List数据类型及其常用命令详解
    多通道图片的卷积过程
    完美解决k8s master节点无法ping node节点中的IP或Service NodePort的IP
    顺序表-c语言实现
    信号驱动io
    数据链路层-封装成帧
    《数据结构》顺序表ArrayList
  • 原文地址:https://www.cnblogs.com/zhangchen-trunk/p/16172401.html