目录
内存间交互操作(read,write,lock,unlock)
2.可见性(Visibility)——volatile,synchronized,final
3.有序性(Ordering)——volatile,synchronized
并发处理的广泛应用是Amdahl定律代替摩尔定律[1]成为计算机性能发展源动力的根本原因,也是 人类压榨计算机运算能力的最有力武器。
[1] Amdahl定律通过系统中并行化与串行化的比重来描述多处理器系统能获得的运算加速能力,摩尔 定律则用于描述处理器晶体管数量与运行效率之间的发展关系。这两个定律的更替代表了近年来硬件 发展从追求处理器频率到追求多核心并行处理的发展过程。
充分利用计算机处理器的能力:计算机的运算速度与它的存储和通信子系统的速度差距太大,大量的时间都花费在磁盘I/O、网络通信或者数据库访问上。 如果不希望处理器在大部分时间里都处于等待其他资源的空闲状态,就必须使用一些手段去把处理器 的运算能力“压榨”出来,否则就会造成很大的性能浪费,而让计算机同时处理几项任务则是最容易想到,也被证明是非常有效的“压榨”手段。
一个服务端要同时对多个客户端提供服务,则是另一个更具体的并发应用场景。
衡量一个服务性能的高低好坏,每秒事务处理数(Transactions Per Second, TPS)是重要的指标之一,它代表着一秒内服务端平均能响应的请求总数,而TPS值与程序的并发能力 又有非常密切的关系。
对于计算量相同的任务,程序线程并发协调得越有条不紊,效率自然就会越 高;反之,线程之间频繁争用数据,互相阻塞甚至死锁,将会大大降低程序的并发能力。
绝大多数的运算任务都不可能只靠处理器“计算”就能完成。
处理器至少要与内存交互,如读取运算数据、 存储运算结果等,这个I/O操作就是很难消除的(无法仅靠寄存器来完成所有运算任务)。
由于计算机 的存储设备与处理器的运算速度有着几个数量级的差距,所以现代计算机系统都不得不加入一层或多 层读写速度尽可能接近处理器运算速度的高速缓存(Cache)来作为内存与处理器之间的缓冲:将运算需要使用的数据复制到缓存中,让运算能快速进行,当运算结束后再从缓存同步回内存之中,这样处理器就无须等待缓慢的内存读写了。
基于高速缓存的存储交互很好地解决了处理器与内存速度之间的矛盾,但是也为计算机系统带来 更高的复杂度,它引入了一个新的问题:缓存一致性(Cache Coherence)。
在多路处理器系统中,每个处理器都有自己的高速缓存(三级缓存中前两级是私有的),而它们又共享同一主内存(Main Memory),这种系统称为共享内存多核系统(Shared Memory Multiprocessors System),如图所示。
当多个处理器的运算任务都涉及同一块主内存区域时,将可能导致各自的缓存数据不一致。如果真的发生这种情况,那同步回到主内 存时该以谁的缓存数据为准呢?
为了解决一致性的问题,需要各个处理器访问缓存时都遵循一些协 议,在读写时要根据协议来进行操作,这类协议有MSI、MESI(Illinois Protocol)、MOSI、 Synapse、Firefly及Dragon Protocol等。
“内存模型”:它可以理解为在特定的操作协议下,对特定的内存或高速缓存进行读写访问的过程抽象。不同架构的物理机器可 以拥有不一样的内存模型,而Java虚拟机也有自己的内存模型,并且与这里介绍的内存访问操作及硬件的缓存访问操作具有高度的可类比性。
除了增加高速缓存之外,为了使处理器内部的运算单元能尽量被充分利用,处理器可能会对输入 代码进行乱序执行(Out-Of-Order Execution)优化,处理器会在计算之后将乱序执行的结果重组,保证该结果与顺序执行的结果是一致的,但并不保证程序中各个语句计算的先后顺序与输入代码中的顺序一致,因此如果存在一个计算任务依赖另外一个计算任务的中间结果,那么其顺序性并不能靠代码 的先后顺序来保证。
与处理器的乱序执行优化类似,Java虚拟机的即时编译器中也有指令重排序 (Instruction Reorder)优化。
《Java虚拟机规范》中曾试图定义一种“Java内存模型” (Java Memory Model,JMM)来屏 蔽各种硬件和操作系统的内存访问差异,以实现让Java程序在各种平台下都能达到一致的内存访问效 果。
在此之前,主流程序语言(如C和C++等)直接使用物理硬件和操作系统的内存模型。因此,由于 不同平台上内存模型的差异,有可能导致程序在一套平台上并发完全正常,而在另外一套平台上并发 访问却经常出错,所以在某些场景下必须针对不同的平台来编写程序。
Java内存模型的主要目的是定义程序中各种“变量”的访问规则,即关注在虚拟机中把变量值存储到内存和从内存中取出变量值这样的底层细节。
此处的变量(Variables)与Java编程中所说的变量有所区别,它包括了实例字段、静态字段和构成数组对象的元素,但是不包括局部变量与方法参数,因为后者是线程私有的(如果局部变量是一个reference类型,它引用的对象在Java堆中可被各个线程共享,但是reference本身在Java栈的局部变量表中是线程私有的),不会被共享,自然就不会存在竞争问题。
为了获得更好的执行效能,Java内存模型并没有限制执行引擎使用处理器的特定寄存器或缓存来和主内存进行交互,也没有限制即时编译器是否要进行调整代码执行顺序这类优化措施。
Java内存模型规定了所有的变量都存储在主内存(Main Memory)中(物理上它仅是虚拟机内存的一部分)。
每条线程还有自己的工作内存(Working Memory,可与前面讲的处理器高速缓存类比),线程的工作内存中保存了被该线程使用的变量的主内存副本(“假设线程中访问一个10MB大小的对象,也会把 这10MB的内存复制一份出来吗?”,事实上并不会如此,这个对象的引用、对象中某个在线程访问到 的字段是有可能被复制的,但不会有虚拟机把整个对象复制一次。),线程对变量的所有操作(读取、赋值等)都必须在工作内存中进行,而不能直接读写主内存中的数据。(volatile变量依然有工作内存的拷贝,但是由于它特殊的操作顺序性规定(后文会讲到),所以看起来如同直接在主内存中读写访问一般,因此这里的描述对于volatile 也并不存在例外。)
不同的线程之间也无法直接访问对方工作内存中的变 量,线程间变量值的传递均需要通过主内存来完成,线程、主内存、工作内存三者的交互关系如图
主内存、工作内存与Java内存区域中的Java堆、栈、方法区等并不是同一 个层次的对内存的划分,这两者基本上是没有任何关系的。
如果两者一定要勉强对应起来,那么从变量、主内存、工作内存的定义来看,
主内存主要对应于Java堆中的对象实例数据部分(Java堆还保存了对象的其他信息,对于HotSpot虚拟机来讲,有Mark Word(存储对 象哈希码、GC标志、GC年龄、同步锁等信息)、Klass Point(指向存储类型元数据的指针)及一些用于字节对齐补白的填充数据(如果实例数据刚好满足8字节对齐,则可以不存在补白)),
而工作内存则对应于虚拟机栈中的部分区域。
从更基础的层次上说,主内存直接对应于物理硬件的内存,而为了获取更好的运行速度,虚拟机(或者是硬件、操作系统本身的优化措施)可能会让工作内存优先存储于寄存器和高速缓存中,因为程序运行时主要访问的是工作内存。
关于主内存与工作内存之间具体的交互协议,即一个变量如何从主内存拷贝到工作内存、如何从 工作内存同步回主内存这一类的实现细节,Java内存模型中定义了以下8种操作来完成。
Java虚拟机实 现时必须保证下面提及的每一种操作都是原子的、不可再分的(对于double和long类型的变量来说, load、store、read和write操作在某些平台上允许有例外)
如果要把一个变量从主内存拷贝到工作内存,那就要按顺序执行read和load操作,
如果要把变量从 工作内存同步回主内存,就要按顺序执行store和write操作。
注意,Java内存模型只要求上述两个操作 必须按顺序执行,但不要求是连续执行。
也就是说read与load之间、store与write之间是可插入其他指令 的,如对主内存中的变量a、b进行访问时,一种可能出现的顺序是read a、read b、load b、load a。
除此 之外,Java内存模型还规定了在执行上述8种基本操作时必须满足如下规则:
volatile原理_完了学不下的博客-CSDN博客_一个处理器的缓存回写到内存会导致
关键字volatile可以说是Java虚拟机提供的最轻量级的同步机制,但是它并不容易被正确、完整地 理解
当一个变量被定义成volatile之后,它将具备两项特性:
第一项是保证此变量对所有线程的可见性,这里的“可见性”是指当一条线程修改了这个变量的值,新值对于其他线程来说是可以立即得知的。
而普通变量并不能做到这一点,普通变量的值在线程间传递时均需要通过主内存来完成。比如, 线程A修改一个普通变量的值,然后向主内存进行回写,另外一条线程B在线程A回写完成了之后再对主内存进行读取操作,新变量值才会对线程B可见。
- /**
- * volatile变量自增运算测试
- *
- * @author zzm
- */
- public class VolatileTest {
- public static volatile int race = 0;
- public static void increase() {
- race++; // 不是原子操作
- }
- private static final int THREADS_COUNT = 20;
- public static void main(String[] args) {
- Thread[] threads = new Thread[THREADS_COUNT];
- for (int i = 0; i < THREADS_COUNT; i++) {
- threads[i] = new Thread(new Runnable() {
- @Override
- public void run() {
- for (int i = 0; i < 10000; i++) {
- increase();
- }
- }
- });
- threads[i].start();
- }
- // 等待所有累加线程都结束
- for (int i = 0; i < THREADS_COUNT; i++){
- try {
- threads[i].join();
- } catch (InterruptedException e) {
- e.printStackTrace();
- }
- }
- System.out.println(race);
- }
- }
VolatileTest的字节码
- /*
- 当getstatic指令把
- race的值取到操作栈顶时,volatile关键字保证了race的值在此时是正确的,
- 但是在执行iconst_1、iadd这些指令的时候,其他线程可能已经把race的值改变了,
- 而操作栈顶的值就变成了过期的数据,所以putstatic指令执行后就可能
- 把较小的race值同步回主内存之中。
- */
- public static void increase();
- Code:
- Stack=2, Locals=0, Args_size=0
- 0: getstatic #13; //Field race:I
- 3: iconst_1
- 4: iadd
- 5: putstatic #13; //Field race:I
- 8: return
- LineNumberTable:
- line 14: 0
- line 15: 8
者使用字节码来分析并发问题仍然是不严谨的,因为即使编译出来只有一条字 节码指令,也并不意味执行这条指令就是一个原子操作。
一条字节码指令在解释执行时,解释器要运行许多行代码才能实现它的语义。
如果是编译执行,一条字节码指令也可能转化成若干条本地机器码指令。
此处使用-XX:+PrintAssembly参数输出反汇编来分析才会更加严谨一些。
由于volatile变量只能保证可见性,在不符合以下两条规则的运算场景中,我们仍然要通过加锁 (使用synchronized、java.util.concurrent中的锁或原子类)来保证原子性:
- 运算结果并不依赖变量的当前值,或者能够确保只有单一的线程修改变量的值。
- 变量不需要与其他的状态变量共同参与不变约束。
- // 使用volatile变量来控制并发,当shutdown()方法被
- // 调用时,能保证所有线程中执行的doWork()方法都立即停下来
- volatile boolean shutdownRequested;
- public void shutdown() {
- shutdownRequested = true;
- }
- public void doWork() {
- while (!shutdownRequested) {
- // 代码的业务逻辑
- }
- }
使用volatile变量的第二个语义是禁止指令重排序优化
普通的变量仅会保证在该方法的执行过程 中所有依赖赋值结果的地方都能获取到正确的结果,而不能保证变量赋值操作的顺序与程序代码中的 执行顺序一致。
因为在同一个线程的方法执行过程中无法感知到这点,这就是Java内存模型中描述的 所谓“线程内表现为串行的语义”(Within-Thread As-If-Serial Semantics)。
- Map configOptions;
- char[] configText;
- // 此变量必须定义为volatile
- volatile boolean initialized = false;
- // 假设以下代码在线程A中执行
- // 模拟读取配置信息,当读取完成后
- // 将initialized设置为true,通知其他线程配置可用
- configOptions = new HashMap();
- configText = readConfigFile(fileName);
- processConfigOptions(configText, configOptions);
- initialized = true;
- // 假设以下代码在线程B中执行
- // 等待initialized为true,代表线程A已经把配置信息初始化完成
- while (!initialized) {
- sleep();
- }
- // 使用线程A中初始化好的配置信息
- doSomethingWithConfig();
如果定义 initialized变量时没有使用volatile修饰,就可能会由于指令重排序的优化,导致位于线程A中最后一条代码“initialized=true”被提前执行(这里虽然使用Java作为伪代码,但所指的重排序优化是机器级的优化操作,提前执行是指这条语句对应的汇编代码被提前执行),这样在线程B中使用配置信息的代码 就可能出现错误,而volatile关键字则可以避免此类情况的发生。
一段标准的双锁检测(Double Check Lock,DCL)单例代码
- public class Singleton {
- private volatile static Singleton instance;
- public static Singleton getInstance() {
- if (instance == null) {
- synchronized (Singleton.class) {
- if (instance == null) {
- instance = new Singleton();
- }
- }
- }
- return instance;
- }
- public static void main(String[] args) {
- Singleton.getInstance();
- }
- }
对instance变量赋值
- 0x01a3de0f: mov $0x3375cdb0,%esi ;...beb0cd75 33
- ; {oop('Singleton')}
- 0x01a3de14: mov %eax,0x150(%esi) ;...89865001 0000
- 0x01a3de1a: shr $0x9,%esi ;...c1ee09
- 0x01a3de1d: movb $0x0,0x1104800(%esi) ;...c6860048 100100
- 0x01a3de24: lock addl $0x0,(%esp) ;...f0830424 00
- ;*putstatic instance
- ; - Singleton::getInstance@24
关键变化在于有volatile修饰的变量,赋值后(前面mov%eax,0x150(%esi)这句便是赋值操作)多执行了一个“lock addl$0x0,(%esp)”操作,这个操作的作用相当于一个内存屏障 (Memory Barrier或Memory Fence,指重排序时不能把后面的指令重排序到内存屏障之前的位置)
只有一个处理器访问内存时,并不需要内存屏障;但如果有两个或更多处理器访问同一块内存,且其中有一个在观测另一 个,就需要内存屏障来保证一致性了。
这句指令中的“addl$0x0,(%esp)”(把ESP寄存器的值加0)显然是一个空操作,之所以用这个空 操作而不是空操作专用指令nop,是因为IA32手册规定lock前缀不允许配合nop指令使用。
这里的关键在于lock前缀,查询IA32手册可知,它的作用是将本处理器的缓存写入了内存,该写入动作也会引起别的处理器或者别的内核无效化(Invalidate)其缓存,这种操作相当于对缓存中的变量做了一次前面 介绍Java内存模式中所说的“store和write”操作[4]。
所以通过这样一个空操作,可让前面volatile变量的修改对其他处理器立即可见。
为何说volatile禁止指令重排序
从硬件架构上讲,指令重排序是指处理器采用了允许将多条指令不按程序规定的顺序分开发送给各个相应的电路单元进行处理。但并不是说指令任意重排,处理器必须能正确处理指令依赖情况保障程序能得出正确的执行结果。
譬如指令1把地址A中的值加10,指令2 把地址A中的值乘以2,指令3把地址B中的值减去3,这时指令1和指令2是有依赖的,它们之间的顺序不能重排——(A+10)*2与A*2+10显然不相等,但指令3可以重排到指令1、2之前或者中间,只要保证处理器执行后面依赖到A、B值的操作时能获取正确的A和B值即可。
所以在同一个处理器中,重排序过的代码看起来依然是有序的。
因此,lock addl$0x0,(%esp)指令把修改同步到内存时,意味着所有之前的操作都已经执行完成,这样便形成了“指令重排序无法越过内存屏障”的效果。
volatile能让我们的代码比使用其他的同步工具更快吗?
在某些情况下,volatile的同步机制的性能确实要优于锁 (使用synchronized关键字或java.util.concurrent包里面的锁),但是由于虚拟机对锁实行的许多消除和优化,使得我们很难确切地说volatile就会比synchronized快上多少。
如果让volatile自己与自己比较,那 可以确定一个原则:volatile变量读操作的性能消耗与普通变量几乎没有什么差别,但是写操作则可能 会慢上一些,因为它需要在本地代码中插入许多内存屏障指令来保证处理器不发生乱序执行。
不过即 便如此,大多数场景下volatile的总开销仍然要比锁来得更低。我们在volatile与锁中选择的唯一判断依据仅仅是volatile的语义能否满足使用场景的需求。
Java内存模型中对volatile变量定义的特殊规则的定义
假定T表示 一个线程,V和W分别表示两个volatile型变量,那么在进行read、load、use、assign、store和write操作 时需要满足如下规则:
Java内存模型要求lock、unlock、read、load、assign、use、store、write这八种操作都具有原子性, 但是对于64位的数据类型(long和double),在模型中特别定义了一条宽松的规定:
允许虚拟机将没有被volatile修饰的64位数据的读写操作划分为两次32位的操作来进行,即允许虚拟机实现自行选择是否要保证64位数据类型的load、store、read和write这四个操作的原子性,这就是所谓的“long和double的非原子性协定”(Non-Atomic Treatment of double and long Variables)。
如果有多个线程共享一个并未声明为volatile的long或double类型的变量,并且同时对它们进行读取 和修改操作,那么某些线程可能会读取到一个既不是原值,也不是其他线程修改值的代表了“半个变量”的数值。
在目前主流平台下商用的64位Java虚拟机中并不会出现非原子性访问行为,但是对于32位的Java虚拟机,譬如比较常用的32 位x86平台下的HotSpot虚拟机,对long类型的数据确实存在非原子性访问的风险。
从JDK 9起, HotSpot增加了一个实验性的参数-XX:+AlwaysAtomicAccesses(这是JEP 188对Java内存模型更新的 一部分内容)来约束虚拟机对所有数据类型进行原子性的访问。
针对double类型,由于现代中央处理器中一般都包含专门用于处理浮点数据的浮点运算器(Floating Point Unit,FPU),用来专门处理单、双精度的浮点数据,所以哪怕是32位虚拟机中通常也不会出现非原子性访问的问题。
在实际开发中,除非该数据有明确可知的线程竞争,否则我们在编写 代码时一般不需要因为这个原因刻意把用到的long和double变量专门声明为volatile。
由Java内存模型来直接保证的原子性变量操作包括read、load、assign、use、store和write这六个,基本数据类型的访问、读写都是具备原子性的(例外就是long和double的非原子性 协定。
如果应用场景需要一个更大范围的原子性保证(经常会遇到),Java内存模型还提供了lock和 unlock操作来满足这种需求,尽管虚拟机未把lock和unlock操作直接开放给用户使用,但是却提供了更 高层次的字节码指令monitorenter和monitorexit来隐式地使用这两个操作。这两个字节码指令反映到Java 代码中就是同步块——synchronized关键字,因此在synchronized块之间的操作也具备原子性。
可见性就是指当一个线程修改了共享变量的值时,其他线程能够立即得知这个修改。
Java内存模型是通过在变量修改后将新值同步回主内存,在变量读取前从主内存刷新变量值这种依赖主内存作为传递媒介的方式来实现可见性的,无论是普通变量还是volatile变量都是如此。普通变量与volatile变量的区别是,volatile的特殊规则保证了新值 能立即同步到主内存,以及每次使用前立即从主内存刷新。
因此我们可以说volatile保证了多线程操作 时变量的可见性,而普通变量则不能保证这一点。
Java还有两个关键字能实现可见性,它们是synchronized和final。
- // 可见性
- public static final int i;
- public final int j;
- static {
- i = 0;
- // 省略后续动作
- }
- {
- // 也可以选择在构造函数中初始化
- j = 0;
- // 省略后续动作
- }
Java程序中天然的有序性可以 总结为一句话:如果在本线程内观察,所有的操作都是有序的;如果在一个线程中观察另一个线程, 所有的操作都是无序的。
前半句是指“线程内似表现为串行的语义”(Within-Thread As-If-Serial Semantics),后半句是指“指令重排序”现象和“工作内存与主内存同步延迟”现象。
Java语言提供了volatile和synchronized两个关键字来保证线程之间操作的有序性
“天然的”先行发生关系:
时间先后顺序与先行发生原则之间基本没有因果关系, 所以我们衡量并发安全问题的时候不要受时间顺序的干扰,一切必须以先行发生原则为准。