• 求求你们了,别再乱用 parallelStream 了,速度竟然比 Stream 还要慢!!


    parallelStream 一定更快吗?

    大家都知道 Stream 分为顺序流和并行流:

    • stream(顺序流)

    • parallelStream(并行流)

    它们最大的区别就是 parallelStream 支持并行化处理,所以效率较 stream(顺序流)肯定是要更快的。这篇不会介绍 Stream 基础,Stream 系列我之前写过一个专题了,不懂的关注公众号Java技术栈,然后在公众号 Java 教程菜单中阅读。

    然而你确定 parallelStream 一定要更快吗?

    栈长写了一段排序的示例,分别用 stream 和 parallelStream,对 100 ~ 10000000 条数据的集合进行排序,来看下执行效率究竟如何!

    顺序流排序:

    1. /**
    2.  * 顺序流排序
    3.  * @author: 栈长
    4.  * @from: 公众号Java技术栈
    5.  */
    6. private static void streamSort() {
    7.     long start = System.currentTimeMillis();
    8.     List<SortTest.User> list = new ArrayList<>(LIST);
    9.     list.stream().sorted(SortTest.User::compareAge).collect(Collectors.toList());
    10.     System.out.println("\nList size: " + list.size() + " Stream.sorted: " + (System.currentTimeMillis() - start));
    11. }

    并行流排序:

    1. /**
    2.  * 并行流排序
    3.  * @author: 栈长
    4.  * @from: 公众号Java技术栈
    5.  */
    6. private static void parallelStreamSort() {
    7.     long start = System.currentTimeMillis();
    8.     List<SortTest.User> list = new ArrayList<>(LIST);
    9.     list.parallelStream().sorted(SortTest.User::compareAge).collect(Collectors.toList());
    10.     System.out.println("List size: " + list.size() + " ParallelStream.sorted: " + (System.currentTimeMillis() - start));
    11. }

    本文所有完整示例源代码已经上传:

    https://github.com/javastacks/javastack

    执行结果如下:

    List size: 10000000 Stream.sorted: 202 List size: 10000000 ParallelStream.sorted: 402

    List size: 1000000 Stream.sorted: 53 List size: 1000000 ParallelStream.sorted: 15

    List size: 100000 Stream.sorted: 1 List size: 100000 ParallelStream.sorted: 2

    List size: 10000 Stream.sorted: 0 List size: 10000 ParallelStream.sorted: 1

    List size: 1000 Stream.sorted: 0 List size: 1000 ParallelStream.sorted: 1

    List size: 100 Stream.sorted: 0 List size: 100 ParallelStream.sorted: 0

    在 100000 以下是没什么区别的;

    在 1000000 左右 ParallelStream 虽然领先 Stream,但也不是绝对每次都领先,经过不断测试,这个数据量区间的测试两者会互相领先;

    在 10000000 左右就很稳定了,ParallelStream 几乎比 Stream 慢了 2 倍!

    现在你可能会有疑问了,为什么会这样?

    栈长起初也有疑问,并行流(ParallelStream)怎么会比顺序流(Stream)还要慢。。

    其实我后面想想也就明白了,并行流(ParallelStream)的背后其实是 Java7 开始支持的Fork/Join,即把一个大任务拆分成 N 个小任务,然后最终合并各个子任务的结果,所以对于子任务线程的拆分、创建、结果合并等操作都需要不少的开销,特别是线程的创建。

    所以这种不耗时的简单排序操作事实上是不适用于并行流(ParallelStream)的,它所带来的线程创建的损耗可能还会比顺序流(Stream)还要更慢。

    最新 Java 8+ 面试题也都整理好了,点击Java面试库小程序在线刷题。

    什么时候用 ParallelStream?

    既然使用 Fork/Join 是会有损耗的,那对于单条数据的处理的时间最好是理论上要超过用并行流(ParallelStream)本身的损耗,这种情况下就比较合适。

    也就是说,如果对于流中的每条数据的处理比较费时间,并且没有顺序要求,这种场景下用并行流(ParallelStream)会更快,更合适。

    来看下面这个示例:

    顺序流数据处理:

    1. /**
    2.  * 顺序流数据处理
    3.  * @author: 栈长
    4.  * @from: 公众号Java技术栈
    5.  */
    6. private static void streamProcess() {
    7.     long start = System.currentTimeMillis();
    8.     List<SortTest.User> list = new ArrayList<>(LIST);
    9.     list.stream().map(StreamSpeedTest::process).collect(Collectors.toList());
    10.     System.out.println("\nList size: " + list.size() + " Stream process: " + (System.currentTimeMillis() - start));
    11. }

    并行流数据处理:

    1. /**
    2.  * 并行流数据处理
    3.  * @author: 栈长
    4.  * @from: 公众号Java技术栈
    5.  */
    6. private static void parallelStreamProcess() {
    7.     long start = System.currentTimeMillis();
    8.     List<SortTest.User> list = new ArrayList<>(LIST);
    9.     list.parallelStream().map(StreamSpeedTest::process).collect(Collectors.toList());
    10.     System.out.println("List size: " + list.size() + " ParallelStream process: " + (System.currentTimeMillis() - start));
    11. }

    数据处理:

    1. /**
    2.  * 数据处理
    3.  * @author: 栈长
    4.  * @from: 公众号Java技术栈
    5.  */
    6. private static SortTest.User process(SortTest.User user) {
    7.     try {
    8.         user.setName(user.getName() + ": process");
    9.         Thread.sleep(5);
    10.     } catch (InterruptedException e) {
    11.         e.printStackTrace();
    12.     }
    13.     return user;
    14. }

    注意: 这里加了个休眠 5 毫秒,为了体现真实的处理数据耗时。

    本文所有完整示例源代码已经上传:

    https://github.com/javastacks/javastack

    并行流排序:

    List size: 1000 Stream process: 5750 List size: 1000 ParallelStream process: 745

    List size: 100 Stream process: 566 List size: 100 ParallelStream process: 77

    结果很明显了,不管测试多少次,并行流(ParallelStream)的处理速度都要比顺序流(Stream)要快几倍!!我这里只测试了 100 和 1000 条数据,因为 10000 条以上的数据用顺序流(Stream)可能要等非常久。

    而且我程序中的处理逻辑只休眠了 5 毫秒,如果实际处理单条数据的耗时要比这个更长,那并行流(ParallelStream)的处理效率还会更明显。

    总结

    稍微总结下:

    • stream: 适用于避免线程安全问题、要求顺序执行、数据处理简单不耗时的任务;

    • parallelStream: 适用于不存在线程安全问题、不需要顺序性执行、数据处理比较耗时的任务;

    所以,你学废了吗?赶紧发给身边的同事看看吧,别再乱用 parallelStream 了!用的不好,存在线程安全问题不说,效率上可能还会适得其反。

    大家如果对 Java 8 新增的知识点(Lambda、Stream、函数式接口等)还不会用的可以关注公众号:Java技术栈,在 Java 教程菜单中阅读,Java 8+ 系列教程我都写了一堆了。

    本文所有完整示例源代码已经上传:

    https://github.com/javastacks/javastack

  • 相关阅读:
    任务四 机器学习库Scikit-learn
    java面试题-jvm面试题
    1、7focus伪类选择器
    【教程】超详细通过Shizuku转生支付宝集成XQ_Crystal来自动收能量
    【计算机网络】运输层习题(谢希仁)(1)
    企业诊断屋:二手车交易平台 APP 如何用 AB 测试赋能业务
    AimBetter洞察您的数据库,DPM 和 APM 解决方案
    解决linux5.15编译时不生成boot.img 的问题
    PMAL: Open Set Recognition via Robust Prototype Mining
    数据结构-插入排序Java实现
  • 原文地址:https://blog.csdn.net/m0_73311735/article/details/126661732