• 利用多核的Rust快速Merkle tree


    1. 引言

    利用多核的Rust快速Merkle tree,开源代码见:

    其具有如下属性:

    • 可调整为任意高度
    • 构建root复杂度为O(n)
    • 提供了插入和获取叶子节点的方法
    • 获取某叶子节点的opening proof,并基于某root验证该proof
    • 抽象化的哈希函数,可任意替换为其它哈希函数。
    • 默认叶子节点为h(0)
    • 可选择使用multi processing(多重处理)

    cargo test来做测试用例测试。cargo bench来做benchmark。

    在这里插入图片描述
    在做代码优化时,通常需权衡代码效率和代码可读以及可维护性。
    https://github.com/anoushk1234/fast-merkle-tree 代码实现和优化时,试图兼顾了三者(效率、可读性、可维护性)。

    具体的算法优化有:

    • 1)由于所有的叶子节点都预填充了默认值,实际插入时,无法简单将data hash推入,直观方法是轮询找到某叶子节点然后替换为data hash。这样复杂度为 O ( n ! ) O(n!) O(n!)。本文会记录Merkle tree的当前可添加叶子节点的index,这样有助于跟踪那个index可被替换,从而将插入平均时长缩短了约800ms。
      之前方案:
      在这里插入图片描述
      现在方案:
      在这里插入图片描述
    • 2)由于已知Merkle tree的容量,可提前预分配向量,来节约在heap中没必要的分配,从而节约调用syscall的开销(因需做上下文切换)。
    • 3)将DEFAULT_LEAF等值用作常量值,节约在运行时对其进行哈希的时间。

    同时,还做了如下并行优化:

    • 1)不是顺序插入叶子节点,而是使用多个线程来哈希叶子节点,然后一次性附加到数组中,可节约约70ms到80ms的时间。
    • 2)即使对Merkle tree进行了预填充,由于向量已分配,可使用par_extend来并行预填充,但性能改进可忽略,此处倾向于简化for循环中的逻辑。

    代码可读性改进:

    • 1)当计算level length或tree height时,可使用浮点数计算,如:
      (current_level_len as f64 / 2.0).ceil() as usize
      
      • 1
      或者,采用整数运算,如:
      if current_level_len % 2 == 0 {
          current_level_len / 2
      } else {
          (current_level_len + 1) / 2
      }
      
      • 1
      • 2
      • 3
      • 4
      • 5
      浮点数运算需要的计算量多一点,这种性能差异在特定应用场景下(特别是当 h < = 10 h<=10 h<=10时)可忽略不计。不过个人倾向于采用整数运算。

    未来性能改进点:

    • 1)AVX-512 Accelarated SHA256,已有一些开源实现。
    • 2)定制Heap Allocator:使用定制allocator来分配单个dram page,然后每次需给向量分配heap时,使用该定制allocator。可节约向内核做syscall的额外开销。类似如Hoard Allocator
    • 3)向量化:不同于 使用多个变量来存储不同的值,可使用搭个matrix/vector来存储不同的值。但这将牺牲可读性。
    • 4)使用Blake4而不是SHA-256。
  • 相关阅读:
    SpringBoot中使用注解方式拦截恶意访问的IP
    关于java语言中的final关键字
    (54)性能分析命令
    优化资源利用率:kubernetes中装箱的好处与挑战
    目标检测 YOLOv5 - 模型推理预处理 letterbox
    华为机试真题 Python 实现【过滤组合字符串】【2022.11 Q4新题】
    如何在Windows环境配置独立安装的 Nginx?
    【c#】反射
    C语言 基础开发----目录
    抖音获得抖音商品详情 API
  • 原文地址:https://blog.csdn.net/mutourend/article/details/134528599