• AI芯片的性能评价


    近年来,产业界和学术界涌现出了大量不同架构的AI芯片,那么,该如何衡量和评价这些芯片的性能呢?具体可以应用哪些指标?

    一. 性能评价指标

    我们在谈AI芯片性能的时候,首先想到的一个指标就是算力,也就是每秒操作数,通常用TOPS(Tera Operations Per Second)来表示,例如NVIDIA的Orin芯片可以达到200TOPS的算力。

    但单纯看算力,并不能了解芯片的能效,尤其是对于边缘端芯片,低功耗是一个刚需指标。因此,通常使用单位功率下的每秒操作数来衡量芯片的能效,常用单位为TOPS/W。仍然拿Orin举例,200 TOPS算力下,功耗45W的话,能效为200TOPS/45W=4.44TOPS/W。

    下图给出了各种不同AI芯片的能效,箭头表示高能效是未来的发展方向。

     

    除了每秒操作数和能效,AI芯片的性能衡量还应包含以下几个指标:

    1. 时延 

    时延通常与AI神经网络处理的数据大小(包括Batch size)有关。

    2. 功耗

    除了芯片中计算单元的功率消耗,也包括片上存储和片外存储的功率消耗。

    3. 芯片成本/面积

    裸片面积对成本有直接影响,取决于所使用的工艺节点以及片上存储的大小。该指标在边缘侧应用中非常重要。

    4. 精度

     推理精度,体现了该AI芯片的输出质量。

    5. 吞吐量

    单位时间内能够处理的数据量。对于视频应用来说,通常用分辨率和FPS(Frames Per Second,也就是帧率)来表示,大的吞吐量能够保证视频画面的连续性。提高吞吐量的方法包括:提高时钟频率、增加处理单元数量、提高处理单元的利用率等。

    6. 可扩展性

    可扩展性表示是否可以通过扩展处理单元及存储器来提高计算性能,例如据说4个Orin芯片级联可以达到1000 TOPS的性能。

    7. 灵活性和适用性

    灵活性和适用性决定了相同的设计是否可以应用在不同的领域,以及芯片是否可以运行不同的深度学习模型。

    8. 热管理

    随着单位面积中的晶体管数量不断增加,芯片工作时的问题急剧升高,需要有较好的热管理方案。常见的散热方法为风扇散热,谷歌的TPUv3则用到了最新的液体冷却技术。

    从AI芯片设计的角度来说,要达到较好的性能和能效,最好是对架构级、算法级和电路级三个层面进行跨层设计,以实现对各种指标的总体权衡。

    当然,使用领先的工艺节点(当前是5nm或3nm)对于达到以上指标非常重要,它是AI芯片保持领先的关键条件。

    二. 性能评价工具

    目前,还没有特别成熟的通用评估系统来评价AI芯片的性能,但已经有几款工具开发了出来,起到了领先作用。

    1. Accelergy

    Accelergy主要用于评估架构级的能耗,对处理单元数量、存储器容量、片上连接网络的连接数量及长度等参数进行评估。

    2. Timeloop

    Timeloop是一个DNN的映射工具和性能仿真器,根据输入的架构描述,评估出这个AI芯片的运算执行情况。

    3. MLPerf

    MLPerf是由谷歌、英伟达、英特尔、AMD、哈佛大学、斯坦福大学等产业界和学术界共同组成的一个基准测试联盟,它提供了内容广泛的基准套件,用于衡量深度学习框架、AI芯片以及云平台的性能。MLPerf在2019年11月之后的版本包含训练基准和推理基准,这些基准提供了各领域工作负载的实施参考,包括视觉、语音、自然语言处理、推荐系统等。

    MLPer每年定期发布基准测试数据,其结果被国际社会广泛认可。

    参考资料:

    1.《AI芯片:前沿技术与创新未来》

    2. MLPerf 人工智慧基準 | NVIDIA

  • 相关阅读:
    Bean实例化的基本流程
    基于DTU储油罐在线监测系统,防患于未然
    铅华洗尽,粉黛不施,人工智能AI基于ProPainter技术去除图片以及视频水印(Python3.10)
    Hive基础知识
    常見算法時間複雜度分析
    Mysql编译安装和yum安装
    基于SpingBoot+vue的乡村公益助老平台
    deepin 23 将引入新的软件包格式和存储库
    分布式配置中心Apollo
    Vue-2.4sync修饰符
  • 原文地址:https://blog.csdn.net/DeliaPu/article/details/127657702