码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 手把手建立Roofline模型(CPU)


    Roofline模型原理

    Roofline模型是由加州理工大学伯利克提出的用来建立当前计算平台在不同的计算强度(Operational Intensity)下能够达到的理论计算上限 。论文和基础理论和应用 Roofline Model与深度学习模型的性能分析 。本文旨在教授如何根据当前开发环境机器建立该模型,并简单的介绍如何根据算法计算OI(计算强度)。

    需要准备的硬件参数

    对于CPU而言,我们需要一下参数:

    频率 内存带宽(double) Avx512 Unit Fma
    Intel® Xeon® Gold 6148 2.7GHz 39.74GB/s 2 2

    其中Avx512、Fma并非是必备参数。

    查询CPU相关指标方法或网站:

    • <https://ark.intel.com/content/www/us/en/ark/products/120489/intel-xeon-gold-6148-processor-27-5m-cache-2-40-ghz.html>
    • <https://en.wikichip.org/wiki/intel/xeon_gold/6148>
    • 在LINUX 下可以使用lscpu 查询.

    计算相关参数:
    当前CPU的理论峰值:

    理论性能峰值=频率∗512∗AVX数量∗FMA32/64

    AVX和FMA并不是必要参数,32/64取决于当前处理问题是单精度(32)或者双精度(64)

    由上述公式,我们可以计算出Xeon Gold 6148的计算双精度理论性能峰值为2.7GHz*2(avx)*2(FMA)/64=86.4Gfplos。

    计算当前内存带宽:

    通常情况下我们可以通过 wikichip 搜索到,当然也可以通过 StreamBenchmark 程序获取。

    建立Roofline模型

    image

    Roofline模型中的相关参数公式如下,并计算Xeon Gold 6148 的参数:

    • π=理论性能峰值 ,根据上文内容,我们已经计算出当前CPU的理论性能峰值就是86.4Gflops。
    • β=理论内存带宽 ,上一章节有关于理论内存带宽获取方式,当前CPU的值为39.74Gflops。
    • Imax=πβ ,显然易得当前值为2.17。

    根据当前算法计算OI

    访存密集型算法

    void saxpy(double *a,double * b,double* c,int n,int s)
    {
        for(int i=0;i<n;++i){
            a[i]=b[i]*s+c[i];
        }
    }
    

    分析程序的AI

    该程序循环内做了一次乘法和一次加法,读取了三个数据,已知操作的数据都为64位浮点数,那么 OI=2∗N8∗3∗N=112。根据公式 FLOPS=OI×BW(boundwitdh) 可得当前的算法的理论峰值为~3.3Gflops。实际测试结果为2.4Gflops,存在可能优化的空间。

    运算密集型算法

    最简单的运算密集型程序为矩阵乘法 。这里就不具体算法实现展示。直接分析程序的OI,假设矩阵的的大小为 M ,矩阵乘需要加载两次矩阵,并写入一次矩阵,那么总的数据加载读取量为 3×M×M ,矩阵乘的每个元素需要需要进行 M 次乘操作和 M−1 次加操作,因此,计算总量为 2∗(M−1)×M2 ,当不考虑数据是64位浮点时,可得 OI=2∗(M−1)3∗8 。当矩阵大小大于40时,对于当前CPU输入计算密集型程序,可达到的理论峰值为86.4Gflops。

    优化方式

    论文 给出了一些可以优化的方式:

    • 针对访存密集型程序,可以通过soft perfetch等技术优化。
    • 针对计算密集型程序,可以通过SIMD等技术优化。

    image

  • 相关阅读:
    华为OD机试 - ABR 车路协同场景 - (Java 2023 B卷 100分)
    《深入浅出.NET框架设计与实现》笔记6.3——ASP.NET Core应用程序多种运行模式之三——桌面应用程序
    焱融科技为国家重点实验室打造海量高性能存储
    String的trim()和substring()详解
    【VScode】保存文件自动按照eslint规范格式化
    flink原理源码分析(一) 集群与资源@k8s
    爆肝整理,最全单元测试-测试用例总结(全覆盖)及拿即用...
    eshop(商城管理系统)MySQL源码
    很详细的系列Shell基础— Shell简介
    [漏洞分析] CVE-2022-2588 route4 double free内核提权
  • 原文地址:https://www.cnblogs.com/pcdack/p/16025697.html
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号