• GPU--学习笔记


    1. GPU性能参数
      1. 计算能力(吞吐量)
        1. 通常关心的是32位浮点计算能力。16位浮点训练也开始流行,如果只做预测的话也可以用8位整数。
        2. 单位为GFLOP/s,算力指标,表示每秒的浮点操作数量
        3. 每秒浮点运算量,是衡量GPU硬件计算能力的指标。
      2. 显存大小
        1. 当模型越大,或者训练时的批量越大时,所需要的GPU内存就越多。
        2. 其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据**。显存容量大小决定了GPU能够加载的数据量大小**。(在显存已经可以满足客户业务的情况下,提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景,显存的大小决定了一次能够加载训练数据的量,在大规模训练时,显存会显得比较重要。
      3. 显存位宽
        1. 位数越大则瞬间所能传输的数据量越大    
        2. 显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大。这是显存的重要参数之一。
        3. 目前市场上的显存位宽有64位、128位、256位和512位几种,人们习惯上叫的64位显卡、128位显卡和256位显卡就是指其相应的显存位宽。显存位宽越高,性能越好价格也就越高,因此512位宽的显存更多应用于高端显卡,而主流显卡基本都采用128和256位显存。
      4. 显存带宽
        1. 只有当内存带宽足够时才能充分发挥计算能力。
        2. CUDA GPU的计算速度可以达到gigaflops(每秒10亿次浮点操作),是Core i7/Nethalem速度的十倍。为充分利用强大的计算能力,需要从存储器中(全局显存或计算机内存)尽量快地给他们提供数据。所以内存带宽就是衡量GPU的一个重要指标。
      5. 制作工艺:指的是晶体管与晶体管之间的距离,单位是纳米。制作工艺越小说明集成度越高,功耗越小,性能越好。目前NVIDIA最先进的Tesla采用7nm制程,GTX 1080 Ti采用16nm制程。
    2. 对于大部分用户来说,只要考虑计算能力就可以了。GPU内存尽量不小于4GB。但如果GPU要同时显示图形界面,那么推荐的内存大小至少为6GB。内存带宽通常相对固定,选择空间较小。
    3. GPU基本概念
      1. CUDA
        1. 是显卡厂商NVIDIA推出的运算平台。
        2. CUDA核心数量决定了GPU并行处理的能力,在深度学习、机器学习等并行计算类业务下,CUDA核心多意味着性能好一些。
        3. CUDA核心:每个GPU时钟进行一次单值乘法;
      2. CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。
      3. Tensor Core
        1. CUDA是NVIDIA推出的统一计算架构,NVIDIA过去的几乎每款GPU都有CUDA Core,而Tensor Core是最近几年才有的,Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值,而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。
        2. 张量核心:每个GPU时钟进行一次矩阵乘法
      4. FLOPS:即每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数(英文:Floating-point operations per second;缩写:FLOPS)的简称,被用来评估电脑效能,尤其是在使用到大量浮点运算的科学计算领域中。
    4. 英伟达GPU类别
      1. gpu架构:Tesla、Fermi、Kepler、Maxwell、Pascal
      2. 显卡系列:GeForce-家庭娱乐、Quadro-工作站、Tesla-服务器
      3. GeForce显卡型号:G/GS、GT、GTS、GTX、RTX
      4. 显卡系列在本质上并没有什么区别,只是NVIDIA希望区分成三种选择,GeFore用于家庭娱乐,Quadro用于工作站,而Tesla系列用 于服务器。Tesla的k型号卡为了高性能科学计算而设计。
      5. GeForce的显卡型号是不同的硬件定制,越往后性能越好,时钟频率越高显存越大,即G/GS
      6. GTX 到RTX:RTX20显卡采用的“图灵”架构引入了RT计算单元,使其光线追踪性能超越上一代显卡的六倍,拥有了即时处理游戏光追的条件,NVIDIA认为这是一个划时代的进化,于是果断把沿用多年的“GTX”改名为“RTX”。
  • 相关阅读:
    HTML超文本链接语言简介
    电磁兼容01 EMC概论
    计算机网络常见端口号
    Typescript的高级tricks(in,keyof,Partial,Pick,Exclude等)
    辅助驾驶功能开发-功能规范篇(24)-3-影子模式功能触发规范
    jQuery 树型菜单完整代码
    [PAT练级笔记] 70 Basic Level 1070 结绳
    单目标追踪——【孪生网络】SiamMask论文阅读笔记
    git 的使用以及如何解决git冲突问题
    ArrayBlockingQueue源码分析
  • 原文地址:https://blog.csdn.net/weixin_45647721/article/details/127734470