• nvcc编译器之编译内幕(chapter 2&3)


    目录

    2. 编译阶段(步骤)

    2.1 NVCC预定义宏

    2.2 NVCC编译步骤

    2.3 NVCC支持的文件后缀

    2.4 支持的编译阶段

    3. CUDA 编译内幕


    2. 编译阶段(步骤)

    2.1 NVCC预定义宏

    • __NVCC__

    在编译C/C++/CUDA源文件时定义

    • __CUDACC__

    在编译CUDA源文件时定义

    • __CUDACC_RDC__

    在编译可重定位(relocatable)设备端代码模式时定义(详见6.2章节)

    • __CUDACC_EWP__

    在可扩展整个程序模式下编译CUDA源文件时定义(详见4.2.3章节)

    • __CUDACC_DEBUG__

    在指定编译debug版本的CUDA源文件时定义(详见4.2.3章节)

    • __CUDACC_RELAXED_CONSTEXPR__

    命令行中指定--expt-relaxed-constexpr标志位时定义,详细参阅《cuda C编程指南》

    • __CUDACC_EXTENDED_LAMBDA__

    命令行中指定--expt-extended-lambda或者--extended-lambda标志位时定义,详细参阅《cuda C编程指南》

    • __CUDACC_VER_MAJOR__

    随nvcc的major版本定义

    • __CUDACC_VER_MINOR__

    随nvcc的minor版本定义

    • __CUDACC_VER_BUILD__

    随nvcc的构建版本定义

    2.2 NVCC编译步骤

    nvcc的编译由几个不同的逻辑翻译步骤组成,这可以通过nvcc命令行选项来选择。

    一个单独的编译阶段,也可以被NVCC分解成几个不同的步骤,这些步骤合并组成一个编译过程。然而,编译取决于nvcc所使用的(nvcc更像一个编译工具的集成者)内部编译套件,这些编译套件会随着CUDA工具套件的更新而改变。因此,在不同的发行版本中,只有统一的整个编译流程是稳定不变的。nvcc提供了一系列命令行选项来展示编译所执行的不同阶段,但这仅仅用作debug使用,不要拷贝并在构建脚本中使用。因为编译的中间结果依赖于特定的nvcc编译工具套件,多版本之间可能不兼容。

    实际上,nvcc的编译除了依赖于编译选项,也依赖于输入文件的后缀。通过输入文件后缀确定编译阶段的输入,通过命令行选项确定编译阶段的输出。2.3章节会介绍NVCC支持的文件后缀,2.4章节会介绍NVCC支持的编译阶段。

    2.3 NVCC支持的文件后缀

    • .cu:cuda源文件,包含了host代码和device代码
    • .c:C源文件
    • .cc,.cxx,.cpp:C++源文件
    • .ptx:ptx中间汇编码文件
    • .cubin:cuda设备端可执行二进制码文件(单GPU架构下)
    • .fatbin:cuda fat二进制文件,可以包含多个ptx码和cubin码文件
    • .o,.obj:对象文件
    • .a,.lib:库文件
    • .res: 资源文件
    • .so:动态库文件

    2.4 支持的编译阶段

    下表介绍支持的编译阶段和相关的命令行选项,以及不同编译阶段的默认输出文件名称(当不使用--output-file选项时):

    Phase

    nvcc选项

    默认输出文件名称

    cuda编译到C/C++源文件

    --cuda

    -cuda

    x.cpp.ii,x表示源文件名。该输出文件可以通过host编译器进行后续编译,nvcc使用host编译器对.cu文件进行预处理

    C/C++预处理

    --preprocess

    -E

    标准的预处理输出

    C/C++编译到目标文件

    --compile

    -c

    x.o(Linux和Mac OS X),x.obj(Windows)

    从cuda源文件生成cubin文件

    --cubin

    -cubin

    x.cubin

    从ptx中间码生成cubin文件

    --cubin

    -cubin

    x.cubin

    从cuda源文件生成ptx中间码文件

    --ptx

    -ptx

    x.ptx

    从源文件,ptx或cubin文件生成fatbin文件

    --fatbin

    -fatbin

    x.fatbin

    链接生成设备端的可重定位代码

    --device-link

    -dlink

    a_dlink.obj(Windows)或a_dlink.o(Linux, Mac OS X)

    从设备端可重定位代码生成设备端cubin二进制

    --device-link --cubin

    -dlink -cubin

    a_dlink.cubin

    从设备端可重定位代码生成fatbin

    --device-link --fatbin

    -dlink -fatbin

    a_dlink.fatbin

    链接生成可执行文件

    无选项

    a.out(Linux, Mac OS X)或a.exe(Windows)

    目标文件打成包或库

    --lib

    -lib

    a.a(Linux, Mac OS X)或a.lib(Windows)

    生成依赖

    --generate-dependencies

    -M

    标准的输出

    生成不包含系统path路径的依赖

    --generate-nonsystem-dependencies

    -MM

    标准输出

    运行可执行文件

    --run

    -run

    直接运行编译好的可执行文件,无需指定库路径(LD_LIBRARY_PATH)

    在不指定具体命令行选项的时候,nvcc编译并链接所有输入的文件。

    3. CUDA 编译内幕

    cuda编译过程如下:

    1) 源程序进行设备端(GPU)代码编译前的预处理,预处理后编译成cuda二进制(cubin)和(或)ptx中间码,放到fatbin文件中
    2)源程序进行主机端(CPU)代码编译前的预处理,预处理后合入fatbin进去,并转换所有cuda C++扩展语法到标准的C++语法
    3)host主机侧编译器编译合并后的代码(标准C++,以及嵌入了fatbin设备端代码)成目标文件。

    当主机(端)程序启动(launch)运行设备端(__global__)代码时,cuda运行时系统会检查嵌入的fatbin代码,并获取适合当前GPU运行的fatbin(也就是说其中可以有支持各个不同架构GPU的fabin码嵌入在host程序中 ?)

    cuda程序默认是被整体编译的,即设备端代码(C++文件对外暴露的函数和变量等)无法在另外一个文件中被引用。在整体编译模式下,设备代码的链接步长是无影响的。有关整体编译和分开编译,可以参考第6章节。

    CUDA编译原理如下:

     

    关于作者:

    犇叔,浙江大学计算机科学与技术专业,研究生毕业,而立有余。先后在华为、阿里巴巴和字节跳动,从事技术研发工作,资深研发专家。主要研究领域包括虚拟化、分布式技术和存储系统(包括CPU与计算、GPU异构计算、分布式块存储、分布式数据库等领域)、高性能RDMA网络协议和数据中心应用、Linux内核等方向。

    专业方向爱好:数学、科学技术应用

    关注犇叔,期望为您带来更多科研领域的知识和产业应用。

    内容坚持原创,坚持干货有料。坚持长期创作,关注犇叔不迷路

  • 相关阅读:
    软件设计师--数据结构考点细节总结
    Python装饰器(一次搞清楚)
    机器学习(四十二):遗传算法对机器学习多分类器的寻优
    优先级队列(堆)
    首发Yolov8涨点神器:华为诺亚2023极简的神经网络模型 VanillaNet---VanillaBlock助力检测,实现暴力涨点
    [docker] -- 初识docker
    敲代码之余的表情包
    并网逆变器学习笔记3---三电平拓扑和中点电位平衡
    ES6 入门教程 29 ArrayBuffer 29.2 TypedArray 视图
    centos7 安装与卸载 Mysql 5.7.27(详细完整教程)
  • 原文地址:https://blog.csdn.net/landy_john/article/details/127898575