2022 年 9 月之前在公众可用的最强大的 GPU 上运行 Stable Diffusion。具有 80 Gb HBM2 内存的 Nvidia Tesla A100是基于安培架构和 TSM 7nm 制造工艺的 GPU 庞然大物。是的,这与支持 RTX 3000 系列的安培架构相同,只是 A100 是数据中心级 GPU,或者 Nvidia 自己称之为:企业级 Tensor Core GPU。
A100支持两种用于深度学习的浮点算术格式:tf32(tensor float32)和bf16(bfloat16)。tf32的动态范围相当于fp32(单精度浮点),精度相当于fp16(半精度浮点)。使用int8进行推理时,处理性能通过tf32训练可达到最大312 TFLOPS,推理可达到最大1248 TOPS。
生成 2048x2048 时,该nvidia-smi命令可以更深入地了解 A100 内部发生的情况。
即使被要求一次生成 20 张 2048x2048 图像,A100 也没有放弃……