“零”代码改动，静态编译让太乙Stable Diffusion推理速度翻倍

“零”代码改动，静态编译让太乙Stable Diffusion推理速度翻倍

作者｜梁德澎

AI 作图领域的工具一直不尽人意，直到去年 8 月 Stable Diffusion 开源，成为AI 图像生成领域无可争辩的划时代模型。

为了提升其推理效率，OneFlow 首度将 Stable Diffusion 模型加速至“一秒出图”时代，极大提升了文生图的速度，在AIGC领域引发巨大反响，并得到了 Stability.ai 官方的支持。至今，OneFlow 还在不断刷新 SOTA 纪录。

不过，由于目前大部分团队主要是基于翻译 API + 英文 Stable Diffusion 模型进行开发，所以在使用中文独特的叙事和表达时，英文版模型就很难给出正确匹配的图片内容，这对部分国内用户来说不太方便。

为了解决这一问题，国内的IDEA 研究院认知计算与自然语言研究中心（IDEA CCNL）也开源了第一个中文版本的“太乙 Stable Diffusion”，基于0.2亿筛选过的中文图文对训练。上个月，太乙 Stable Diffusion 在 HuggingFace 上有近 15 万下载量，是下载量最大的中文 Stable Diffusion。

近期，OneFlow 团队为太乙 Stable Diffusion 适配了 OneFlow 后端，大大提升了推理性能，也可以做到一秒出图。不少开发者好奇OneFlow使用了哪些优化“秘笈”，后文将进行简要解读。

欢迎Star、运行 OneFlow 版太乙 Stable Diffusion：

https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion#without-docker

1
对比 PyTorch，OneFlow 将“太乙 Stable Diffusion”推理速度提升1倍以上

下面的图表分别展示了在 A100 (PCIe 40GB / SXM 80GB)，V100 ( SXM2 32GB )， RTX 2080，RTX 3080 Ti，RTX 3090，和 T4 不同类型的 GPU 硬件上分别使用 PyTorch, 和 On
相关阅读:
邮件标题是邮件营销的第一生产力
 通过Idea或命令将本地项目上传至git
Unity InputField宽度自适应内容
 嵌入式分享合集92
什么是黑盒测试
 【JVM】第五篇垃圾收集器G1和ZGC详解
 2023年11月上旬大模型新动向集锦
 基于Django框架的茶叶宣传系统
 shiro授权
 WebGL笔记：WebGL中JS与GLSL ES 语言通信，着色器间的数据传输示例：js控制绘制点位
原文地址：https://blog.csdn.net/OneFlow_Official/article/details/128731928

1对比 PyTorch，OneFlow 将“太乙 Stable Diffusion”推理速度提升1倍以上

1
对比 PyTorch，OneFlow 将“太乙 Stable Diffusion”推理速度提升1倍以上