• 私人定制AI绘画——快速finetune stable diffusion教程


    最近AI绘图非常火,只需要输入文本就能得到令人惊艳的图。

    举个例子,输入 “photo of a gorgeous young woman in the style of stefan kostic and david la chapelle, coy, shy, alluring, evocative, stunning, award winning, realistic, sharp focus, 8 k high definition, 3 5 mm film photography, photo realistic, insanely detailed, intricate, elegant, art by stanley lau and artgerm”  得到:

    输入“temple in ruines, forest, stairs, columns, cinematic, detailed, atmospheric, epic, concept art, Matte painting, background, mist, photo-realistic, concept art, volumetric light, cinematic epic + rule of thirds octane render, 8k, corona render, movie concept art, octane render, cinematic, trending on artstation, movie concept art, cinematic composition , ultra-detailed, realistic , hyper-realistic , volumetric lighting, 8k –ar 2:3 –test –uplight”  得到:

    以上效果出自最近开源的效果非常好的模型——stable diffusion。那可能会有很多人和我一样,想得到自己的定制化的模型,专门用来生成人脸、动漫或者其他。

    github上有个小哥还真就做了这件事了,他专门finetune了一个神奇宝贝版stable diffusion,以下是他模型的效果:     输入“robotic cat with wings”   得到:

    是不是很有趣,今天这篇文章就介绍一下如何快速finetune stable diffusion。

    小哥写的详细介绍可以移步:https://github.com/LambdaLabsML/examples/tree/main/stable-diffusion-finetuning

    1、准备数据

    深度学习的训练,首先就是要解决数据问题。由于stable diffusion的训练数据是 文本-图像 匹配的pairs,因此我们要按照它的要求准备数据。

    准备好你的所有图片,当然对于大部分人来说,要得到图片容易,但是手里的图片数据都是没有文本标注的,但是我们可以用BLIP算法来自动生成标注。

    BLIP项目地址:https://github.com/salesforce/BLIP

    效果见下图:

     BLIP自动给妙蛙种子生成了一段描述,当然算法的效果很难达到完美,但是足够用了。如果觉得不够好,那完全也可以自己标注。

    将得到的text,与图片名使用json格式存起来:

    1. {
    2. "0001.jpg": "This is a young woman with a broad forehead.",
    3. "0002.jpg": "The young lady has a melon seed face and her chin is relatively narrow.",
    4. "0003.jpg": "This is a melon seed face woman who has a broad chin.There is a young lady with a broad forehead."
    5. }

    2、下载代码模型

    这里我们使用小哥魔改的stable diffusion代码,更加方便finetune。

    finetune代码地址:https://github.com/justinpinkney/stable-diffusion

    按照这个代码readme里的要求装好环境。同时下载好stable diffusion预训练好的模型 sd-v1-4-full-ema.ckpt ,放到目录里。

    模型下载地址:CompVis/stable-diffusion-v-1-4-original · Hugging Face

    3、配置与运行

    stable diffusion使用yaml文件来配置训练,由于小哥给的yaml需要配置特定的数据格式,太麻烦了,我这边直接给出一个更简单方便的。只需要修改放图片的文件夹路径,以及第一步生成的配对数据的json文件路径。具体改哪儿直接看下面:

    1. model:
    2. base_learning_rate: 1.0e-04
    3. target: ldm.models.diffusion.ddpm.LatentDiffusion
    4. params:
    5. linear_start: 0.00085
    6. linear_end: 0.0120
    7. num_timesteps_cond: 1
    8. log_every_t: 200
    9. timesteps: 1000
    10. first_stage_key: "image"
    11. cond_stage_key: "txt"
    12. image_size: 64
    13. channels: 4
    14. cond_stage_trainable: false # Note: different from the one we trained before
    15. conditioning_key: crossattn
    16. scale_factor: 0.18215
    17. scheduler_config: # 10000 warmup steps
    18. target: ldm.lr_scheduler.LambdaLinearScheduler
    19. params:
    20. warm_up_steps: [ 1 ] # NOTE for resuming. use 10000 if starting from scratch
    21. cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
    22. f_start: [ 1.e-6 ]
    23. f_max: [ 1. ]
    24. f_min: [ 1. ]
    25. unet_config:
    26. target: ldm.modules.diffusionmodules.openaimodel.UNetModel
    27. params:
    28. image_size: 32 # unused
    29. in_channels: 4
    30. out_channels: 4
    31. model_channels: 320
    32. attention_resolutions: [ 4, 2, 1 ]
    33. num_res_blocks: 2
    34. channel_mult: [ 1, 2, 4, 4 ]
    35. num_heads: 8
    36. use_spatial_transformer: True
    37. transformer_depth: 1
    38. context_dim: 768
    39. use_checkpoint: True
    40. legacy: False
    41. first_stage_config:
    42. target: ldm.models.autoencoder.AutoencoderKL
    43. ckpt_path: "models/first_stage_models/kl-f8/model.ckpt"
    44. params:
    45. embed_dim: 4
    46. monitor: val/rec_loss
    47. ddconfig:
    48. double_z: true
    49. z_channels: 4
    50. resolution: 256
    51. in_channels: 3
    52. out_ch: 3
    53. ch: 128
    54. ch_mult:
    55. - 1
    56. - 2
    57. - 4
    58. - 4
    59. num_res_blocks: 2
    60. attn_resolutions: []
    61. dropout: 0.0
    62. lossconfig:
    63. target: torch.nn.Identity
    64. cond_stage_config:
    65. target: ldm.modules.encoders.modules.FrozenCLIPEmbedder
    66. data:
    67. target: main.DataModuleFromConfig
    68. params:
    69. batch_size: 1
    70. num_workers: 4
    71. num_val_workers: 0 # Avoid a weird val dataloader issue
    72. train:
    73. target: ldm.data.simple.FolderData
    74. params:
    75. root_dir: '你存图片的文件夹路径/'
    76. caption_file: '图片对应的标注文件.json'
    77. image_transforms:
    78. - target: torchvision.transforms.Resize
    79. params:
    80. size: 512
    81. interpolation: 3
    82. - target: torchvision.transforms.RandomCrop
    83. params:
    84. size: 512
    85. - target: torchvision.transforms.RandomHorizontalFlip
    86. validation:
    87. target: ldm.data.simple.TextOnly
    88. params:
    89. captions:
    90. - "测试时候用的prompt"
    91. - "A frontal selfie of handsome caucasian guy with blond hair and blue eyes, with face in the center"
    92. output_size: 512
    93. n_gpus: 2 # small hack to sure we see all our samples
    94. lightning:
    95. find_unused_parameters: False
    96. modelcheckpoint:
    97. params:
    98. every_n_train_steps: 30000
    99. save_top_k: -1
    100. monitor: null
    101. callbacks:
    102. image_logger:
    103. target: main.ImageLogger
    104. params:
    105. batch_frequency: 30000
    106. max_images: 1
    107. increase_log_steps: False
    108. log_first_step: True
    109. log_all_val: True
    110. log_images_kwargs:
    111. use_ema_scope: True
    112. inpaint: False
    113. plot_progressive_rows: False
    114. plot_diffusion_rows: False
    115. N: 4
    116. unconditional_guidance_scale: 3.0
    117. unconditional_guidance_label: [""]
    118. trainer:
    119. benchmark: True
    120. num_sanity_val_steps: 0
    121. accumulate_grad_batches: 1

    最后一步,运行命令:

     python main.py --base yaml文件路径.yaml --gpus 0,1 --scale_lr False --num_nodes 1 --check_val_every_n_epoch 2 --finetune_from 上面下载的模型路径.ckpt

    大功告成,等待模型训练就行了。需要注意的是,我这边启用了两个GPU,并且stable diffusion是比较吃显存的,我在V100上进行训练batchsize也只能设为1。

  • 相关阅读:
    这8大优势你都不知道,你敢说你精通单元测试?
    Docker跨主机访问容器
    【慢SQL性能优化】 一条SQL的生命周期 | 京东物流技术团队
    杰理之样机无触摸,拆机之后重新安装变正常【篇】
    Nginx R31 doc-17-debugging 调试
    软件测试----基础篇(1)
    BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准
    Apache DolphinScheduler-3.2.0集群部署教程
    PPT基础:编辑顶点
    Vue2实现图片预览功能 -- v-viewer:图片查看器
  • 原文地址:https://blog.csdn.net/wenqiwenqi123/article/details/128205792