码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • [TI] [Textual Inversion] An image is worth an word


    自己的理解:

    根据几个图像,找出来一个关键字可以代表它们,然后我们可以再用这个关键字去生成新的东西。

    提出关键字

    1 Introduction

    word->token->embedding

    Textual Inversion过程

    需要:

    ① a fixed, pre-trained text-to-image model (一个固定的预训练模型)

    ② a small image set depicting the concept(一个描述概念的小图像集)

    目标:

    find a single word embedding, such that "A photo of S*" will lead to the reconstructions of images from our small set

    3 Method

    LDM

    包含两个核心组件:

    1.AutoEncoder

    Encoder,把

    Decoder

    2.Diffusion Model

    LDM Loss

     

     

    Text embedding

    典型的文本编码器(例如 BERT)都从文本处理步骤开始

    ① word (in a input string) convert to a token ( an index in some pre-defined dictionary某个预定义词典中的索引)

    构建一个词汇表,包含数据集中出现的所有唯一token,通常是一个字典,将每个token映射到唯一的整数ID。

    ②each token then linked to a embedding vector (可以通过基于索引的查找来检索。)

    对于每个token,使用词汇表的ID可以查找其对应的 embedding vector。

    ③learned as part of the text encoder c_{\theta}

    in our work

    定义一个 placeholder string S_*,表示我们想要学习的 new concept

    干涉 embedding process,用 embedding v_* 取代 与标记符相关的向量(本质上是把这个词注入到我们的词典中)

    小结:

    一串字符串文本,它的每个词可以通过 分词器 变为若干个 token,每个token可以映射到一个词向量,我们通过干预它映射词向量的过程,学得一个可以代表新特征的伪词。

    Text Inversion

    用 3-5张图片 depict 目标概念。

    通过直接优化的方式,最小化 LDM loss,就可以找到 v_*

    优化目标:

    保持 \epsilon_{\theta} ,c_{\theta} 不变,重新训练LDM,来找到 V_*

    小结:

    通过几张图片输入到网络中,依据LDM loss,固定某些参数不变,来找到最合适的 V_*

    参考资料:

    Textual Inversion · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub

  • 相关阅读:
    JVM类加载机制、双亲委派和SPI机制
    Redis基础详解
    MCU软核 2. Xilinx Artix7上运行tinyriscv
    为什么我不推荐去SAP培训机构参加培训?
    【C语言从0到1之数据类型】
    jenkins下后台运行链接Jenkins服务脚本方法
    自然语音处理(NLP)系列(三)——什么是序列标注?
    vue3 - 使用 xlsx 库将数据导出到 Excel 文件
    【服务器 | 测试】如何在centos 7上面安装jmeter
    系列一、堆里面的分区:Eden、From、To、老年代各自的特点
  • 原文地址:https://blog.csdn.net/gsj9086/article/details/132995746
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号