• 公司会倒闭,但大模型肯定不会


    咋玩抖音的我,前几天在抖音上发了一张图片,没想到竟然有1000多的播放量。

    当然这个播放量不算高,甚至在抖音的体系里属于很低的,但是比我预料的可能只有个位数的播放量是高了不少。

    图片

    这张图片是我用某国产 AI 软件生成的,本意是想表达“将士军前半死生,美人帐前犹歌舞”的意境。

    AI 画出来之后,我感觉配色和意境还不错,就发到了抖音上。

    这里想说的是,大概几个月前,我曾经尝试过该国产模型绘画的能力,当时的感觉只能说是乏味可陈。

    可如今,经过了这几个月的迭代,模型输出图片的能力却让我眼前一亮。

    比如下面这张,我随意输入了帮我画“一个小孩在河边玩耍,需要水墨画风格”。

    图片

    意境和配色感觉都还不错。

    再比如下面这张,输入:“古风美女,面若桃花、柳叶弯眉”。

    图片

    结果也还不错,至少意境是达到了。

    一连串试了好几个,AI 的表现基本可以给70分以上了,而且生成速度很快。

    虽然画质和细节处理可能还比不上国外跟牛的大模型比如 MJ, 但是从国内大模型迭代的速度来看,我还是很看好的。

    为什么大模型可以把一句话转换为图片呢?

    我找到了一张图片可以解释这个问题。

    图片

    这是 openai CLIP 模型的训练过程:左上是文本的输入,左下是图片的输入,

    通过将文本输入和对应的图片输入相对比(在右侧的矩阵中找到文本和图像的相似性),从而找到文本编码后的矩阵和图片编码后的矩阵的映射关系。

    从而在文本生成图片时,图片部分通过解码器,便找到了文本和图片特征空间的对应,也就完成了文本到图片的生成,当然这只是粗略的解释,细节还可以继续深究。

    总的来说就是需要找到文本和图像在模型中的一套统一的特征表示,或者特征的映射关系。

    也就是说,文本和图片,在模型中有个第三者,两种之间的转换通过这个第三者来完成。

    之前听到过一些说法,说大模型创业公司很多都会死去,最终可能只会剩下一两个大模型。

    尤其是光年之外濒临破产被美团收购之后,这样的说法更多。

    公司倒闭死去很正常,试问有哪一年哪个行业不会有一批创业公司死去呢?

    但是体验了一下 AI 绘画之后,更加坚信了一点:公司会死,但大模型不会。

    希望国产大模型继续加油~

  • 相关阅读:
    mapper.xml中的sql标签
    工业互联网企业身份与访问控制课题研究与探索
    AE custom flow
    量子力学的应用:量子通信和量子感应
    Visual Studio 调试上传文件时自动停止运行的解决方法
    极简运行Vue打包文件:让你的网页快速启动,高效展现!
    【leetcode】【剑指offer Ⅱ】023. 两个链表的第一个重合节点
    效率至少提高2倍!最实用的Linux命令合集
    【多线程】多线程实际操作测试题
    『亚马逊云科技产品测评』活动征文|搭建带有“弱”图像处理功能的流媒体服务器
  • 原文地址:https://blog.csdn.net/dongtuoc/article/details/134487905