稳定扩散的潜在绘画逻辑

稳定扩散的潜在绘画逻辑

我们下面的逻辑是基于开花的树。

Ai绘画就是加噪和降噪的过程。

你可以把花瓣放在这片草坪上

就当是图中的噪点吧。

上瘾

原本干净的草坪渐渐被花瓣填满。

而这就是给画面添加噪点的过程。

而且这个过程并不难。

最难的过程是给草坪铺上花瓣。

用某种花瓣,逆向还原到最初的干净。

草坪的外观,这是画sd的过程。

所以,不管我们用sd还是mj,先生都变成了模糊的影像,然后在

慢慢变得清晰,这就是给图片去噪的算法!

所以我们得出两个问题:

1.为什么要加噪音?

2.如何降低噪音

第一:为什么要加噪音?

简单来说::就是降低画面的维度!!!!!

因为我们都知道,无论图片还是手机界面,都是由rgb像素块组成的。

如果我们有一张像素大小为512*512的图片,那么这张图片在计算机眼里就是一组数字:512*512*3=786432。

对计算机来说很简单,但对算法来说,必须有很高的计算能力。很明显,我们家的显卡是满足不了这么强的计算能力的,必须给画面加噪点。

那么让我们以这片草坪为例

首先,我们假设这个花瓣是噪音

然而,这个花瓣并没有完全覆盖草坪,我们的大脑一看到这个,就知道它是草坪。通过不断地给图片添加噪声,训练ai工具,Ai工具可以从嘈杂的图片中逐渐提取出图片的关键信息,从而知道图片内容是什么。

添加噪声的过程是渐进的。Ai理解这些信息,抓取关键信息并标记。

所以使用的数据和原图相比,计算能力非常小,具有学习同样大小的图片更多,同样数量的计算能力更少的优点。

第二:如何去除噪声?

还是这片草坪。如果这片草坪上只有一片花瓣,我们自己还是很容易摘下来的。

如果此时草坪上又多了一片花瓣,就很容易恢复原来的草坪了。

第一步:摘下刚刚落下的花瓣。

第二步:再次摘下原来的花瓣。

如果这时候,风吹来一批花瓣,这时候摘下来容易吗?显然是不允许的,但是我们先把最后一片花瓣摘下来,恢复到第三片草坪的样子。现在我们把第三片花瓣恢复到第二片草坪的样子,去掉最后一片花瓣,然后我们再把它恢复到原来的花瓣。

通过这个批量去除花瓣的过程,标准sd就是采样的步数。步数越高,理论上效果越好。如果采样步数设置为1,最终效果肯定更差,这个过程就是图像降噪的过程。

在图像降噪的过程中,ai的运算中有一个特殊的算法来预测图像的噪声,然后在每次迭代中进行降噪。这是sd的采样器,我们公司有很多采样器。这可以理解为一种清洁覆盖着花瓣的草坪的方法。有的人一个一个做,有的人用扫帚。

第三:Ai如何根据我们的指令进行绘制?

我们给ai一个指令,他是怎么画的?

首先需要满足两个条件。

1.有一个超大的降维模型库。

2.一个可以识别语义的模型(我们输入的每一个单词在计算机看来都是一串数字)。Chadgpt的最后一个T也是这个模型(Transformer),降低了文本的维度。

举个例子:

当我们给ai输入一个“草坪上的大树”,如果草坪代表10,大树代表20,那么我们就可以在模型库中找到相应的坐标并输出,这样ai就能理解我们的意思,做出相应的图片!

所以ai收到指令后会画出一个模糊的画面,不断迭代更新,让画面逐渐清晰。这就像在沙漠里画画一样。当你画一个汽车框架时,沙子会逐渐覆盖它。然后你学着画车门,学着画车架,学着画车门,沙子就渐渐盖住了。然后你学着画轮子,学着画车架,画门轮,最后画汽车。!!!!