稳定扩散的潜在绘画逻辑
我们下面的逻辑是基于开花的树。
Ai绘画就是加噪和降噪的过程。
你可以把花瓣放在这片草坪上
就当是图中的噪点吧。
上瘾
原本干净的草坪渐渐被花瓣填满。
而这就是给画面添加噪点的过程。
而且这个过程并不难。
最难的过程是给草坪铺上花瓣。
用某种花瓣,逆向还原到最初的干净。
草坪的外观,这是画sd的过程。
所以,不管我们用sd还是mj,先生都变成了模糊的影像,然后在
慢慢变得清晰,这就是给图片去噪的算法!
所以我们得出两个问题:
1.为什么要加噪音?
2.如何降低噪音
第一:为什么要加噪音?
简单来说::就是降低画面的维度!!!!!
因为我们都知道,无论图片还是手机界面,都是由rgb像素块组成的。
如果我们有一张像素大小为512*512的图片,那么这张图片在计算机眼里就是一组数字:512*512*3=786432。
对计算机来说很简单,但对算法来说,必须有很高的计算能力。很明显,我们家的显卡是满足不了这么强的计算能力的,必须给画面加噪点。
那么让我们以这片草坪为例
首先,我们假设这个花瓣是噪音
然而,这个花瓣并没有完全覆盖草坪,我们的大脑一看到这个,就知道它是草坪。通过不断地给图片添加噪声,训练ai工具,Ai工具可以从嘈杂的图片中逐渐提取出图片的关键信息,从而知道图片内容是什么。
添加噪声的过程是渐进的。Ai理解这些信息,抓取关键信息并标记。
所以使用的数据和原图相比,计算能力非常小,具有学习同样大小的图片更多,同样数量的计算能力更少的优点。
第二:如何去除噪声?
还是这片草坪。如果这片草坪上只有一片花瓣,我们自己还是很容易摘下来的。
如果此时草坪上又多了一片花瓣,就很容易恢复原来的草坪了。
第一步:摘下刚刚落下的花瓣。
第二步:再次摘下原来的花瓣。
如果这时候,风吹来一批花瓣,这时候摘下来容易吗?显然是不允许的,但是我们先把最后一片花瓣摘下来,恢复到第三片草坪的样子。现在我们把第三片花瓣恢复到第二片草坪的样子,去掉最后一片花瓣,然后我们再把它恢复到原来的花瓣。
通过这个批量去除花瓣的过程,标准sd就是采样的步数。步数越高,理论上效果越好。如果采样步数设置为1,最终效果肯定更差,这个过程就是图像降噪的过程。
在图像降噪的过程中,ai的运算中有一个特殊的算法来预测图像的噪声,然后在每次迭代中进行降噪。这是sd的采样器,我们公司有很多采样器。这可以理解为一种清洁覆盖着花瓣的草坪的方法。有的人一个一个做,有的人用扫帚。
第三:Ai如何根据我们的指令进行绘制?
我们给ai一个指令,他是怎么画的?
首先需要满足两个条件。
1.有一个超大的降维模型库。
2.一个可以识别语义的模型(我们输入的每一个单词在计算机看来都是一串数字)。Chadgpt的最后一个T也是这个模型(Transformer),降低了文本的维度。
举个例子:
当我们给ai输入一个“草坪上的大树”,如果草坪代表10,大树代表20,那么我们就可以在模型库中找到相应的坐标并输出,这样ai就能理解我们的意思,做出相应的图片!
所以ai收到指令后会画出一个模糊的画面,不断迭代更新,让画面逐渐清晰。这就像在沙漠里画画一样。当你画一个汽车框架时,沙子会逐渐覆盖它。然后你学着画车门,学着画车架,学着画车门,沙子就渐渐盖住了。然后你学着画轮子,学着画车架,画门轮,最后画汽车。!!!!