• ​No.1    提示词
  • 提示词是AI绘画过程中非常重要的元素。提示词分为正向提示词和反向提示词。
  • 正向提示词是我们希望作品中出现的元素。
  • 反向提示词是我们不希望出现在作品中的元素。
  • 注意:提示词只能输入英文,包括符号都要使用英文半角,词语之间需要用半角逗号隔开。
  • 合理使用提示词可以让AI绘制出无限接近我们预期的作品。
  • 有专门的文章讲解了提示词的获取方式,这里不做过多赘述。
  • No.2    迭代步数(Steps)
  • Stable Diffusion的绘画过程是在一种充满噪点的画布上,通过逐步去噪达到最终效果,通常来说,步数越高,画面的精细度就会越高,一般默认的步数是20。
  • 迭代步数往往也需要根据提示词来调整,如果提示词中有特别精细的细节,往往步数也需要相对应的提高,确保可以出现这个细节。
  • 特殊情况:在No.3中会提到采样方法,不同的采样方法,对应的步数也会有不同,过大的步数可能会浪费时间和GPU的算力,但并不会提高画面质量。通常我们会从小的步数开始测试。
  • No.3    采样方法(Sampler)
  • 采样方法其实是图像生成的算法。它会对每步生成的图像和提示词进行对比,然后对噪点进行更改,逐步达到与提示词匹配的图像。不同的采样方法,代表了不同的比较方式和更改方式,目前最常用的采样法法是Euler a,DDIM以及DPM++。由于采样器的原理和底层逻辑过于专业,对于我们掌握并使用Stable Diffusion而言没有太大的帮助,后续会专门出文章进行对比。
  • No.4 生成批次和数量
  • 简而言之就是当我们点击生成按钮之后,一共要生成几批图片,每一批生成几张图。
  • 这里需要注意一点,每批生成的数量是显卡一次生成的数量,如果设置太高,就会因为显存不足导致生成失败。但是生成批次不会导致显存不足。
  • No.5 分辨率(画面的宽和高)
  • 分辨率直接决定了图片的内容构成和细节的质量,通常来说,分辨率越大,可以包含的内容就会越多,质量越高。
  • 但这并不意味着训练的时候直接就用大图就合适。ai在绘制时,分辨率越大,它就会越往里面塞东西,当分辨率过大,可能会出现ai尝试塞入多张图的情况,导致出现画面拼接,视角扭曲等情况,所以通常训练的分辨率都是512*512,画好小图之后,再放大为大图。
  • 绘制内容和分辨率参考:
  • 1.512*512,约30W像素。绘制内容参考:头像和半身图。
  • 2.768*768,约60W像素。绘制内容参考:单人全身为主,站立或躺坐都有。
  • 3.1024*1024,约100w像素。绘制内容参考:单人和两三人全身,站立为主。
  • 4.更高像素。绘制内容参考:群像,或者直接画面崩坏。
  • 注意事项:上面提到的宽高比例都是1:1。
  • 但宽高比例会直接决定画面内容,同样是1girl提示词的例子:
  • 512*512,会倾向于出脸和半身像;
  • 512*768,会倾向于出站着和坐着的全身像;
  • 768*512,会倾向于出斜构图的半躺像。所以要根据想要的内容来调整输出比例。
  • No.6 提示词相关性
  • 这个参数可以看做是AI的创造力,数字越低AI自由发挥的空间越高,数字越高绘制的图像越贴近提示词。默认是7,会在创造力和提示词之间进行均衡。
  • 不建议低于5或者大于15。
  • No.7 随机种子
  • 前面提到AI绘图是根据噪点来一步步生成的,但噪点在一开始就是随机的。这也是为什么我们每次点击生成都会出现不一样图片。如果我们使用相同的提示词,相同的随机种子,就会得到相同的图。
  • 所以通过控制随机种子和提示词,我们就可以改变一幅画作的局部效果。
  • No.8 重绘幅度
  • 图生图的工作方式和文生图类似,区别在于我们提供了图像的噪点,而不是随机噪点。
  • 重绘幅度就决定了是否让让图片充满随机噪点。1代表将图片全部替换成随机的噪点,0代表不添加噪点。
  • 如果我们要绘制图像的变体,建议保留图片的提示词,并将重绘幅度的数值调整为0.5-0.