蒙版模式
- 重绘蒙版内容:用于修改“涂黑”的区域。
- 重绘非蒙版内容:用于修改除“涂黑”以外的区域。
重绘区域
重绘区域分为以下两种:
- 全图:用于整个图像的重绘。优点就是内容与原图融合的更好,缺点是不够细节
- 仅蒙版:仅渲染蒙版区域的细节。优点就是细节更好,缺点也是细节太多,与原图融合的不够好
在大型图像中,特别是当人物的脸部分辨率较低时,我们可以使用“仅蒙版”模式进行高清修复,从而实现高质量的修复效果。一般情况下,如果您希望保持原始图像的局部分辨率或需要调整特定区域,可以使用“全图”模式。而对于局部修复,特别是在高分辨率要求下,使用“仅蒙版”模式是一个高效的方法。
蒙版蒙住的内容
填充:AI自由发挥,与原图的蒙版内的元素没有任何关系,主打的就是按照提示词天马行空
原图:AI受限于蒙版内的元素,会根据提示词和蒙版内的元素共同合作创作
潜变量噪声:AI自由发挥,不受限于原图元素,但是细节会更加丰富
潜变量数值零:AI自由发挥,但是会比填充丰富一点
和原图的相似度从大到小进行排序:原图->填充->潜变量数值零->潜变量噪声
采样器的区别
采样器(Sampler):在Stable Diffusion的上下文中,采样器是指用于从噪声图像生成清晰图像的算法。这个过程被称为采样,因为它在每一步中生成一张新的图像样本。采样器通过在一系列步骤中逐渐减少噪声来生成图像,每一步都会根据预定的噪声计划(Noise Schedule)来减少噪声,并生成新的图像样本。不同的采样器有不同的算法和特性,影响着图像生成的速度和质量。
调度器(Scheduler):调度器通常与采样器的概念紧密相关,它负责控制采样过程中每一步的噪声水平,也就是所谓的噪声计划(Noise Schedule)。调度器决定了在生成图像的每一步中减少多少噪声,从而影响采样过程的速度和最终图像的清晰度。在某些文献中,调度器和采样器这两个术语有时被交替使用,因为它们都涉及到控制生成过程中的噪声减少。
Euler:欧拉方法最简答直接的采样器,非常受欢迎
Heun:改进欧拉方法,提高了精度但耗时比欧拉方法多一倍
LMS:线性多步法,速度与质量与欧拉方法相差不多
以下三个是常微分方程(ODE)的老式求解器,已经存在一百多年了,推荐设置步数在20-30之间
DDIM:去噪扩散隐式模型,是最早为Stable Diffusion设计的采样器之一,
PLMS:伪线性多步法,是LMS更新更快的替代方案,已落后,不再广泛使用。
DPM:2022年新发布的采样器,优秀的收敛和图像质量。
DPM2:相比DPM更准确但更慢一些
DPM++:是对DPM系列的改进
DPM++ 2M 也是基于 Cheng Lu 等人的论文的改进版本,在 Hagging Face 的 Diffusers 中被称作已知最强调度器。它适用于速度和质量的平衡,相对于 2S 采样,2M 采样会参考更多步,提供更好的图像质量,但也更复杂。
DPM++ SDE 是基于 Cheng Lu 等人的论文的版本,它采用了随机微分方程(stochastic differential equations),而 DPM++ 原本是 ODE 的求解器(ordinary differential equations)。它也使用了祖先采样的方法,受 eta 参数的影响。
DPM fast:除非步数设置在40+,否则很难跑出能看的图
UniPC:新开发的采样器,收敛速度略慢于欧拉方法,但质量相当,推荐使用较高的步数
绘制三次元时采样方法用DPM++2M Karras
14种 ControlNet
1. 轮廓类
顾名思义,轮廓类指的是通过元素轮廓来限制画面内容,轮廓类模型有 Canny 硬边缘、MLSD 直线、Lineart 真实线稿、Lineart_anime 动漫线稿、SoftEdge 软边缘、Segmentation 语义分割、Shuffle 随机洗牌这 7 种。
Canny 硬边缘,它的使用范围很广,被作者誉为最重要的(也许是最常用的)ControlNet 之一,该模型源自图像处理领域的边缘检测算法,可以识别并提取图像中的边缘特征并输送到新的图像中。
2. 景深类
前面的轮廓类都是在二维平面角度的图像检测,有没有可以体现三维层面的控图类型呢?这就不得不提景深类 ControlNet 模型了。景深一词是指图像中物体和镜头之间的距离,简单来说这类模型可以体现元素间的前后关系,包括 Depth 深度和 NormalMap 法线贴图这 2 种老牌模型。
3. 对象类
终于到了我们大名鼎鼎的 OpenPose,作为唯一一款专门用来控制人物肢体和表情特征的关键模型,它被广泛用于人物图像的绘制。
OpenPose 特点是可以检测到人体结构的关键点,比如头部、肩膀、手肘、膝盖等位置,而将人物的服饰、发型、背景等细节元素忽略掉。它通过捕捉人物结构在画面中的位置来还原人物姿势和表情。、
4. 重绘类
接着是最后的重绘类模型,在之前图生图篇我们有重点介绍过图像重绘的功能,而在 ControlNet 中对图像的重绘控制更加精妙,我们可以理解成这类重绘模型是对原生图生图功能的延伸和拓展。
局部重绘这里提供了 3 种预处理器,Global_Harmonious、only 和 only+lama,在环境融合效果上 Global_Harmonious 处理效果最佳,only 次之,only+lama 最差。
ControlNet Tile 被广泛用于图像细节修复和高清放大,最典型的就是配合 Tile Diffusion 等插件实现 4k、8k 图的超分放大,相较于传统放大,Tile 可以结合周围内容为图像增加更多合理细节。
提供了 3 种预处理器:colorfix、colorfix+sharp、resample,分别表示固定颜色、固定颜色+锐化、重新采样。相较之下默认的 resample 在绘制时会提供更多发挥空间,内容上和原图差异会更大。
ADetailer
模型分为三类。模型名称里包含 face 的就是用来处理面部的。包含 hand 就是处理手的。包含 person 就是处理身体的。
从处理图像使用的模型划分,这些模型分为两类。模型名称里包含 YOLO 的就是使用了 YOLO 算法。包含 MediaPipe 就是使用了MediaPipe 算法。
MediaPipe 模型都是用来处理面部的,尽管 MediaPipe 本身还可以处理手。MediaPipe 提供专门的人脸检测模型,并对性能和准确性进行了优化。
YOLO 算法则更具有通用性,它可以检测各种物体。在 ADetailer 中,它还可以检测身体,还适用于二次元的模型。
MediaPipe 处理的区域更小,但更精确。在处理过程中对面部多个特征都做了标注。也有缺点。如果是侧脸,或者脸部在画面占比小的话,MediaPipe 就无法处理。因此它能处理的面部是非常有限的。
YOLO 则能一次处理大量的人脸。从图片里也可以看出,YOLO 处理的区域更大,甚至能处理头发和背景。
Soft inpainting
Soft inpainting 可以将原始内容和修复内容无缝地融合在一起。在局部重绘的时候,可以毫无违和的将原图和遮罩图像进行融合。
Schedule bias 时间表偏差
时间表偏差会在每个步骤中调整原始内容的保留。默认值为 1 时。简单来说就是在重绘时如何保留原图的内容
Schedule Bias < 1
在小于1时,会在出图靠后的步数后更多的保留原图内容。
Schedule Bias > 1
在大于1时,则相反,会在出图开始的步数更多的保留原图内容。
在小于1的时候,原图的内容保留的比较少,保留了更多的修复内容。并不能很好的融合到原图
Preservation strength
Preservation strength 的作用和 Schedule bias 的效果是一样的。区别在于 Schedule bias 随着值的变化是指数性的改变。而 Preservation strength 是线性
Transition contrast boost
过渡对比度增强控制原始内容和修复内容混合的锐度。低值会产生柔和的混合,到修复区域的过渡很顺利。高值会产生强烈的对比度。它允许急剧过渡到原始内容。