Stable diffusion-图生图-局部重绘

2024年6月19日18:16:53 发表评论 963 views

蒙版模式

重绘蒙版内容：用于修改“涂黑”的区域。
重绘非蒙版内容：用于修改除“涂黑”以外的区域。

重绘区域

重绘区域分为以下两种：

全图：用于整个图像的重绘。优点就是内容与原图融合的更好，缺点是不够细节
仅蒙版：仅渲染蒙版区域的细节。优点就是细节更好，缺点也是细节太多，与原图融合的不够好

在大型图像中，特别是当人物的脸部分辨率较低时，我们可以使用“仅蒙版”模式进行高清修复，从而实现高质量的修复效果。一般情况下，如果您希望保持原始图像的局部分辨率或需要调整特定区域，可以使用“全图”模式。而对于局部修复，特别是在高分辨率要求下，使用“仅蒙版”模式是一个高效的方法。

蒙版蒙住的内容

填充：AI自由发挥，与原图的蒙版内的元素没有任何关系，主打的就是按照提示词天马行空

原图：AI受限于蒙版内的元素，会根据提示词和蒙版内的元素共同合作创作

潜变量噪声：AI自由发挥，不受限于原图元素，但是细节会更加丰富

潜变量数值零：AI自由发挥，但是会比填充丰富一点

和原图的相似度从大到小进行排序：原图->填充->潜变量数值零->潜变量噪声

采样器的区别

采样器（Sampler）：在Stable Diffusion的上下文中，采样器是指用于从噪声图像生成清晰图像的算法。这个过程被称为采样，因为它在每一步中生成一张新的图像样本。采样器通过在一系列步骤中逐渐减少噪声来生成图像，每一步都会根据预定的噪声计划（Noise Schedule）来减少噪声，并生成新的图像样本。不同的采样器有不同的算法和特性，影响着图像生成的速度和质量。

调度器（Scheduler）：调度器通常与采样器的概念紧密相关，它负责控制采样过程中每一步的噪声水平，也就是所谓的噪声计划（Noise Schedule）。调度器决定了在生成图像的每一步中减少多少噪声，从而影响采样过程的速度和最终图像的清晰度。在某些文献中，调度器和采样器这两个术语有时被交替使用，因为它们都涉及到控制生成过程中的噪声减少。

Euler：欧拉方法最简答直接的采样器，非常受欢迎

Heun：改进欧拉方法，提高了精度但耗时比欧拉方法多一倍

LMS：线性多步法，速度与质量与欧拉方法相差不多

以下三个是常微分方程（ODE）的老式求解器，已经存在一百多年了，推荐设置步数在20-30之间

DDIM：去噪扩散隐式模型，是最早为Stable Diffusion设计的采样器之一，

PLMS：伪线性多步法，是LMS更新更快的替代方案，已落后，不再广泛使用。

DPM：2022年新发布的采样器，优秀的收敛和图像质量。

DPM2：相比DPM更准确但更慢一些

DPM++：是对DPM系列的改进

DPM++ 2M 也是基于 Cheng Lu 等人的论文的改进版本，在 Hagging Face 的 Diffusers 中被称作已知最强调度器。它适用于速度和质量的平衡，相对于 2S 采样，2M 采样会参考更多步，提供更好的图像质量，但也更复杂。

DPM++ SDE 是基于 Cheng Lu 等人的论文的版本，它采用了随机微分方程（stochastic differential equations），而 DPM++ 原本是 ODE 的求解器（ordinary differential equations）。它也使用了祖先采样的方法，受 eta 参数的影响。

DPM fast：除非步数设置在40+，否则很难跑出能看的图
UniPC：新开发的采样器，收敛速度略慢于欧拉方法，但质量相当，推荐使用较高的步数

绘制三次元时采样方法用DPM++2M Karras

14种 ControlNet

1. 轮廓类

顾名思义，轮廓类指的是通过元素轮廓来限制画面内容，轮廓类模型有 Canny 硬边缘、MLSD 直线、Lineart 真实线稿、Lineart_anime 动漫线稿、SoftEdge 软边缘、Segmentation 语义分割、Shuffle 随机洗牌这 7 种。

Canny 硬边缘，它的使用范围很广，被作者誉为最重要的（也许是最常用的）ControlNet 之一，该模型源自图像处理领域的边缘检测算法，可以识别并提取图像中的边缘特征并输送到新的图像中。

2. 景深类

前面的轮廓类都是在二维平面角度的图像检测，有没有可以体现三维层面的控图类型呢？这就不得不提景深类 ControlNet 模型了。景深一词是指图像中物体和镜头之间的距离，简单来说这类模型可以体现元素间的前后关系，包括 Depth 深度和 NormalMap 法线贴图这 2 种老牌模型。

3. 对象类

终于到了我们大名鼎鼎的 OpenPose，作为唯一一款专门用来控制人物肢体和表情特征的关键模型，它被广泛用于人物图像的绘制。

OpenPose 特点是可以检测到人体结构的关键点，比如头部、肩膀、手肘、膝盖等位置，而将人物的服饰、发型、背景等细节元素忽略掉。它通过捕捉人物结构在画面中的位置来还原人物姿势和表情。、

4. 重绘类

接着是最后的重绘类模型，在之前图生图篇我们有重点介绍过图像重绘的功能，而在 ControlNet 中对图像的重绘控制更加精妙，我们可以理解成这类重绘模型是对原生图生图功能的延伸和拓展。

局部重绘这里提供了 3 种预处理器，Global_Harmonious、only 和 only+lama，在环境融合效果上 Global_Harmonious 处理效果最佳，only 次之，only+lama 最差。

ControlNet Tile 被广泛用于图像细节修复和高清放大，最典型的就是配合 Tile Diffusion 等插件实现 4k、8k 图的超分放大，相较于传统放大，Tile 可以结合周围内容为图像增加更多合理细节。

提供了 3 种预处理器：colorfix、colorfix+sharp、resample，分别表示固定颜色、固定颜色+锐化、重新采样。相较之下默认的 resample 在绘制时会提供更多发挥空间，内容上和原图差异会更大。

ADetailer

模型分为三类。模型名称里包含 face 的就是用来处理面部的。包含 hand 就是处理手的。包含 person 就是处理身体的。

从处理图像使用的模型划分，这些模型分为两类。模型名称里包含 YOLO 的就是使用了 YOLO 算法。包含 MediaPipe 就是使用了MediaPipe 算法。

MediaPipe 模型都是用来处理面部的，尽管 MediaPipe 本身还可以处理手。MediaPipe 提供专门的人脸检测模型，并对性能和准确性进行了优化。

YOLO 算法则更具有通用性，它可以检测各种物体。在 ADetailer 中，它还可以检测身体，还适用于二次元的模型。

MediaPipe 处理的区域更小，但更精确。在处理过程中对面部多个特征都做了标注。也有缺点。如果是侧脸，或者脸部在画面占比小的话，MediaPipe 就无法处理。因此它能处理的面部是非常有限的。

YOLO 则能一次处理大量的人脸。从图片里也可以看出，YOLO 处理的区域更大，甚至能处理头发和背景。

Soft inpainting

Soft inpainting 可以将原始内容和修复内容无缝地融合在一起。在局部重绘的时候，可以毫无违和的将原图和遮罩图像进行融合。

Schedule bias 时间表偏差

时间表偏差会在每个步骤中调整原始内容的保留。默认值为 1 时。简单来说就是在重绘时如何保留原图的内容

Schedule Bias < 1

在小于1时，会在出图靠后的步数后更多的保留原图内容。

Schedule Bias > 1

在大于1时，则相反，会在出图开始的步数更多的保留原图内容。

在小于1的时候，原图的内容保留的比较少，保留了更多的修复内容。并不能很好的融合到原图

Preservation strength

Preservation strength 的作用和 Schedule bias 的效果是一样的。区别在于 Schedule bias 随着值的变化是指数性的改变。而 Preservation strength 是线性

Transition contrast boost

过渡对比度增强控制原始内容和修复内容混合的锐度。低值会产生柔和的混合，到修复区域的过渡很顺利。高值会产生强烈的对比度。它允许急剧过渡到原始内容。