2025-03-30 01:29:07
深度学习在智能照片美化的应用之一是为黑白图像着色。此过程可以通过结合AI与照片着色实现,即便不具备Photoshop等图片编辑工具的操作技能,也可轻松为黑白照片着色。实现这一功能的步骤如下:
首先,当我们加载图像时,会得到一个三维数组,其中颜色通道的数据代表RGB颜色空间中的颜色,每个像素具有三个数字,表示该像素的红色、绿色和蓝色值。在图1中,左侧为原始图像,右侧分别为红色、绿色和蓝色通道。为图片着色时,根据给定的黑白图片,需要判断每个位置的像素的RGB值,颜色取值范围在0~255之间,这是一个256³的预测问题。CIE1976L*a*b*颜色空间是国际照明学会推荐的一种均匀色空间,包含明度L*和色度坐标a*、b*,其中L*表示颜色的明度,a*和b*分别表示偏红、偏绿、偏黄和偏蓝,图2展示了每个通道。
使用L*a*b*颜色空间为照片着色时,输入L*通道,输出其他两个通道(a*,b*)的预测,选择大约有65000个预测值,远小于RGB颜色空间,因此可以使用L*a*b*颜色空间的数据作为照片着色模型的训练数据。
生成对抗网络(GAN)是一种生成模型,其中包含两个模型:“生成器”和“判别器”。生成器用于生成数据,判别器对数据的真伪进行判断。在GAN模型训练时,生成器被视为一个伪造名画的画家,而判别器是一个名画鉴别家。通过对抗和学习过程,生成器逐渐提升伪造名画的能力,直到判别器无法辨别真伪。
使用GAN实现照片着色,模型结构如图3所示。训练使用来自COCO数据集的8000张图像,每轮训练时长约为4分钟,经过100轮训练后,生成效果如图4所示。模型可以对图像中的常见物体完成基本着色,但无法为稀有物体着色,并存在一些颜色溢出和圆形颜色块的问题。
针对上述问题,提出了新的策略:采用与U-Net结构类似的U形神经网络作为生成器的结构,输入灰度图,左侧提取图像特征进行内容识别,右侧根据内容识别结果还原并着色。判别器使用Critic卷积神经网络,输入图像,输出一个分数值表示真实度。在新的解决方案中引入了自注意力生成对抗网络(Self-Attention GAN),将注意力机制应用到生成器和判别器中,以更好地处理长范围、多层次的依赖,生成图像时协调每个位置的细节和远端细节,同时使判别器能够更准确地对全局图像结构实施复杂的几何约束。
以下是生成案例:
尽管生成图片中还存在一些异常,如奥黛丽·赫本耳朵后面皮肤颜色,但整体效果已经非常不错,注意力层在颜色一致性及总体质量上的表现令人惊喜。
除了自动着色,GAN在图像超分辨率、去模糊等领域也受到关注。例如,图像超分辨率可通过上采样从低分辨率图像生成高分辨率图像,图像去模糊中生成器用于生成清晰图像。
此外,《计算机视觉应用与实战》一书详细讲解了以上技术。这是一本旨在帮助读者快速掌握计算机视觉实战技能的教材,特别适合初学者学习,内容涵盖农业、医学、工业等领域的案例,如植物病虫害检测、眼底血管图像分割、口罩佩戴检测等,并采用理论结合实际、大量插图、实例讲解的方式,帮助读者快速理解计算机视觉模型和算法的基本原理与关键技术。