扩散模型检测

引用核心

【论文1】D4: Detection of Adversarial Diffusion Deepfakes Using Disjoint Ensembles[D4:利用不相交频谱子集检测对抗性扩散深度伪造,2024,WACV]

【论文2】On the Vulnerability of Deepfake Detectors to Attacks Generated by Denoising Diffusion Models [基于去噪扩散模型的Deepfake检测器脆弱性研究,2024,WACV]

【论文3】Deepfake Forensics via An Adversarial Game[通过对抗性游戏进行深度取证,2022,IEEE TRANSACTIONS ON IMAGE PROCESSIN]

【论文4】Wavelet Diffusion Models are fast and scalable Image Generators[小波扩散模型是快速和可扩展的图像生成器,2023,CVPR]

【论文5】Detecting Deepfakes with Self-Blended Images[使用自混合图像检测深度伪造,2022,CVPR]

背景

检测扩散生成的深度假图像仍然是一个悬而未决的问题。当前的检测方法无法对付向深度伪造添加难以察觉的对抗性扰动以逃避检测的对手。

于是要加强检测器的对抗鲁棒性,超越对抗训练。

论文D4提出使用频谱不相交子集上的模型集合来提高对抗鲁棒性。

利用了频率中的冗余,应用显著性划分技术,在多个模型中分散分布频率分量。

论文2研究了,deepfake的重建过程中仅采用单个去噪扩散步骤就可以显著减低检测的可能性,而无需引入任何可感知的图像修改。作者还观察到完全基于扩散的深度伪造上训练后的鉴别器对于这种攻击时表现的泛化性是有限的。在作者的对比实验中,发现SBI方法对这种攻击有不错的抵抗性。

论文3使用对抗制作的样本来攻击分类模型的训练可以大大提高泛化能力。提出基于人工智能的面部操作通常会导致高频伪像,这些伪像很容易被模型发现,但很难泛化。

且提出:对抗训练框架可以与许多修改网络结构的现有方法一起使用,以进一步提高深度伪造检测模型的性能。

论文4:提出了一中新的小波扩散模型

  • 利用小波带的降维来加速扩散模型,同时通过高频分量保持生成结果的良好视觉质量
  • 在图像和特征空间中使用小波分解来提高生成模型的鲁棒性和执行速度
  • 该方法提供了最先进的训练和推理速度

论文5则是用一张图片分为源图像和目标图像,并将2张图像分别随机图像操作,最后用Mask来融合成一张图像。即让模型训练合成数据来提升模型的鲁棒性。

问题与构想

问题

  • 扩散模型对deepfake添加难以察觉的 对抗性扰动
  • 高频伪像容易被模型发现,但是不容易泛化
  • 倘若使用扩散模型加入合成数据,其三个指标会互相牵制(生成质量,生成效率)
  • 单纯的扩散模型对深度伪造的泛化能力是有限的
  • 需要提高模型的鲁棒性,对数据的泛化能力,提高低质量数据检测能力

构想

  • 根据论文3,论文4,论文5。我让扩散模型取代对抗模型,扩散模型比对抗模型有更好的生成图像能力和图像恢复能力,并与SBI方法和流行的网络结合。从而提高了合成数据的质量,进而提高模型的鲁棒性和对低质量数据的检测能力
  • 根据论文1和4,将频率分散,提高对高频伪像的泛化能力
  • 而论文4小波模型的高效率提高模型的检测速度。

模型

相关工作

扩散模型

DDPM

DDGAN

WDDGAN

小波变换

小波变换是一种广泛应用于图像压缩的经典技术,用于从原始图像中分离低频近似和高频细节。低子带类似于原始图像的下采样版本,而高子带表示垂直、水平和对角线边缘的局部统计。值得注意的是,哈尔小波由于其简单性在实际应用中被广泛采用。它包括两种运算:离散小波变换(DWT)和离散逆小波变换(IWT)。

令L =√1 2 1 1和H =√1 2−1 1分别为低通滤波器和高通滤波器。它们用于构造步长为2的四个核,即LLT、LHT、HLT、HHT,将输入X∈RH×W分解为大小为H/2 ×W /2的Xll、Xlh、Xhl、Xhh四个子带。由于这些滤波器是成对正交的,它们可以形成一个4×4可逆矩阵,通过IWT精确地从频率分量重构原始信号X。

在本文中,我们使用这种变换来分解输入图像和特征映射,以强调高频成分,并将空间维度降至四倍,以提高采样效率。

Haar

Haar小波变换是一种基于小波的信号处理方法,它将信号分解成低频和细节高频两个部分。在图像处理中,Haar小波通常用于图像压缩和特征提取,代码中使用的DWTForward模块中离散小波变换,通过选择 yH 中的不同方向上的高频分量,构建了新的特征图。将原始低频分量 yL 与新构建的高频分量拼接在一起。最后通过一个包含卷积、批归一化和ReLU激活函数的序列处理最终的特征图。

基于小波的扩散方案

首先,我们描述了如何在扩散过程中引入小波变换。我们将输入图像分解为四个小波子带,并将它们作为单个目标连接起来进行去噪处理(如图2所示)。这种模型不是在原始图像空间上执行,而是在小波谱上执行。因此,我们的模型可以利用高频信息来进一步增加生成图像的细节。同时,小波子带的空间面积比原始图像小4倍,大大降低了采样过程的计算复杂度。

我们的方法建立在DDGAN模型上,其中输入是小波变换的4个小波子带。给定输入图像x∈R3×H×W,我们将其分解为一组低、高子带,并将它们进一步连接形成矩阵y∈R12×H 2 ×W 2。

提出方法

小波扩散混合图像

方案1

首先,对于每一张图片来自视频抽取的帧,我们将图片复制,分为2个通道。一个为源图片生成通道,一个为目标图片的生成通道。源图片对其进行随机裁剪,变换等操作,目标图像则用小波扩散处理,最后我们将两个图形进行MASK混合

方案2

首先,对于每一张图片来自视频抽取的帧,我们将图片复制,分为2个通道。两个图像分别进行diffusion操作,结果附不同的权重,将两者diffusion结果加权相加后,再做Denoise流程。

去噪过程

image-20240428145601500

接下来,我们通过生成器将小波信息进一步纳入特征空间,增强对高频成分的感知。这有利于最终图像的清晰度和质量。

图3说明了我们提出的小波嵌入发生器的结构。它遵循[44]的UNet结构,M个下采样和M个上采样块,加上相同分辨率的块之间的跳过连接,M是预定义的。然而,我们没有使用正常的下采样和上采样算子,而是用频率感知块代替它们。在最低分辨率下,我们采用频率瓶颈块来更好地关注低频和高频组件。最后,为了将原始信号Y合并到编码器的不同特征金字塔中,我们使用小波下采样层引入了频率残差连接。设Y为输入图像,Fi为Y的第i个中间特征映射。我们将在下面讨论新引入的分量:

频率感知下采样和上采样块。

传统方法依赖于模糊核的下采样和上采样过程,以减轻混叠伪影。相反,我们利用小波变换的固有特性来进行更好的上采样和下采样(如图4所示)。实际上,这加强了对这些操作的高频信息的认识。特别是,下采样块接收输入特征Fi、潜伏z和时间嵌入t的元组,然后通过一系列层处理以返回下采样特征和高频子带。这些返回的子带作为基于上采样块中的频率线索的上采样特征的额外输入。

频率瓶颈块

处于中间阶段,包括两个频率瓶颈块和中间的一个注意块。每个频率瓶颈块首先将特征映射Fi划分为低频子带Fi、ll和高频子带Fi、H的拼接。然后将Fi,ll作为输入传递给重新分配块以进行更深入的处理。处理后的低频特征映射和原高频子带Fi、H通过IWT变换回原空间。有了这样的瓶颈,该模型可以专注于学习低频子带的中间特征表示,同时保留高频细节。

频率残差连接

[44]中网络的原始设计通过跨行卷积下采样层将原始信号Y合并到编码器的不同特征金字塔中。相反,我们使用小波下采样层将输入Y的剩余快捷方式映射到相应的特征维度,然后将其添加到每个特征金字塔中。具体来说,Y的残差捷径被分解成四个子带,然后将这些子带连接并馈送到卷积层进行特征投影。这个捷径的目的是丰富对特征嵌入的频率源的感知。

SBI混合

实验计划

数据集

FF++

CDF

DFDC

SDDF

对比实验

方法对比

  • SBI
  • SBI+DDPM
  • SBI+DDGAN
  • SBI+WDDGAN

4种方法在4个数据集上的测试效果

共16组数据

数据集对比

4个数据集之间交叉训练和测试

例如,用FF++数据集训练,测试其他3个数据集

共16组数据

训练网络对比

  • ResNet
  • Xception
  • EfficientNet

3种网络架构在4种数据集上的测试效果

共12组数据

质量分析

Saliency Map

Feature Space

后期的规划

论文1:Wavalet-VIT-ECCV

论文2:VIT替换UNet-ICCV

根据这两篇论文,后期将会让用于去噪训练的模型Unet替换成VIT

或者将网络架构添加VIT

-------------已经到底啦!-------------