免责申明

本文所说的,都是每个遭遇者的见地,并且如实得经过受害人的核对。而本文所说的人,对于我来说,只是判断为最大的嫌疑对象,笔者不以主观代入,且尽量写得客观。只是让看到的人,熟悉这件事情的前因后果,倘若有确定性的证据,请务必指认,替那些受害者表示感激。

主要人物

最大嫌疑人:天元

  • 天元(微信交易群)

  • 天元战神荧惑(原梦幻游戏昵称)

  • 爱吃cute酱(现梦幻西游昵称)。

阅读全文 »

1快速上手

在【python-package】目录下执行

1
pip install .

H264 简介

H.264,同时也是 MPEG-4 第十部分,是由 ITU-T 视频编码专家组(VCEG)和 ISO/IEC 动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩数字视频编解码器标准。这个标准通常被称之为 H.264/AVC(或者 AVC/H.264 或者 H.264/MPEG-4 AVC 或 MPEG-4/H.264 AVC)。是一种面向块,基于运动补偿的视频编码标准。

视频编码其本质就是将数据压缩,主要是去除冗余信息(包括空间上的冗余信息和时间上的冗余信息),从而实现数据量的压缩。

  • 空间冗余: 在同一图像(帧)内,相近像素之间的差别很小(甚至是相同的),所以就可以用一个特定大小的像素矩阵来表示相邻的像素。
  • 时间冗余: 视频中连续的图像(帧)之间,其中发生变化的像素占整张图像像素的比例极其微小,所以就可以用其中一帧来表示相邻的帧来减少带宽消耗。
  • 编码冗余: 不同像素出现的概率不同,所以就可以为出现概率高的像素分配尽量少的字节,对出现概率低的像素分配尽量多的字节。
  • 视觉冗余:人眼对很多像素颜色不敏感,所以就可以丢弃这些冗余的信息而并不影响人眼观看的效果。
  • 知识冗余:有许多图像的理解与某些基础知识有相当大的相关性。例如,人脸的图像有固定的结构,嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正面图像的中线上等等。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。根据已有知识,对某些图像中所包含的物体,可以构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,从而可以大大减少数据量。

用一个简单的例子来说明编码的必要性:
当你此刻显示器正在播放一个视频,分辨率是1280*720,帧率是25,那么一秒所产生正常的数据大小为:

阅读全文 »

引用核心

【论文1】D4: Detection of Adversarial Diffusion Deepfakes Using Disjoint Ensembles[D4:利用不相交频谱子集检测对抗性扩散深度伪造,2024,WACV]

【论文2】On the Vulnerability of Deepfake Detectors to Attacks Generated by Denoising Diffusion Models [基于去噪扩散模型的Deepfake检测器脆弱性研究,2024,WACV]

【论文3】Deepfake Forensics via An Adversarial Game[通过对抗性游戏进行深度取证,2022,IEEE TRANSACTIONS ON IMAGE PROCESSIN]

【论文4】Wavelet Diffusion Models are fast and scalable Image Generators[小波扩散模型是快速和可扩展的图像生成器,2023,CVPR]

阅读全文 »

这篇工作在原始的DDPM(去噪扩散概率模型)的基础上进行改进,针对扩散模型生成样本/采样速度慢的问题提出解决方案,同时保留了扩散模型高采样质量、模式覆盖多/多样性的优势。

动机

作者提出当下的生成学习框架无法很好地同时满足以下三个要求:

  1. 高采样质量
  2. 模式覆盖与多样性
  3. 快速的、低计算开销的采样

作者首先讨论了为什么去噪过程需要小的步长,这也是导致去噪过程总步数多、采样速度慢的主要原因;接着作者提出了解决方案,即对于去噪过程的模型,用多模态分布代替原始Diffusion Model中的高斯分布。

阅读全文 »

image-20240414093501867

image-20240414093602496

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
"latex-workshop.latex.autoBuild.run": "never",
"latex-workshop.showContextMenu": true,
"latex-workshop.intellisense.package.enabled": true,
"latex-workshop.message.error.show": false,
"latex-workshop.message.warning.show": false,
"latex-workshop.latex.tools": [
{
"name": "xelatex",
"command": "xelatex",
"args": [
"-synctex=1",
"-interaction=nonstopmode",
"-file-line-error",
"%DOCFILE%"
]
},
{
"name": "pdflatex",
"command": "pdflatex",
"args": [
"-synctex=1",
"-interaction=nonstopmode",
"-file-line-error",
"%DOCFILE%"
]
},
{
"name": "latexmk",
"command": "latexmk",
"args": [
"-synctex=1",
"-interaction=nonstopmode",
"-file-line-error",
"-pdf",
"-outdir=%OUTDIR%",
"%DOCFILE%"
]
},
{
"name": "bibtex",
"command": "bibtex",
"args": [
"%DOCFILE%"
]
}
],
"latex-workshop.latex.recipes": [
{
"name": "XeLaTeX",
"tools": [
"xelatex"
]
},
{
"name": "PDFLaTeX",
"tools": [
"pdflatex"
]
},
{
"name": "BibTeX",
"tools": [
"bibtex"
]
},
{
"name": "LaTeXmk",
"tools": [
"latexmk"
]
},
{
"name": "xelatex -> bibtex -> xelatex*2",
"tools": [
"xelatex",
"bibtex",
"xelatex",
"xelatex"
]
},
{
"name": "pdflatex -> bibtex -> pdflatex*2",
"tools": [
"pdflatex",
"bibtex",
"pdflatex",
"pdflatex"
]
},
],
"latex-workshop.latex.clean.fileTypes": [
"*.aux",
"*.bbl",
"*.blg",
"*.idx",
"*.ind",
"*.lof",
"*.lot",
"*.out",
"*.toc",
"*.acn",
"*.acr",
"*.alg",
"*.glg",
"*.glo",
"*.gls",
"*.ist",
"*.fls",
"*.log",
"*.fdb_latexmk"
],
"latex-workshop.latex.autoClean.run": "onFailed",
"latex-workshop.latex.recipe.default": "lastUsed",
"latex-workshop.view.pdf.internal.synctex.keybinding": "double-click"

论文阅读

摘要

扩散模型作为一种强大的高保真图像生成解决方案正在崛起,在许多情况下,其质量超过了gan。然而,它们缓慢的训练和推理速度是一个巨大的瓶颈,阻碍了它们在实时应用中的应用。最近的一种扩散GAN方法通过将采样步骤从数千个减少到几个,显著地减少了模型的运行时间,但它们的速度仍然大大落后于GAN的同类。本文提出了一种新的基于小波的扩散方案来减小速度差距。我们通过小波分解从图像和特征层提取低频和高频成分,并自适应处理这些成分,以提高处理速度,同时保持良好的生成质量。此外,我们提出使用重构项,有效地提高了模型训练的收敛性。在CelebA-HQ, CIFAR-10, LSUN-Church和STL-10数据集上的实验结果表明,我们的解决方案是提供实时和高保真扩散模型的基石。

介绍

这些模型将扩散过程还原为从随机噪声输入生成干净、高质量的输出。这些技术应用于各种数据领域和应用程序,但在图像生成任务中表现出最显著的成功。在各种数据集上,扩散模型在生成质量上优于最先进的生成对抗网络(GANs)[4,38]。更值得注意的是,扩散模型提供了更好的模式覆盖[14,22,41],并提供了一种灵活的方式来处理不同类型的条件输入,例如语义地图、文本、表示和图像[36]。。最近基于扩散的文本到图像生成模型[1,34,38]允许用户仅通过文本输入生成令人难以置信的逼真图像,开启了基于人工智能的数字艺术的新时代,并有望应用于其他各种领域。

阅读全文 »

摘要

在这个大数据处理、云计算、物联网等创新技术的现代时代,多媒体信息的利用日益增长。与其他形式的多媒体相比,视频在众多的多媒体物联网(IoMT)应用中被广泛利用并通过互联网和通信网络传输。因此,由于第三方对传输和存储的数字多媒体数据的利用和伪造,在现代通信网络上实现安全视频传输是非常必要的。目前在云和移动设备之间安全通信多媒体内容的方法在处理负载、内存支持、数据大小和电池电量方面受到限制。这些方法不是大型多媒体内容的最佳解决方案,也不适合移动设备和云的有限资源。高效视频编码(HEVC)是最新的现代视频编解码器标准,旨在有效地存储和流式传输具有合适大小和更高质量的高分辨率视频。本文提出了一种结合DNA(脱氧核糖核酸)序列Arnold混沌映射Mandelbrot集的新型混合密码系统,用于压缩HEVC流的安全传输。首先,采用H.265/HEVC编解码器对高分辨率视频进行编码,以达到高效的压缩性能;随后,将建议的Arnold混沌映射加密过程分别应用于压缩后的HEVC帧的三个信道(Y、U、V)上。然后,在先前混沌加密过程产生的主加密帧上建立DNA编码序列。然后,提出了一种改进的基于Mandelbrot集的条件移位过程,有效地引入了最终加密帧的Y、U和V信道上的混淆特征。大量的仿真结果和安全性分析表明,与文献密码系统相比,所提出的HEVC密码系统具有惊人的鲁棒性和安全性。

HEVC 编码

HEVC(高效视频编码)是一种先进的视频压缩标准,也被称为H.265和MPEG-H part 2。它是广泛使用的AVC(H.264或MPEG-4第10部分)的潜在后继者之一。HEVC的主要优势在于,在相同视频质量水平下,它能够提供大约两倍的数据压缩比,或者在相同的比特率下显著提高视频质量。这种编码标准支持高达8192×4320的分辨率,包括8K UHD(超高清)视频。1

HEVC/H.265视频编解码标准由ISO与ITU共同制定,旨在提高压缩率、降低网络带宽,同时保证视频质量。它支持更大的视频尺寸和更精细的编码控制,适用于对视频质量要求更高的场合。HEVC的实现包括YUV视频信号与位流之间的相互转换。编码过程涉及将YUV视频信号经过通用编码控制得到通用控制数据,然后经过变换、缩放、量化得到量化的变换系数,接着通过帧内估计得到帧内预测数据,经过滤波控制分析得到滤波控制数据,并通过运动估计得到运动数据。这些中间结果数据加上头信息和CABAC(上下文自适应二进制算术编码)编码,最终得到编码的位流数据。解码过程则是这些编码数据的逆过程,包括位流数据的缩放、反变换、滤波控制分析、帧内估计、帧内预测、运动补偿和去块SAO滤波,最终得到视频信号。

阅读全文 »