介绍

扩散模型的基石:DDPM(Denoising Diffusion Probalistic Models)[2020]

DDPM的本质作用,就是学习训练数据的分布,产出尽可能符合训练数据分布的真实图片。

训练流程

总体来说,DDPM的训练过程分为2步

阅读全文 »

幂率分布

概率函数

假设变量x服从参数为 $\alpha$的幂率分布,其概率密度函数可以表示为

通式

图像

阅读全文 »

秘传

每天10点准时抢点

缴纳28w现金和28w储备

任务上交1-2个环装

能提供150-200的修炼值和大量三界功绩(能换免费精力)

阅读全文 »

1 预测单张图像

1
2
3
4
5
6
7
8
9
10
11
import os

import cv2

import pandas as pd
import numpy as np

import torch

import matplotlib.pyplot as plt
%matplotlib inline

设备

1
2
# 有 GPU 就用 GPU,没有就用 CPU
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
1
print('device', device)
阅读全文 »

数据集结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
FaceForensics++ dataset
|-- downloaded_videos
#包含所有原始下载的视频、视频信息文件及其提取的序列,可用于提取数据集中使用的原始序列

|-- original_sequences
|-- youtube
# c0/raw 原始序列 图像或者视频 的 FaceForensics++ 数据集
# c23/hq 原始序列 图像或者视频
# c40/lq 原始序列 图像或者视频

|-- actors
# 来自 DeepFakeDetection 的图像或者视频

|-- manipulated_sequences
|-- Deepfakes
# 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩

|-- DeepFakeDetection
# 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩

|-- Face2Face
# 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩

|-- FaceSwap
# 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩

|-- NeuralTextures
# 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩

文件大小

  • FaceForensics++
    • 视频
      • YouTube
        • 原始视频:38.5GB
        • h264压缩
          • raw/0: ~500GB
          • 23: ~10GB
          • 40: ~2GB
    • 图像:2TB
  • Deepfakedetection
    • actor 视频
      • raw/0: ~200GB
      • 23: ~3GB
      • 40: ~400MB
    • manipulated 视频
      • raw/0: ~1.6TB
      • c23: ~22GB
      • c40: ~3GB

下载脚本

阅读全文 »

ASIC设计

前端

确定项目需求

  • 物理实现(制作工艺、面积、封装)
  • 性能指标(速度、功耗)
  • 功能指标(功能描述、接口定义)

芯片设计

阅读全文 »

1. 论文精读

EfficientNet

2. 代码运行

数据集初始化

1
!python index_dfdc.py --source "/home/jovyan/work/icpr2020/dfdc"
阅读全文 »

OpenGL

学习

主页 - LearnOpenGL CN (learnopengl-cn.github.io)

简介

OpenGL(英语:Open Graphics Library,译名:开放图形库或者“开放式图形库”)是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(API)。这个接口由近350个不同的函数调用组成,用来绘制从简单的图形到比较复杂的三维景象。而另一种程序接口系统是仅用于Microsoft Windows上的Direct3D。OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。

阅读全文 »

LSTM的概念与RNN的区别

LSTM(Long Short-Term Memory)是一种长短期记忆网络,是一种特殊的RNN(循环神经网络)。与传统的RNN相比,LSTM更加适用于处理和预测时间序列中间隔较长的重要事件。

传统的RNN结构可以看做是多个重复的神经元构成的“回路”,每个神经元都接受输入信息并产生输出,然后将输出再次作为下一个神经元的输入,依次传递下去。这种结构能够在序列数据上学习短时依赖关系,但是由于梯度消失和梯度爆炸问题,RNN在处理长序列时难以达到很好的性能。

而LSTM通过引入记忆细胞、输入门、输出门和遗忘门的概念,能够有效地解决长序列问题。

记忆细胞负责保存重要信息,输入门决定要不要将当前输入信息写入记忆细胞,遗忘门决定要不要遗忘记忆细胞中的信息,输出门决定要不要将记忆细胞的信息作为当前的输出。

阅读全文 »