扩散模型DDPM

发表于 2024-04-11 更新于 2024-04-29 分类于计算机， CV学习
本文字数： 1.5k 阅读时长 ≈ 5 分钟

介绍

扩散模型的基石：DDPM(Denoising Diffusion Probalistic Models)[2020]

DDPM的本质作用，就是学习训练数据的分布，产出尽可能符合训练数据分布的真实图片。

训练流程

总体来说，DDPM的训练过程分为2步

阅读全文 »

幂率分布

发表于 2024-04-07 分类于计算机， CV学习
本文字数： 477 阅读时长 ≈ 2 分钟

幂率分布

概率函数

假设变量x服从参数为 $\alpha$的幂率分布,其概率密度函数可以表示为

$f(x)=cx^{-\alpha-1},x→∞$

通式

$lny=lnc-rlnx$

图像

阅读全文 »

宠修

发表于 2024-03-31 分类于游戏，梦幻西游
本文字数： 62 阅读时长 ≈ 1 分钟

秘传

每天10点准时抢点

缴纳28w现金和28w储备

任务上交1-2个环装

能提供150-200的修炼值和大量三界功绩(能换免费精力)

阅读全文 »

子豪兄2天完成论文系列之预测图像

发表于 2024-03-29 更新于 2024-03-30 分类于计算机， CV学习
本文字数： 353 阅读时长 ≈ 1 分钟

1 预测单张图像

import os

import cv2

import pandas as pd
import numpy as np

import torch

import matplotlib.pyplot as plt
%matplotlib inline

设备

1 2	# 有 GPU 就用 GPU，没有就用 CPU device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

1	print('device', device)

阅读全文 »

FF++下载脚本

发表于 2024-03-28 分类于计算机， CV学习
本文字数： 337 阅读时长 ≈ 1 分钟

数据集结构

FaceForensics++ dataset
|-- downloaded_videos
#包含所有原始下载的视频、视频信息文件及其提取的序列,可用于提取数据集中使用的原始序列
      
|-- original_sequences
    |-- youtube
    # c0/raw 原始序列 图像或者视频 的 FaceForensics++ 数据集
    # c23/hq 原始序列 图像或者视频
    # c40/lq 原始序列 图像或者视频
    
    |-- actors
    # 来自 DeepFakeDetection 的图像或者视频
       
|-- manipulated_sequences
    |-- Deepfakes
    # 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩
       
    |-- DeepFakeDetection
    # 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩 
        
    |-- Face2Face
    # 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩
    
    |-- FaceSwap
    # 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩
    
    |-- NeuralTextures
    # 所有三个压缩度的图像/视频以及泊松图像编辑后的模型和遮罩

文件大小

FaceForensics++
- 视频
  - YouTube
    - 原始视频：38.5GB
    - h264压缩
      - raw/0: ~500GB
      - 23: ~10GB
      - 40: ~2GB
- 图像：2TB
Deepfakedetection
- actor 视频
  - raw/0: ~200GB
  - 23: ~3GB
  - 40: ~400MB
- manipulated 视频
  - raw/0: ~1.6TB
  - c23: ~22GB
  - c40: ~3GB

下载脚本

阅读全文 »

OpenGL学习

发表于 2024-03-28 分类于计算机，图形学
本文字数： 340 阅读时长 ≈ 1 分钟

ASIC设计

前端

确定项目需求

物理实现(制作工艺、面积、封装)
性能指标(速度、功耗)
功能指标(功能描述、接口定义)

芯片设计

阅读全文 »

icpr2020论文精读

发表于 2024-03-27 更新于 2024-03-31 分类于计算机， CV学习
本文字数： 1k 阅读时长 ≈ 4 分钟

1. 论文精读

EfficientNet

2. 代码运行

数据集初始化

1	!python index_dfdc.py --source "/home/jovyan/work/icpr2020/dfdc"

阅读全文 »

OpenGL学习

发表于 2024-03-26 分类于计算机，图形学
本文字数： 0 阅读时长 ≈ 1 分钟

图形学学习知识一览

发表于 2024-03-26 分类于计算机，图形学
本文字数： 5.2k 阅读时长 ≈ 19 分钟

OpenGL

学习

主页 - LearnOpenGL CN (learnopengl-cn.github.io)

简介

OpenGL（英语：Open Graphics Library，译名：开放图形库或者“开放式图形库”）是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口（API）。这个接口由近350个不同的函数调用组成，用来绘制从简单的图形到比较复杂的三维景象。而另一种程序接口系统是仅用于Microsoft Windows上的Direct3D。OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。

阅读全文 »

LSTM长短期记忆

发表于 2024-03-25 更新于 2024-04-24 分类于计算机， CV学习
本文字数： 1.1k 阅读时长 ≈ 4 分钟

LSTM的概念与RNN的区别

LSTM（Long Short-Term Memory）是一种长短期记忆网络，是一种特殊的RNN（循环神经网络）。与传统的RNN相比，LSTM更加适用于处理和预测时间序列中间隔较长的重要事件。

传统的RNN结构可以看做是多个重复的神经元构成的“回路”，每个神经元都接受输入信息并产生输出，然后将输出再次作为下一个神经元的输入，依次传递下去。这种结构能够在序列数据上学习短时依赖关系，但是由于梯度消失和梯度爆炸问题，RNN在处理长序列时难以达到很好的性能。

而LSTM通过引入记忆细胞、输入门、输出门和遗忘门的概念，能够有效地解决长序列问题。

记忆细胞负责保存重要信息，输入门决定要不要将当前输入信息写入记忆细胞，遗忘门决定要不要遗忘记忆细胞中的信息，输出门决定要不要将记忆细胞的信息作为当前的输出。

阅读全文 »