Datawhale AI夏令营CV方向Deepfake Baseline部分代码解析

原创已于 2024-08-18 18:59:51 修改 · 538 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#deep learning

于 2024-07-14 16:14:36 首次发布

Datawhale夏令营专栏收录该内容

3 篇文章

订阅专栏

1 Deepfake介绍

Deepfake是一种使用人工智能技术生成的伪造媒体，特别是视频和音频，它们看起来或听起来非常真实，但实际上是由计算机生成的。这种技术通常涉及到深度学习算法，特别是生成对抗网络（GANs），它们能够学习真实数据的特征，并生成新的、逼真的数据。

深度伪造技术通常可以分为四个主流研究方向：

面部交换专注于在两个人的图像之间执行身份交换；
面部重演强调转移源运动和姿态；
说话面部生成专注于在角色生成中实现口型与文本内容的自然匹配；
面部属性编辑旨在修改目标图像的特定面部属性；

2 baseline部分代码解析

!wc -l /kaggle/input/deepfake/phase1/trainset_label.txt
!wc -l /kaggle/input/deepfake/phase1/valset_label.txt
!ls /kaggle/input/deepfake/phase1/trainset/ | wc -l 
!ls /kaggle/input/deepfake/phase1/valset/ | wc -l

这里是linux命令

wc -l 命令用于统计文件中的行数。第一行用这个命令统计文件 /kaggle/input/deepfake/phase1/trainset_label.txt 中的行数。也就是说查看训练集一共有多少个图片。

同理，第二行统计验证集文件数量。

ls 命令用于列出目录中的文件。这个命令列出目录 /kaggle/input/deepfake/phase1/trainset/ 中的所有文件，并通过 wc -l 统计这些文件的数量，即训练集中的文件数量。

同理，第二行也是统计验证集文件数量。

!pip install timm

这里安装timm包

from PIL import Image
Image.open('/kaggle/input/deepfake/phase1/trainset/63fee8a89581307c0b4fd05a48e0ff79.jpg')

用PIL查看训练集中的一个图片

import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True

import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset
import timm
import time

import pandas as pd
import numpy as np
import cv2
from PIL import Image
from tqdm import tqdm_notebook

train_label = pd.read_csv('/kaggle/input/deepfake/phase1/trainset_label.txt')
val_label = pd.read_csv('/kaggle/input/deepfake/phase1/valset_label.txt')

train_label['path'] = '/kaggle/input/deepfake/phase1/trainset/' + train_label['img_name']
val_label['path'] = '/kaggle/input/deepfake/phase1/valset/' + val_label['img_name']

train_label 是一个 pandas 数据框（pandas.DataFrame）类型的变量。pandas 数据框是一种表格数据结构，类似于数据库中的表格，包含行和列，可以方便地进行数据操作和分析。

train_label['path'] = '/kaggle/input/deepfake/phase1/trainset/' + train_label['img_name']

这行代码是在train_label数据框中新增一个名为path的列。该列的值是将固定的路径'/kaggle/input/deepfake/phase1/trainset/'与train_label数据框中的img_name列值进行字符串拼接，生成每个图像文件的完整路径。

验证集同理。

train_label['target'].value_counts()

val_label['target'].value_counts()

这两块是分别查看训练集和验证集的里标签1，0（分别代表是deepfake和不是deepfake）的数量。