一些深度学习笔记


可能有不对,欢迎指正

Diffusion Model

DDPM

非可控,由于推理过程从去噪开始,生成图片不会完全与扩散过程一致,所以可以生成多种多样的图片

Formula

VAE

Score-based

Markov

Stable Diffusion

可控的文本输入,UNet去噪,交叉注意力,Latent空间

T2I

SD、controlnet(frozen SD)、还有很多针对特定任务的模型

Text-3D

生成点云数据、生成3D模型

Text-Video

Segmentation

语义分割

全景分割SOTA,SD+segmentation generator

Object Detection

DiffusionDet

Synthesis Dataset

目前看过一个生成目标框的,其他好像也有还没细看

Discriminative Tasks

DSD,说是few shot,然后可以在细节上进行图像文本匹配,效果比CLIP好2-3%,也是利用SD内部的这种潜在优势,会包含来自不同模态的数据对齐的信息

Privacy Security

之前和同学讨论过,比如就是生成一种隐形水印破坏图像信息,在进行图生图的时候保证版权

Image Correction

图像加马、去马、补全等

Medical

脑机画面

Audiovisual disorders

CLIP

一种判别图像和文本匹配的方法,不能做到区域词级的细粒度跨模态对齐,我的理解就是只能从整体进行图像文本匹配

GLIDE

1.Used different data sets;

2.LDM works on latent space. GLIDE works on pixel space, reducing parameter size via image down-sampling and up-sampling algorithms;

3.LDM can handle more general conditions, while GLIDE considers only text condition;

4.Different ways of injecting text condition

DALLE2

GAN

Score-based

Large Models

SAM

ZSL

训练样本和测试样本没关系,需要借助训练集类别来建立训练集与测试集之间的关系,训练已知马、老虎、熊猫和他们的标签,以及关于前三种动物和斑马的描述(斑马是像马、有条纹、黑白相间),测试给斑马的图片推断是斑马

FSL

训练的样本会包含几张斑马的图片或者prompt,如果是one-shot就只有一个prompt,prompt一般不之间参与训练

Other Models

LSTM

每个时间步输出隐状态,输入就是帧数据和记忆,内部包含遗忘门、输入门、记忆门

PointNet

Faster-RCNN

引入了Region Proposal Network(RPN)来生成候选目标框

Dataset

COCO

每个目标物体都有一个标注的类别(例如”horse”)和一个标注的边界框(bounding box),用于表示物体在图像中的位置和范围。此外,COCO数据集还提供了对每个目标物体的精确分割掩码(segmentation mask)。(horse)

RefCOCOg数据集相对于COCO数据集,在目标指示任务上提供了更丰富的自然语言描述。在RefCOCOg数据集中,每个目标物体都有对应的自然语言表达式,这些表达式可以更详细地描述目标物体的属性、特征和关系。(red thin horse)

Compositional Visual Genome(CVG)

Visual Genome(VG)的扩展,包含了大量的图像和对图像中物体、属性、关系等的注释。在VG的基础上引入了更多的注释和更复杂的场景组合。CVG数据集扩展了VG中的场景和对象组合,增加了更多的物体类别、属性和关系注释。专注于图像中物体之间的组合关系。(非合成)

VQAv2

Visual Question Answering v2.0,它是一个用于视觉问答任务的数据集。VQAv2是对VQAv1数据集的改进和扩展。VQA算法不能对真实图片很好的理解和合成推理。在VQAv2数据集中,每个样本由一个图像、一个与该图像相关的自然语言问题、答案和答案估计的可信度(置信度估计)组成。例如,对于一张包含一只猫的图像,可能会有一个问题如”这张图片中有一只什么动物?”。

RADHAR

用于HAR分类任务,包含5个动作,每个工作包含多个txt文件,每个文件包含多个帧,每个帧会有几十个点,每个点都是点云数据,包含不同维度的信息(雷达非RGBD)

ImageNet

Segmentation

语义、实例、全景分割

mask分割掩码是一个二进制掩码,用于准确地标记目标物体在图像中的每个像素。通过分割掩码,可以精确地区分目标物体与背景之间的边界。

Some Function

ReLU、Sigmoid、Tanh、SoftMax(指数计算、归一化)、OneHot

Mechanisms

Cross-attention

https://zhuanlan.zhihu.com/p/148737297?ivk_sa=1024320u

Pooling

LogSumExp

LSE池化方法能够更鲁棒地处理注意力图中的大值和异常值;保持注意力顺序。

Evaluation

top-i acc考虑前i个预测类别,只要有一个对了就算预测正确,最后计算预测对的样本精度

Optimizer

SGD、Adam(推导下次写)


文章作者: Alex Lee
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Alex Lee !
评论
  目录