可能有不对,欢迎指正
Diffusion Model
DDPM
非可控,由于推理过程从去噪开始,生成图片不会完全与扩散过程一致,所以可以生成多种多样的图片
Formula
VAE
Score-based
Markov
Stable Diffusion
可控的文本输入,UNet去噪,交叉注意力,Latent空间
T2I
SD、controlnet(frozen SD)、还有很多针对特定任务的模型
Text-3D
生成点云数据、生成3D模型
Text-Video
Segmentation
语义分割
全景分割SOTA,SD+segmentation generator
Object Detection
DiffusionDet
Synthesis Dataset
目前看过一个生成目标框的,其他好像也有还没细看
Discriminative Tasks
DSD,说是few shot,然后可以在细节上进行图像文本匹配,效果比CLIP好2-3%,也是利用SD内部的这种潜在优势,会包含来自不同模态的数据对齐的信息
Privacy Security
之前和同学讨论过,比如就是生成一种隐形水印破坏图像信息,在进行图生图的时候保证版权
Image Correction
图像加马、去马、补全等
Medical
脑机画面
Audiovisual disorders
CLIP
一种判别图像和文本匹配的方法,不能做到区域词级的细粒度跨模态对齐,我的理解就是只能从整体进行图像文本匹配
GLIDE
1.Used different data sets;
2.LDM works on latent space. GLIDE works on pixel space, reducing parameter size via image down-sampling and up-sampling algorithms;
3.LDM can handle more general conditions, while GLIDE considers only text condition;
4.Different ways of injecting text condition
DALLE2
GAN
Score-based
Large Models
SAM
ZSL
训练样本和测试样本没关系,需要借助训练集类别来建立训练集与测试集之间的关系,训练已知马、老虎、熊猫和他们的标签,以及关于前三种动物和斑马的描述(斑马是像马、有条纹、黑白相间),测试给斑马的图片推断是斑马
FSL
训练的样本会包含几张斑马的图片或者prompt,如果是one-shot就只有一个prompt,prompt一般不之间参与训练
Other Models
LSTM
每个时间步输出隐状态,输入就是帧数据和记忆,内部包含遗忘门、输入门、记忆门
PointNet
Faster-RCNN
引入了Region Proposal Network(RPN)来生成候选目标框
Dataset
COCO
每个目标物体都有一个标注的类别(例如”horse”)和一个标注的边界框(bounding box),用于表示物体在图像中的位置和范围。此外,COCO数据集还提供了对每个目标物体的精确分割掩码(segmentation mask)。(horse)
RefCOCOg数据集相对于COCO数据集,在目标指示任务上提供了更丰富的自然语言描述。在RefCOCOg数据集中,每个目标物体都有对应的自然语言表达式,这些表达式可以更详细地描述目标物体的属性、特征和关系。(red thin horse)
Compositional Visual Genome(CVG)
Visual Genome(VG)的扩展,包含了大量的图像和对图像中物体、属性、关系等的注释。在VG的基础上引入了更多的注释和更复杂的场景组合。CVG数据集扩展了VG中的场景和对象组合,增加了更多的物体类别、属性和关系注释。专注于图像中物体之间的组合关系。(非合成)
VQAv2
Visual Question Answering v2.0,它是一个用于视觉问答任务的数据集。VQAv2是对VQAv1数据集的改进和扩展。VQA算法不能对真实图片很好的理解和合成推理。在VQAv2数据集中,每个样本由一个图像、一个与该图像相关的自然语言问题、答案和答案估计的可信度(置信度估计)组成。例如,对于一张包含一只猫的图像,可能会有一个问题如”这张图片中有一只什么动物?”。
RADHAR
用于HAR分类任务,包含5个动作,每个工作包含多个txt文件,每个文件包含多个帧,每个帧会有几十个点,每个点都是点云数据,包含不同维度的信息(雷达非RGBD)
ImageNet
Segmentation
语义、实例、全景分割
mask分割掩码是一个二进制掩码,用于准确地标记目标物体在图像中的每个像素。通过分割掩码,可以精确地区分目标物体与背景之间的边界。
Some Function
ReLU、Sigmoid、Tanh、SoftMax(指数计算、归一化)、OneHot
Mechanisms
Cross-attention
https://zhuanlan.zhihu.com/p/148737297?ivk_sa=1024320u
Pooling
LogSumExp
LSE池化方法能够更鲁棒地处理注意力图中的大值和异常值;保持注意力顺序。
Evaluation
top-i acc考虑前i个预测类别,只要有一个对了就算预测正确,最后计算预测对的样本精度
Optimizer
SGD、Adam(推导下次写)