本文目录

[[toc]]

现有的视觉模型

领域	模型	说明
卷积神经网络	LeNet	早期卷积网络，用于手写数字识别
卷积神经网络	AlexNet	深度学习在图像识别领域取得突破的标志性模型
卷积神经网络	VGGNet	通过重复使用简单卷积层和池化层构建深层网络
卷积神经网络	ResNet	引入残差连接解决深层网络训练难题，允许构建更深网络模型
卷积神经网络	Inception (GoogLeNet)	通过“网络中的网络”结构提高网络的宽度和深度
目标检测	Faster R-CNN	有效结合区域提议网络（RPN）和Fast R-CNN进行目标检测
目标检测	YOLO	将任务视为单一回归问题，实现快速目标检测
目标检测	SSD	在多个尺度上直接预测边界框和类别概率，平衡速度和准确性
图像分割	FCN (Fully Convolutional Network)	用于语义分割，将图像中每个像素分类
图像分割	UNet	特别适用于医学图像分割，具有特殊U形结构
图像分割	Mask R-CNN	在Faster R-CNN基础上增加分支，用于生成高质量分割掩码
姿态估计	OpenPose	实时多人系统，能从图像中估计姿态
生成模型	VAE (Variational Autoencoder)	通过编码器和解码器学习给定数据的潜在表示
生成模型	GAN (Generative Adversarial Network)	由生成器和判别器组成，用于生成逼真图像
生成模型	CGAN (Conditional Generative Adversarial Network)	在GAN基础上增加条件变量，允许模型生成具有特定特征的图像