本文目录

[[toc]]

现有的视觉模型

领域模型说明
卷积神经网络LeNet早期卷积网络,用于手写数字识别
卷积神经网络AlexNet深度学习在图像识别领域取得突破的标志性模型
卷积神经网络VGGNet通过重复使用简单卷积层和池化层构建深层网络
卷积神经网络ResNet引入残差连接解决深层网络训练难题,允许构建更深网络模型
卷积神经网络Inception (GoogLeNet)通过“网络中的网络”结构提高网络的宽度和深度
目标检测Faster R-CNN有效结合区域提议网络(RPN)和Fast R-CNN进行目标检测
目标检测YOLO将任务视为单一回归问题,实现快速目标检测
目标检测SSD在多个尺度上直接预测边界框和类别概率,平衡速度和准确性
图像分割FCN (Fully Convolutional Network)用于语义分割,将图像中每个像素分类
图像分割UNet特别适用于医学图像分割,具有特殊U形结构
图像分割Mask R-CNN在Faster R-CNN基础上增加分支,用于生成高质量分割掩码
姿态估计OpenPose实时多人系统,能从图像中估计姿态
生成模型VAE (Variational Autoencoder)通过编码器和解码器学习给定数据的潜在表示
生成模型GAN (Generative Adversarial Network)由生成器和判别器组成,用于生成逼真图像
生成模型CGAN (Conditional Generative Adversarial Network)在GAN基础上增加条件变量,允许模型生成具有特定特征的图像