当前位置: 首页 > news >正文

神经网络与深度学习课程总结四

第七部分:视觉大模型基础与 ViT (Vision Transformer)

随着大语言模型(LLM)的巨大成功,基于 Transformer 的架构开始强势“破圈”进入计算机视觉领域。本章探讨了如何利用 Transformer 处理视觉任务,以及视觉大模型的发展演进(多模态、自监督学习等)。

一、 大模型与多模态技术概述

  • 视觉大模型的演进:传统的视觉任务多由 CNN(如 ResNet)主导,但 CNN 感受野受限。近年来,视觉领域开始吸收 Transformer 的长距离依赖建模能力,模型规模(参数量)和预训练数据规模(如 JFT-300M)大幅增长。

  • 多模态融合(Multimodal):现代大模型不仅局限于单一的文本或图像,而是朝着“统一(Unified)”的方向发展,实现图像、文本、音频的跨模态理解与生成(如大语言视觉模型)。

二、 核心破局者:Vision Transformer (ViT) 详解

ViT 是将 Transformer 架构直接、无修改地应用于图像分类任务的开山之作,证明了在拥有海量数据的前提下,完全摒弃卷积操作也能取得超越 CNN 的表现。

1. 嵌入层(Embedding Layer):将图像变成“句子”

既然 Transformer 只能处理一维序列(Word Tokens),ViT 的首要任务就是对二维图像进行序列化:

  • 图像切片(Patching):将固定尺寸的输入图像(如)切分为不重叠的小图块(Patch,如)。这样一张图就被分成了个图块。

  • 线性投影(Linear Projection):将每个图块展平(Flatten)后,通过一个线性层映射成指定维度的向量。此时,图像图块就变成了等价的“词向量(Token)”。

2. 两个关键的附加参数
  • Class Token(类别通配符):借鉴了 NLP 中的 BERT 模型,ViT 在序列开头人工添加了一个可学习的嵌入向量[class]。经过多层编码器后,这个 Token 汇总了整张图像的全局信息,专门用于最终的分类任务。

  • Positional Encoding(位置编码):由于 Transformer 自注意力机制是位置无关的(打乱顺序不影响计算),必须在输入的图块特征中相加一个一维的可学习位置编码,以此来保留图像原本的空间位置结构。

3. Transformer 编码器(Encoder)

与标准 Transformer 的编码器结构完全一致,由多个 Block 堆叠而成,主要包含:

  • 多头自注意力机制(Multi-Head Self-Attention):计算图块与图块之间的全局依赖关系。

  • 前馈神经网络(MLP):进行特征的非线性映射。

  • 层归一化(Layer Norm)与残差连接(Skip Connection)。

4. MLP头(MLP Head)
  • 取编码器最后一层输出序列中的第一个 Token(即之前的[class]Token)作为整幅图像的特征表示。

  • 接入一个 MLP 层(全连接层)进行最终的类别预测。

三、 模型的预训练、结果与微调(Fine-Tuning)

1. “大力出奇迹”的预训练结果
  • 数据饥渴:当在中等规模数据集(如 ImageNet)上训练时,ViT 的表现略逊于同等规模的 ResNet(因为 CNN 拥有平移不变性和局部性等归纳偏置)。

  • 超越 CNN:但在超大规模数据集(如 ImageNet-21k 或 JFT-300M)上进行预训练时,ViT 打破了这一限制,展现出了极强的性能上限,并在多个图像识别基准上达到了 SOTA(State of the Art)。

2. 微调机制与输入长度问题
  • 预训练+微调范式:实际应用中,通常保留预训练好的 ViT 整体参数作为强大的特征提取器,只将后面的 MLP 头替换为适应下游任务(如新的分类、目标检测)的新网络。

  • 分辨率提升与位置编码插值:在微调阶段,通常会输入比预训练时更高分辨率的图像以获取更好性能。这会导致切分出的 Patch 数量增加,进而导致原先预训练好的位置编码长度不够。

  • 解决方案:保持图块大小(如)不变,对预训练的 2D 位置编码进行二维插值(2D Interpolation),以适应新的序列长度。

第七部分(下):视觉大模型拓展展望(CLIP & DINO 详解)

随着 Vision Transformer (ViT) 的成功,深度学习视觉领域开始向两个重要方向演进:一是打破单一模态壁垒的多模态学习,二是摆脱对人工标注依赖的自监督学习。本部分详细总结了这两个方向的代表性里程碑模型:CLIP 与 DINO。

一、 CLIP (Contrastive Language-Image Pretraining)

传统的图像分类模型受限于预先定义好的固定类别字典(如 ImageNet 的 1000 类),泛化到新类别时必须重新收集数据并微调。OpenAI 提出的 CLIP 彻底打破了这一“闭集(Closed-set)”限制。

1. 核心思想与架构

CLIP 的核心目标是将图像特征与自然语言文本的语义特征对齐。模型由两个独立的编码器组成:

  • Image Encoder(图像编码器):可以是 ResNet 或 ViT,用于提取图像的视觉特征向量。

  • Text Encoder(文本编码器):通常是 Transformer,用于提取自然语言句子的语义特征向量。

2. 对比学习训练机制(Contrastive Learning)

CLIP 摒弃了传统的交叉熵分类损失,转而使用包含 4 亿对海量图文对(Image-Text Pairs)进行无监督对比预训练。

  • 构造矩阵:在一个 Batch 包含个图文对时,模型将生成个图像特征和个文本特征。通过两两计算余弦相似度(Cosine Similarity),会形成一个的相似度矩阵。

  • 优化目标:矩阵对角线上的个元素是正确匹配的图文对(正样本),模型会最大化它们的相似度;而矩阵中非对角线上的个元素是不匹配的(负样本),模型会最小化它们的相似度。

  • 通过这种极其庞大的对比任务,CLIP 学会了非常丰富的通用视觉概念。

3. 零样本推理(Zero-shot Inference)的全过程

在完全不经过微调的情况下,CLIP 即可完成分类任务,其流程被称为Prompt Engineering(提示工程)

  1. 构建文本库:将你想分类的类别标签(比如“猫”、“狗”、“车”)填入一个提示模板中,如构造句子:“A photo of a [猫]”、“A photo of a [狗]”。

  2. 提取文本特征:将这些句子送入 Text Encoder,得到一组文本特征向量。

  3. 特征匹配:将待分类的图像送入 Image Encoder 得到图像特征向量,计算该图像向量与所有文本向量的相似度。

  4. 输出结果:相似度最高(Softmax 概率最大)的那个句子所对应的标签,即为分类结果。

4. 巨大优势与影响
  • 极强的鲁棒性:CLIP 学习到的是高维语义概念,对图像的风格迁移、草图、甚至是对抗样本都有着远超 ResNet 的鲁棒性。

  • AIGC 的基石:其强大的图文对齐能力,直接成为了后续 DALL-E、Stable Diffusion 等文生图大模型的指导基础。

二、 DINO (Self-Distillation with No Labels)

DINO 由 Meta(Facebook AI)提出,旨在探究:如果不提供任何文本或类别的监督信号,视觉 Transformer 能否“自学成才”?

1. 核心思想:自监督与无标签知识蒸馏

DINO 的本质是无标签知识蒸馏(Self-Distillation)。它构建了两个架构完全相同(如都是 ViT)但参数不同的网络:

  • Student(学生网络):负责主动学习并更新参数。

  • Teacher(教师网络):提供学习的目标(伪标签),其参数不通过反向传播更新,而是通过指数移动平均(EMA, Exponential Moving Average)平滑地吸收学生网络的参数。

2. Multi-crop(多视角裁剪)策略

DINO 让网络自己教自己的核心在于“不同视角”的信息传递:

  • 从同一张原图中进行不同的数据增强和裁剪。

  • Global Views(全局视角):裁剪出两张较大、包含主体全貌的图像(如),送入 Teacher 网络。

  • Local Views(局部视角):裁剪出多张较小、只包含局部细节的图像(如),送入 Student 网络。

  • 优化目标:强制 Student 通过局部细节去预测Teacher 看到的全局特征的分布。这种“管中窥豹”的训练迫使网络深刻理解图像的内在空间和语义结构。

3. 避免模型坍塌(Collapse)的关键机制

在自监督学习中,网络极易“偷懒”输出恒定值(即不论输入什么,Teacher 和 Student 都输出相同的全 0 向量,从而使损失降为 0)。DINO 通过以下两个技巧避免了坍塌:

  • Centering(中心化):将 Teacher 的输出减去其均值,这鼓励特征分布具有均等性,防止某一个维度处于统治地位。

  • Sharpening(锐化):对 Teacher 的 Softmax 输出应用极低的温度系数(Temperature),人为拉大不同维度之间的概率差距,迫使预测结果更加确定、尖锐(具有高置信度)。

4. 涌现的惊人成果
  • 自然涌现的语义分割:这是 DINO 最令人惊叹的成果。在没有任何人工像素标签的训练下,ViT 的多头自注意力图(Self-Attention Maps)自然而然地学会了区分前景和背景。将注意力图提取出来,竟然可以直接作为高质量的图像实例掩膜(Mask),其轮廓描绘极其精准。

  • 优异的 KNN 分类:DINO 提取的特征在特征空间中具有极强的聚类属性,即使只用最简单的 K-近邻(KNN)分类器,也能在 ImageNet 上达到非常出色的准确率。

http://www.zskr.cn/news/1494967.html

相关文章:

  • JN5169无线MCU核心外设实战:SPI、定时器与安全协处理器详解
  • 2026南通市家里卫生间漏水、阳台漏水、楼顶漏水、阳台漏水、地下室渗水、阳光房漏水各种房屋漏水情况不用愁!本地防水补漏公司为您排忧解难!您附近的专业防水团队 - 企业资讯
  • 终极指南:5个简单步骤让Joy-Con手柄在PC上完美工作
  • Total War模组开发终极指南:5步掌握RPFM专业工作流
  • 2026绵阳市权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐
  • 【大模型学习】主流大模型统计
  • 2026汉中南郑区装修公司口碑推荐:谁是真正的“透明消费“标杆? - 装修新知
  • 5分钟掌握缠论自动化工具:告别手动画中枢的终极方案
  • 梧州旅游静态网页作业包|含动态顶部横幅与景点滚动介绍的HTML双页模板
  • i.MX6接口电气特性实战:D-PHY/HSI/UART设计要点与信号完整性调试
  • TQVaultAE终极指南:泰坦之旅无限仓库与装备管理系统完全解析
  • 如何快速实现网站全量备份?HTTrack离线浏览完整指南
  • 汉中南郑区装修公司推荐榜单:2026年避坑指南(数据验证版) - 装修新知
  • MuleSoft驱动的企业级AI编排:安全可信的LLM集成实践
  • 怎样使用GTA圣安地列斯存档编辑器:5个实用技巧完全掌控游戏进度
  • 未来企业的组织架构里,会有多少个“数字岗位“?
  • 猫抓浏览器扩展:终极网页媒体资源嗅探与下载解决方案完全指南
  • FIFA 23 Live Editor:免费开源修改器的完整使用指南与创意玩法
  • 3分钟掌握MPV_lazy播放器:新手必学的播放列表管理技巧
  • 嵌入式MCU电气特性与低功耗设计实战:从数据手册到稳定产品
  • ARM Cortex-M4微控制器实战:K10系列核心架构、外设与低功耗设计详解
  • STL文件缩略图:Windows资源管理器的3D模型可视化终极方案
  • Halcon实战:从“调参侠”到“方案设计师”,缺陷检测的6种核心思路拆解
  • 解锁iOS设备无限潜能:2026年最新越狱指南与安全定制方案
  • 模板驱动型文档自动化:从Word手工到工程化流水线
  • 嵌入式开发实战:深度解析Kinetis K20 DSPI与I2S时序规范与硬件设计
  • 教学课件插图怎么做?GPT-IMAGE生成生动配图的实战教程与选型攻略
  • Claude Code(1):手把手教你安装配置Claude Code(Win/Mac/Linux)
  • 从数据手册到设计实战:K32L3A MCU时钟与ADC电气特性深度解析
  • Minecraft 1.21玩家必备:5分钟搞定MASA全家桶中文汉化