883 words
4 minutes
深度学习变化检测方法综述
深度学习变化检测方法综述
基于深度学习的变化检测 (Deep Learning based Change Detection, DLCD) 方法主要可以分为以下几类:
1. 特征级变化检测 (FB-DLCD)
-
流程:
- 使用预训练的深度网络(如 ResNet)分别提取变化前、后两张影像的深度特征图。
- 通过比较两张特征图生成“差异图像”。比较过程通常是计算两个特征向量的距离,距离越近(越相似),在差异图像上颜色越暗(值越小)。
- 差异图像是一张灰度图,最后通过阈值分割或聚类等方法,判断灰度值是否超过阈值来确定变化区域,生成最终的变化图。
-
优点:
- 简单直观,是一种无监督方法,不需要标注样本。
-
缺点:
- 严重依赖输入图像的质量,对光照、季节变化等“伪变化”敏感。
- 最终效果好坏严重依赖于阈值的选取,而这个阈值往往难以确定。
- 没有很好地利用像素周围的上下文信息。
2. 图像块级变化检测 (PB-DLCD)
-
流程:
- 以某个像素为中心,从变化前、后的影像中分别切割出一个小的图像块 (Patch)。
- 将这两个图像块成对地输入到一个孪生网络 (Siamese Network) 中。
- 让网络学习并判断这对图像块的中心像素点是否发生了变化。
-
优点:
- 通过输入图像块,有效融合了中心像素的上下文信息。
-
缺点:
- 需要对每个像素进行一次推断,存在大量冗余计算,浪费了大量的计算资源。
3. 影像级变化检测 (IB-DLCD)
这是当前变化检测领域的主流方法。
-
流程: 将变化前、后的影像(例如,各3个通道)在通道维度上拼接,形成一个6通道的张量作为统一的输入。然后通过一个 Encoder-Decoder 架构的分割网络,直接端到端地生成一张变化概率的灰度图,最后再通过阈值判断最终结果。
-
主流架构:
- 基于 CNN 的架构:
- 大部分模型使用
Encoder-Decoder架构。 - 根据前后影像特征的融合时机,分为早期融合、中期融合和晚期融合。中期融合是现在的主流。
- 大部分模型使用
- 基于注意力机制 / Transformer 的架构:
- 注意力机制能帮助模型关注真正重要的特征通道。
- Transformer 能更好地建立像素间的长程依赖关系,捕获全局上下文。
- 混合架构:
- 将 CNN 和 Transformer 结合,利用 CNN 强大的局部特征提取能力与 Transformer 卓越的全局建模能力。
- 学习策略:
- 也会结合半监督学习等策略,利用少量标签数据和大量无标签数据来提升模型性能。
- 基于 CNN 的架构:
数据集与算法比较
-
数据集类型:
- 二元变化检测: 只关心区域“变”与“不变”。
- 语义变化检测: 不仅关心是否变化,还关心“从什么变成了什么”(例如,从农田变成了建筑)。
-
算法比较与未来方向:
论文中对各种算法的比较显示,纯 CNN 模型计算量小但精度相对较低;纯 Transformer 模型性能强大但计算开销巨大。
混合模型 能够在性能和效率之间取得一个很好的平衡,是一个非常有潜力的研究方向。
深度学习变化检测方法综述
https://mizuki.mysqil.com/posts/cdzongshu/ Some information may be outdated