SEIFNet 模型详解
SEIFNet 是一种用于高分辨率遥感影像变化检测的深度学习模型,其核心思想是有效融合多尺度特征并抑制伪变化。
整体架构与流程

-
孪生编码器 (Siamese Encoder): 模型的主干是一个孪生网络,即左右两个用于特征提取的 Encoder 分支,它们的网络结构完全相同,并且在训练过程中权重共享。
-
多尺度特征提取: 将变化前 (T1) 和变化后 (T2) 的两张影像分别输入到孪生编码器中。编码器在下采样(缩小特征图尺寸)的过程中,会生成多个不同尺度的特征图,包含了从低层次(细节)到高层次(语义)的丰富信息。
-
时空差异计算: 来自编码器同一层级的 T1 和 T2 特征图,会被成对地送入时空差异增强模块 (ST-DEM),用于计算和增强它们之间的差异。
-
多尺度特征融合: ST-DEM 输出的多个不同尺度的差异图,会自顶向下地通过自适应上下文融合模块 (ACFM) 进行融合,逐步恢复细节并生成最终的变化预测图。
核心模块 1:时空差异增强模块 (ST-DEM)
目标: 更有效地对比两个不同时刻的特征图,找出真实变化,同时抑制由光照、季节等因素引起的“伪变化”。
为了实现这一目标,ST-DEM 设计了两个并行的分支:
-
减法分支 (Subtraction Branch):
- 将 T1 和 T2 的特征图进行逐元素减法 (
Element-wise Subtraction),直接获取差异信息。 - 而后使用坐标注意力机制,对差异特征进行加权,让模型重点关注最可能是真实变化的区域,忽略潜在的噪声区域。
- 将 T1 和 T2 的特征图进行逐元素减法 (
-
连接分支 (Concatenation Branch):
- 将 T1 和 T2 的特征图在通道维度上进行连接 (
Channel-wise Connection),这种方式保留了更丰富的原始信息,让网络自行学习如何融合。 - 同样,后续也使用坐标注意力机制来增强有效特征。
- 将 T1 和 T2 的特征图在通道维度上进行连接 (
最终,这两个分支在每个尺度上都会生成差异图,共同送入后续的融合模块。
关键技术:坐标注意力 (Coordinate Attention)

坐标注意力是一种高效的注意力机制,它能同时捕捉空间位置信息和通道关系。
-
流程:
- 位置信息编码: 分别对特征图的高度 (H) 和宽度 (W) 两个维度进行全局平均池化,得到两个包含了精确位置信息的一维方向感知特征图。
- 信息融合: 将这两个一维特征图拼接,通过
1x1 卷积、BatchNorm和ReLU激活函数进行信息融合与压缩。 - 生成注意力权重: 将融合后的特征图拆分回两个独立的方向,分别再通过
1x1 卷积和Sigmoid激活函数,生成 H 和 W 两个维度的注意力权重(也称为坐标掩码)。 - 特征加权: 最后,将原始输入特征图与这两个注意力权重进行逐元素乘法 (
Element-wise Multiplication)。在相乘时,H 和 W 维度的权重会被广播(复制并拉伸)到与原始特征图相同的尺寸,从而实现对原始特征的精确加权。
-
实现细节:
- 通道降维: 为了提高运算速度,模型在坐标注意力模块中引入了通道瓶颈设计。如图中
C/r所示,r是一个超参数(降维率),通过1x1 卷积将通道数降低r倍,在核心处理完毕后,再通过另一个1x1 卷积恢复原始通道数。 - 逐元素乘法的作用: Sigmoid 函数生成的注意力权重值在 0-1 之间,代表了每个位置的重要程度。通过逐元素相乘,可以起到“保留重要信息,抑制无关噪声”的作用。
- 通道降维: 为了提高运算速度,模型在坐标注意力模块中引入了通道瓶颈设计。如图中
核心模块 2:自适应上下文融合模块 (ACFM)
目标: 将来自 ST-DEM 的多个不同尺度的差异图进行有效融合,逐步结合高层语义信息和低层细节信息。

ACFM 采用自顶向下的融合策略:
-
特征上采样: 将更高层次(尺寸更小)的差异特征图
di+1,通过上采样 (up操作,通常是双线性插值 + 卷积 + BN + ReLU) 放大到与当前低层次特征图di相同的尺寸。 -
初步融合: 将上采样后的高层特征与低层特征进行逐元素相加。
-
自适应权重生成:
- 将相加后的融合特征复制一份,分别送入并行的最大池化 (MaxPool) 和平均池化 (AvgPool) 分支,以捕捉不同的特征统计信息。
- 两个池化后的结果会经过一个共享的 MLP (多层感知机,由
1x1卷积实现),然后将两个 MLP 的输出相加。 - 最后通过
Sigmoid函数生成一个自适应的融合权重w。
-
加权融合:
- 用权重
w乘以低层次差异特征图di。 - 用
(1-w)乘以经过上采样的高层次差异特征图。 - 将这两个加权后的特征图再次进行逐元素相加,得到最终的融合输出。
- 用权重
这个过程会从最顶层的特征开始,逐层向下进行,最终在原始分辨率上生成精细的变化检测结果。
Some information may be outdated