优客网是专业的职称论文代写服务机构,这是最新的一篇计算机软件及计算机应用核心期刊代写代发论文,本文提出一种基于多粒度对比调制与双分支融合的方法用于红外小目标检测。该方法在主干网络中嵌入多粒度局部-全局对比调制融合模块,从语义与细节两个视角对小目标进行局部-全局对比建模,并通过动态融合机制实现不同粒度对比特征的协同增强;同时,构建嵌入多方向差分卷积用于细节增强的辅助网络,通过刻画空间像素在多方向上的差异响应以强化小目标的边缘与纹理表征。

红外小目标检测(Infrared Small Target Detection,IRSTD)旨在从复杂红外背景中检测微弱且尺寸极小的目标,其相关应用已扩展到航空航天、海洋监测、预警探测等领域[1]。现有关于 IRSTD 研究取得了一定进展,但受限于小目标本身像素占比小、纹理信息不足、对比度低以及边缘模糊等特性,使得从复杂背景中提取具有判别性和泛化能力的小目标特征十分困难,导致 IRSTD 的研究仍极具挑战。早期的 IRSTD 采用模型驱动方法,主要依据目标物理特性与背景统计规律,并结合先验知识设计检测算法,主要包括三类:基于滤波器的方法[2]、基于局部对比度的方法[3]以及基于低秩方法[4]。然而,模型驱动方法主要通过建立目标的物理或数学模型来区分目标与背景,难以精细刻画小目标边缘细节,且在真实复杂背景的鲁棒性方面表现不足。近年来,数据驱动的深度学习方法无需依赖先验知识和手工设计特征,并能通过有标注的数据训练优化模型,逐渐占据 IRSTD 研究的主导地位。因而,如何设计合适的网络来有效地从复杂多样的背景中提取小目标的特征,成为研究者关注的焦点。具体地,一些研究通过构建局部对比机制或多尺度学习策略来提升 IRSTD 性能,如 Dai 等人[5]提出 ALCNet,通过改进传统局部对比机制并采用循环移位方案以模块化局部对比测量,提升了局部特征的对比细化,但未兼顾全局语义与局部细节的对比,导致表征能力有限。WU等人[6]提出 UIU-Net,通过嵌套 U-Net 结构和交互交叉注意力模块来实现基于多尺度空间特征交互和注意力对比融合,显然缺乏局部信息与全局信息的差异化学习,使得小目标的精细化特征学习能力不足。Zhang等人[7]提出 ISNet,引入泰勒有限差分边缘块和两方向注意力聚合模块以提取边缘特征并增强形状感知对比,更多关注细节方面的判别性,而缺乏联合语义与细节的协同判别性挖掘。此外,一些工作致力于改进特征融合策略以丰富小目标的有效表征,如 Zhao 等人[8]提出的 TBC-Net 通过跳跃连接融合多层特征,但未开展关于小目标融合优化的设计,易引入冗余信息。Liu 等人[9]在 U-Net 框架中引入多尺度头结构以实现跨层特征融合,尽管关注了特征的多层交互,但仍未有效实现减少背景干扰以及增强目标特征的功效。为此,一些研究引入注意力机制来进一步优化特征融合过程,如 Xu 等人[10]提出 HCF-Net,通过构建并行块感知注意力与维度选择融合模块实现了多尺度特征的分层融合,但其解码器在进行上采样的跨层特征合并时仅采用通道拼接的方式,难以实现对不同层级语义与空间细节的自适应融合。Li 等人[11]提出 DNA-Net,通过设计密集嵌套交互模块与级联通道-空间注意力模块实现多层特征的渐进式交互与自适应增强,但其注意力机制主要聚焦于多尺度特征间的局部自适应增强,未能从对比的视角关注目标-背景的差异性。因此,为了同时兼顾红外小目标在复杂背景中的对比增强与多特征之间的有效融合,本文将设计多粒度局部-全局对比特征融合模块来同时强化关于小目标的语义对比信息与细节对比信息的提取,并构建自适应门控融合机制来实现多信息的动态引导与判别融合,从而可靠地增强红外小目标的特征判别性。鉴于复杂背景下红外小目标的特征可视化弱的特性,如何构建特征增强机制来提升红外小目标的判别性表征能力,成为当前亟需解决的关键问题。例如,Hou 等人[12]提出 ISTDU-Net,通过分组卷积将输入的特征图划分到不同的特征图组并生成权重,以增强与小目标相关的特征响应,但不同组可能学习到相似特征,易产生冗余的特征响应。Yang 等人[13]通过动态头机制中的尺度感知注意力、空间感知注意力和任务感知注意力来自适应学习多语义的相对重要性以增强小目标特征,但其特征增强主要依赖于检测头内部的注意力调节,未充分考虑小目标的浅层细节与深层语义间的互补关系。Lin 等人[14]提出 CSRNet,利用差分卷积与形状解码器提升边缘一致性,但其特征增强依赖手工先验,且特征融合机制静态固化,导致多尺度特征学习能力受限。此外,一些研究则尝试通过构建多分支结构来增强红外小目标的判别性表征,例如,Chi等人[15]提出了 DBGNet,通过构建最小化漏检分支以学习真实目标特征,从而避免目标遗漏,并设计最小化虚警分支以抑制背景干扰、降低虚警率。但其双分支融合采用拼接方式,缺乏跨分支的动态依赖建模与自适应调控机制。Yao 等人[16]提出 DSE-TLN,通过双流结构使用双导交叉融合模块(DGCFM)来捕获小目标的边缘细节和目标区域的全局上下文特征,实现优势互补,但其对语义特征与全局上下文特征的协同互补考虑不足,且分支融合依赖注意力加权求和,在应对极端复杂的背景剧变时,可能缺乏对特征间长程依赖关系和场景动态特性的更深层次建模。Li 等人[17]提出 EGPNet,通过构建双分支架构与多尺度渐进融合编码以增强特征表示,但其边缘分支仍依赖于固定边缘先验,且融合过程缺乏针对不同空间位置或语义层次的交互建模。显然,这些基于双分支结构的 IRSTD 研究,尽管能缓解单路径提取结构对有效特征提取不足的问题,但其缺乏双分支网络中的多尺度空间的自适应协同关系的探索,使得红外小目标的特征表达能力仍受限。为此,本文将专门构建细节特征增强的辅助分支网络,并设计自适应融合机制强化双分支网络中多尺度空间特征的渐进融合,不仅通过分支协同保留小目标的细节信息在深层空间中,还能实现双分支特征的协同优化,进一步提升小目标检测的鲁棒性。
1 相关工作
1.1 红外小目标检测传统的 IRSTD 方法主要依靠图像处理技术或依赖人工设计来提取特征。在基于滤波的方法中[18],往往通过构造基于形态学的结构元对背景进行抑制,并与原图差分以提取目标,实现较简单,但其在复杂背景下仍易受杂波边缘干扰以及检测性能往往依赖结构元的先验设计,导致泛化能力十分有限;基于局部对比度的方法中,诸如局部对比度测量 LCM[3]、RLCM[19]和 MPCM[20]等方法,通过提取目标的局部对比特征,计算目标邻域的对比度差异来实现目标定位,其主要适应于目标与背景对比度高的场景,但在强杂波或复杂背景下易出现目标抑制或误检,且其性能还往往依赖于超参数的设定。近年来,低秩稀疏方法也得到了广泛的研究,主要通过构建低秩稀疏模型[21]或张量分解[22],实现红外图像中目标与背景的分离,相比具有较高的检测精度,但此类方法对背景建模依赖性强,常受复杂背景干扰影响,易引入虚警,且计算耗时。总之,这些传统方法往往在特定条件下表现良好,但其过度依赖先验假设和人工特征工程,难以适应目标尺度多变、边缘模糊及背景非均匀等复杂情形,出现目标弱响应、背景干扰增强以及检测鲁棒性不足问题。
1.2 特征增强一些研究者提出了一些不同形式的特征增强策略用于 IRSTD,以突出小目标的关键信息以及抑制复杂背景带来的干扰。例如,Chen 等人[31]构建混合多尺度增强模块与小目标特征扩充模块,通过空间与通道注意力协同建模提升多尺度表征并缓解特征衰减,但该方法采用串行解耦结构,限制了对小目标浅层细节特征的充分利用。Xu 等人[32]则从弱特征保留与样本不平衡角度出发,结合稀疏采样与混合滤波提取边缘形状,在多尺度特征增强模块中引入双向注意机制强化跨尺度交互,但该机制主要从垂直与水平方向进行注意力建模,难以充分捕获目标在多方向空间中的细节差异信息。此外,Zhang 等人[33]则通过通道加权与遮挡感知注意力机制增强跨尺度特征判别性,有效突出小目标响应并抑制噪声,但注意力设计未充分细化以捕捉方向敏感的纹理特征,在极端复杂背景下对细粒度边缘结构的建模能力仍有优化空间。显然,这些针对IRSTD 中的特征增强方法取得了一定进展,但仅关注多尺度建模与注意力加权,未能充分考虑红外小目标在多方向空间结构上的细节变化特征。因此,为了丰富红外小目标在空间结构上的细节信息提取,亟需构建具备多方向细节感知能力的特征增强机制,以实现对小目标边缘与纹理差异的充分刻画,从而增强红外弱小目标的细节表征。
1.3 双分支学习多分支网络结构能并行地提取关于图像的不同形式的特征信息,已被应用于 IRSTD 研究中,例如,Xiao等人[28]在主干分支中引入 ResNeSt 模块以提取红外小目标的深层语义特征,并在增强分支中执行自适应对比度变换以突出目标细节,但其融合采用直接拼接后输入卷积的方式,未能依据两分支的特征学习差异设计自适应融合策略。Li 等人[30]构建双分支结构,其中,浅层基于改进 ConvLSTM 提取多尺度运动特征,而深层结合残差与注意力增强语义判别,并采用通道与空间注意力机制实现分支特征融合,但其融合方式未能充分考虑分支间特征关联的动态变化,导致在复杂背景下易出现信息冗余与细节缺失的问题。而 Guo 等人[34]利用退化图像分支输入高斯噪声增强复杂背景鲁棒性,同时通过原始图像分支保留目标细节特征,并在多阶段融合中兼顾目标表征与背景抑制,但其双编码器输出直接沿通道维度进行拼接,难以根据图像内容自适应分配分支特征贡献。显然,这些多分支方法虽然通过设计不同的双分支结构设计来增强小目标的表征,但其融合策略多依赖特征的直接拼接,难以根据不同分支在语义层次与细节层次上的差异实现自适应调控,导致双分支特征的细节和语义的互补效用难以被充分探索。因此,在双分支学习中能构建基于多尺度空间的双分支高效协同融合并自适应协调各自的语义信息与细节信息,才能有效地丰富红外小目标的特征表示。
2 方法本文提出基于多粒度对比调制和双分支门控融合的 IRSTD 方法,其结构如图 1 所示。首先构建嵌入通道-空间的双重注意力的骨干主编码网络以提取图像在不同尺度空间中的全局特征信息;其次为了提高不同尺度空间中小目标相对于全局信息在涵盖语义与细节层面的多重判别性,构建多粒度局部-全局对比调制融合模块(Multi-Granularity Local-Global ContrastiveModulation,MLGC)并将其嵌入编码器的每一尺度空间中,该模块通过多尺度局部条形上下文与全局上下文的对比以突出小目标的语义判别性的同时,构建多方向局部差异与全局差异的对比以强化小目标与背景的细节可区分性,并构建多粒度自适应门控融合机制,以实现多尺度空间中语义粒度与细节粒度的相互引导学习,从而缓解不同粒度特征融合中存在的信息冗余与冲突;紧接着,针对红外小目标存在边缘结构弱且对比度较低的特性,设计细节特征增强的辅助网络,其从浅层特征出发并施加多方向卷积运算以捕捉细节纹理特征,从而增强目标边界与结构的显著性表达,并重点设计双分支自适应门控融合模块(Dual-BranchAdaptive Gated Fusion Module,AGFM)以将辅助网络提取的细节信息逐层地融入到主网络的多尺度空间中,通过双分支网络间的互补协同的机制,有效避免小目标的细节在深层空间中丢失,进而持续增强对小目标的判别能力。最后,在解码阶段逐步恢复空间分辨率并完成目标检测。
2.1 基于多粒度局部-全局对比的特征学习为了增强复杂背景下红外小目标的辨识能力,首先基于 ResNet 和注意力机制来构建多阶段的特征编码学习,通过连续多个阶段的特征降维,以提升多尺度空间特征提取过程中对目标区域的关注度。具体地,如图 1 中 A 部分所示,每一层次的编码阶段由若干个残差注意力块(Block)堆叠而成,其中,每个残差注意力块内部首先通过两层卷积提取特征,并引入通道注意力(CA)与空间注意力(SA)机制对特征响应进行自适应调节,以突出与小目标相关的显著区域并抑制无关背景,然后将处理后的特征与输入进行残差融合,有效缓解梯度消失问题并保持低层信息的完整性,从而增强特征表达的稳定性与连续性。
2.1.1 全局上下文信息提取为了实现基于语义和细节的多粒度对比特征的联合调制,将首先对全局上下文信息进行建模,并以此为基准来实现不同粒度的局部-全局特征间的对比调制与协同优化。目前,SE[35]、CBAM[36]及 ECA[37]等注意力模块已被广泛应用于全局特征建模,且在不同视觉任务中取得了一定成效。然而,SE 模块依赖全连接映射建模通道关系,参数量相对较大;CBAM 是在通道注意力基础上进一步引入显式空间注意力,其空间权重建模更适用于目标区域占比较高或结构清晰的场景。相比之下,ECA 在保持全局建模能力的同时具备更 少 的 参 数 量 和 更 强 的 噪 声 鲁 棒 性 , 更 适 合 作 为MLGC 的全局上下文引导单元。因此,为了有效地建模全局上下文信息,通过引入 ECA 模块以提取空间全局特征,如图 2 中 B 部分所示。具体地,ECA 通过全局平均池化汇聚整个特征图的响应,获取包含全局统计特征的通道描述向量。
2.2 空间细节特征增强学习为进一步提升特征编码过程中对红外小目标轮廓结构与边缘细节的刻画能力,此处将进一步构建细节具体地,FE 模块通过两个串联的 3×3 卷积层并结合归一化与 ReLU 激活函数,对输入特征进行局部建模与非线性表达,以初步提取浅层空间的完整结构。随后,考虑到红外小目标尺寸较小且其轮廓结构与边缘梯度信息通常较为微弱,因此进一步引入MDCM 来提取浅层空间特征的多方向梯度感知信息,以增强小目标在不同方向上的边缘与纹理响应,从而更显著地突出其空间细节特征。
2.3 双分支自适应融合引导的特征解码为了将辅助网络中增强的小目标轮廓与边缘细节信息渐进地融入到主网络提取的深层对比判别特征中,以更有效地引导解码器进行特征重建,本文提出双分支自适应门控融合模块( Dual-Branch AdaptiveGate Fusion Module, AGFM),如图 5 所示,并将其集成到双分支网络的多尺度空间中,如图 1 所示。具体地,AGFM 通过显式构建主分支语义特征与辅助分支细节特征之间的差分映射与乘积映射,在同一空间位置上同时刻画两类特征的差异性与一致性,并在此基础上生成空间自适应的门控权重。该权重能够感知不同区域中语义信息与细节信息的相对重要性,并据此动态调节双分支特征的融合比例,从而在保持主网络深层语义判别能力的同时增强浅层细节表征,避免小目标细节在深层特征空间中的逐步弱化,最终获得更 加完整且具有判别性的特征表示。
3 实验与分析
3.1 实验设置
3.1.1 数据集本文实验采用 NUAA-SIRST[25] 、IRSTD-1k[7]和NUDT-SIRST[11]三个公开的单帧红外小目标检测数据集,分别包含 427、1001 和 1327 张图像。IRSTD-1k数据集由真实场景中的红外摄像机采集,涵盖海洋、城市、山区等多样复杂背景,目标类型包括无人机、车辆与船只等,具有较强的背景杂波干扰; NUAA-SIRST 数据集则由序列图像中挑选出的代表性样本组成,目标形态多样且分辨率不均衡;NUDT-SIRST 数据集主要聚焦于空中飞行器检测,场景覆盖城市、森林与沙漠等多种地形条件。在训练和测试数据的划分上,针对 IRSTD-1k 数据集,依据文献[7]的数据集划分设置,将其划分为包含 800 张图像的训练集和 201 张图像的测试集;针对 NUAA-SIRST 和 NUDT-SIRST 数据集,依据 文献 [11] 的数据集划分设置 ,将 NUAA-SIRST 数据集划分为 213 张图像的训练集和 214 张图像的测试集,而将 NUDT-SIRST 数据集划分为 663 张图像的训练集和 664 张图像的测试集。3.1.2 评价指标为验证提出的 MGCDNet 网络的有效性,参照文献[9][26][28]的设置,采用像素级别和目标级别的评价标注,具体使用交并比(Intersection over Union,IoU)、检测率(Probability of Detection,Pd)和虚警率(False-alarmRate,Fa)三个指标对方法的检测性能进行衡量。其中,IoU 能综合考虑预测区域与真实目标之间的空间像素重叠程度,能从整体像素上反映检测结果的精确性与可靠性;而 Pd 和 Fa 则分别从召回能力与误报控制两方面反映模型在目标检测任务中的基础表现。
3.2 实验结果及分析为了更客观全面地评测本文所提方法,将其与一些目前较为新颖的数据驱动深度学习的 IRSTD 方法进 行 对 比 , 这 些 方 法 包 括 : ACM[25] 、 ALCNet[5] 、DNANet[11] 、 UIU-Net[6] 、ISTDU-Net[12] 、 RDIAN[40] 、SCTransNet[41]和 MSHNet[9]。所有对比方法均在三个数据集上进行评估,并采用与第 3.1.3 节一致的实验配置,在默认参数条件下开始训练。
3.3 结果可视化分析为了更直观地展示本文方法的实际检测效果,选取六张具有不同代表性的红外图像进行可视化展示,其中,(a)-(f)对应六个不同的场景,对比不同方法在多种复杂背景下的检测结果,结果如图 7 所示,图中红色框表示正确检测目标,黄色框表示虚警,绿色框表示漏检。从图 7 可以看出,MGCDNet 在不同场景中均展现出优越的检测性能。场景(a)、场景(b)和场景(c)为简单背景的小目标场景,其中场景(a)中对比方法均产生明显虚警,而 MGCDNet 能够准确检测目标且无误报,体现出较强的相似干扰区分性。在场景(c)中,ACM 与SCTransNet 均出现虚警,其中 ACM 通过注意力机制构建局部-全局对比关系,并采用双分支结构以提取高层语义与低层细节特征,但其融合方式较为简单,未能充分发挥多源特征间的互补作用,整体性能不及本文方法;而 SCTransNet 利用 Transformer 块显式编码局部空间上下文,并通过通道交叉注意力在全局指导下实现局部对比,同时采用双分支结构保留语义信息,使检测结果较 ACM 更接近真实目标,但其分支融合仍依赖通道拼接,难以实现自适应特征协调,因此整体性能仍逊于 MGCDNet,仍导致虚警。相比之下,MGCDNet 在特征建模层面设计了多粒度局部-全局对比调制机制,同时强化关于小目标的语义判别性和细节差异性,有效区分目标与背景,此外,在结构上引入了双分支自适应门控融合机制,在多尺度空间中动态平衡主干网络语义特征与辅助网络细节特征的协同关系,检测结果避免了虚警问题,这验证了其双分支自适应融合设计在复杂背景下的显著优势。
3.4 消融实验为验证本文所提出方法中各模块的有效性,本文在 IRSTD-1k 与 NUDT-SIRST 两个公开数据集上进行了消融实验。实验配置与第 3.1.3 小节保持一致,主要从关键模块设计的有效性、模块内部结构的合理性、参数选择的合理性以及 AGFM 模块的融合效果等方面展开分析。
4 结论本文提出一种基于多粒度对比调制与双分支融合的方法用于红外小目标检测。该方法在主干网络中嵌入多粒度局部-全局对比调制融合模块,从语义与细节两个视角对小目标进行局部-全局对比建模,并通过动态融合机制实现不同粒度对比特征的协同增强;同时,构建嵌入多方向差分卷积用于细节增强的辅助网络,通过刻画空间像素在多方向上的差异响应以强化小目标的边缘与纹理表征。在此基础上,设计双分支自适应门控融合模块来迫使辅助网络的细节信息能动态地迁移到主网络的深层对比特征中,从而实现双分支协同融合引导的特征解码。实验结果表明,本文方法在IRSTD-1K、NUDT-SIRST 与 NUAA-SIRST 这三个具有不同代表性的数据集上与现有主流的方法相比,取得了更高的 IoU、Pd 以及更低的虚警率,展现出较强的泛化性与稳健性。在未来的研究中,将在复杂背景建模中探索基于因果关联的自适应对比调制机制,从而进一步提升红外小目标检测的鲁棒性与可解释性。