优客网是专业的职称论文代写服务机构,这是最新一篇有关于计算机软件及计算机应用核心期刊代写代发论文,本研究针对无人机航拍图像中小目标检测特征提取不足与假阳性率高的问题,以 RT-DETR-R18 模型为基线,引入多尺度边缘信息增强、高效加性注意力重构及高分辨率 P2 层特征融合等改进策略,并在VisDrone2019 与 KITTI 数据集上进行实验验证。
小目标检测是计算机视觉领域的重要研究方向,在工业质检、智慧交通、遥感监测等实际场景中具有广泛应用价值[1]。相较于常规目标,小目标通常像素占比低、特征信息有限[2],易受复杂背景干扰,导致检测精度显著下降。例如在光伏故障巡检、无人机航拍等任务中[3,4]。 目标常表现为低对比度、小尺寸的异常区域,传统检测方法难以实现鲁棒识别。因此,提升小目标检测的准确性与鲁棒性,对推动相关行业智能化发展具有重要意义。近年来,端到端检测模型 RT-DETR 凭借其高效的混合编码器与 IoU 感知查询机制[5],在实时性与准确性之间取得了良好平衡,成为小目标检测领域的研究热点。当前研究主要围绕多尺度特征增强、注意力机制优化与轻量化部署等方向展开[6]。国内外学者进行了长期研究。例如,Yang 等人[7]通过渐进混合特征金字塔网络增强多尺度特征融合,改善了小目标特征稀疏问题;徐恒伟等学者[8]开发了高效多尺度注意力机制(EMA),通过跨空间特征交互加强了对复杂场景中多尺度目标的感知;徐少波等人[9] 设计轻量级PD-Conv 模块以保留细节信息;Wang 等人[10]则引入Swin Transformer 与多尺度融合机制提升小目标识别精度。然而,现有方法在全局注意力与局部细节的平衡、小目标与背景的特征区分等方面仍存在局限,尤其是在复杂背景下,模型对小目标的特征表达能力不足[11,12],制约了检测性能的进一步提升。近期 Nan 等人提出的 MI-DETR(CVPR 2025)通过多时间询问机制增强了复杂场景下的目标检测精度[13],但未针对高分辨率特征图进行效率优化,也缺乏多 尺 度 边 缘 信 息 的 融 合 ; Huang 等 人 所 研 究 的DEIM(CVPR 2025)则提出密集型一对一匹配与匹配度感知损失函数,显著加快了 RT-DETR 等模型的训练收敛速度并提升实时检测性能[14],但其重点在于训练框架优化,未针对小目标特征稀疏、边缘信息不足等核心痛点进行改进。

1 本文改进方向针对小目标检测中的边界模糊与特征表征不足问题,现有方法在精度与效率的平衡上面临挑战。本文基于 RT-DETR-R18 模型,提出一种融合多尺度边缘信息增强、高效加法注意力机制与新增 P2 层浅层特征分支的 MSEIE-EAA-RTDETR 新模型。该方案通过在多层级特征中引入边缘增强模块,显式强化目标轮廓信息,并结合轻量化的注意力机制优化特征交互,旨在提升模型对小目标的检测能力与整体性能均衡。
2 改进的 RT-DETR 模型本文针对 RT-DETR-R18 模型在小目标检测任务中 的 精 度 偏 低 、 推 理 效 率 缓 慢 的 核 心 问 题 , 对RT-DETR-R18 模 型 进 行 了 多 维 度 优 化 , 改 进 后 的RT-DETR 模型整体架构如图 1 所示。
2.1 主干部分的改进为了解决小目标检测中因网络深度增加和特征图下采样所导致的边缘与细节信息衰减的问题,本文结合边缘感知机制、多尺度池化、残差学习设计了一个跨阶段局部多尺度边缘信息增强模块(Cross StagePartial Multi Scale Edge Information Enhance, CSP-MSEIE)。将传统 CSP 模块替换为专门设计的边缘增强模块,显示建模目标边界特征;每个多尺度边缘信息增强模块内部集成[3,6,9,12]四种池化尺度,捕捉不同粒度的边缘信息,有效增强了模型对目标轮廓和细节的感知能力;通过边缘增强分支与原始特征的相加操作,实现渐进式特征优化。
2.1.1 CSP-MSEIE 设计为了解决小目标检测中边缘特征易丢失、多尺度感受野不匹配、传统边缘增强模块特征割裂与计算冗余的问题,本文设计了 CSP-MSEIE 模块,它以跨阶段局部网络为基础框架,将输入特征分为主分支与残差分支,实现多尺度边缘增强与主干特征的轻量化融合。该模块兼容 RT-DETR-R18 主干,在提升小目标边 缘 表 征 能 力 的 同 时 , 几 乎 不 增 加 推 理 延 迟 。
2.1.2 MSEIE 设计现有方法通常采用固定卷积核构建多尺度特征金字塔,并依赖单尺度卷积直接提取边缘信息,最后仅进行通道拼接。这种处理方式容易导致感受野与目标实际尺度不一致,且在特征融合过程中,边缘细节信息往往被稀释或削弱。为此,我们设计了多尺度边缘信息增强模块(Multi Scale Edge Information En-hance, MSEIE)。该模块采用自适应池化来动态生成多尺度特征,使其能够灵活适应不同尺寸目标的尺度变化。
2.1.3 Edge Enhancer 设计现有边缘增强多采用 Sobel、Canny 等手工固定算子[20],或复杂可学习卷积分支,存在先验僵化、参数激增的缺陷。本文设计无额外开销的边缘增强模块(Edge Enhancer),通过低频信息抑制实现边缘特征增强。
2.2 基于高效加法注意力的 Transformer 编码器层设计为了在提升特征建模能力的同时控制计算开销,本文设计了一种基于高效加法注意力的 Transformer编码器层(Transformer Encoder Layer Efficient Addi-tive Attention, TEL-EAA)。该模块将标准 Transformer编 码 器 中 的 多 头 自 注 意 力 ( multi-headself-attention,MHSA)[21]替换为自定义的高效加法注意力机制(Efficient Additive Attention, EAA)[22],在保持全局上下文建模能力的基础上显著降低了计算复杂度。
2.2.1 高效加法注意力机制由于高效加性注意力绕过了特征点积这一环,也就不必在噪声密集、前景稀疏的场景下硬算相似度矩阵。其直接对特征做加权交互,反而能更稳地咬住局部有效信息,把小目标的结构轮廓保下来、传下去。尤其到了浅层高分辨率特征图上,这种机制抗干扰、保细节的能力更突出,因此与小目标检测任务具备更高的适配性。构建相似度矩阵采用高效加法注意力机制替代原有的点积注意力机制,通过可学习的加性交互计算特征间的关联程度,避免了点积注意力在维度缩放与大规模矩阵乘法中产生的额外计算开销,更适合高分辨率特征图的处理需求。
2.2.2 TEL-EAA 模块结构设计模块采用经典的注意力分支与前馈分支的双路结构,并进行了适配性改进。在注意力分支,采用上述高效加法注意力进行特征交互,输出的注意力特征与该分支原始输入做残差融合,再通过通道维度的LayerNorm1 归一化,得到该分支输出特征。
2.3 特征金字塔网络设计
2.3.1 双向特征融合双向特征融合结合了自上向下的特征金字塔网络(Feature Pyramid Network, FPN)[23]和自下向上的路径聚合网络(Path Aggregation Network, PAN)[24]两条路径,实现了多层次特征的充分融合。双向特征融合实现深层特征(P5)的高层语义信息通过 FPN 传递到浅层,浅层特征(P2)的空间细节信息通过 PAN 传递到深层,避免了单向传播造成的信息损失。
2.3.2 四层金字塔结构本研究采用的特征金字塔包含 P2、P3、P4、P5四个层级,其下采样倍数依次为 4 、8 、16 、32 ,分辨率随下采样倍数的增大逐级降低;其中 P2 凭借高分辨率特性适配小于 16 16 像素的小目标检测,对应配置文件第 25 层(Y2),P3(中高分辨率)、P4(中分辨率)、P5(低分辨率)则分别适配 16–32 像素、32–64 像素、大于 64 64 像素的目标检测任务,对应配置文件第 28 层(F3)、第 31 层(F4)、第 34 层(F5)。为实现浅层高分辨率细节与深层语义特征的互补,四层金字塔的设计意图为:P2 保留细节,边缘纹理不丢;P3 做过渡,语义与结构搭桥;P4 提分辨,使目标差异拉得更开;P5 管全局,抑制复杂背景干扰。四层特征通过自上而下的语义传递和自下而上的细节补充,形成全尺度特征表达体系。
3 实验与结果分析3.1 评价指标目标检测模型评价指标主要可以分为三类,一是检测性能指标,二是模型体量指标,三是推理效率指标。
3.1.1 检测性能指标1)精确率(Precision, P/%)通过预测为正的样本中实际为正的比例,实际为正的样本占比越高,检测结果的准确性越好,误检越少。TP:真正例(模型正确检测出目标),FP:假正例(模型将背景误判为目标),精确率 P 计算公式。2)召回率(Recall, R/%)真实正样本被模型检测出来的比例越高,检测的全面性越好,漏检越少。FN:假负例(模型未检测出真实目标),召回率 R 计算公式。
3.2 实验数据集概述本 实 验 采 用 了 三 个 公 开 小 目 标 检 测 数 据 集 :VisDrone2019 无人机数据集[25]、UAVDT 数据集[26]和KITTI 数据集[27]。在 VisDrone2019 和 KITTI 数据集上进行了一系列对比实验,以评估所提出的网络的有效性。VisDrone2019 数据集是一个大规模的公开的无人机航拍数据集。该数据集依托各类无人机模型,在中国 14 个城市的不同场景、天气与光照条件下完成采集,共包含 10209 张静态图像[28]。其标注涵盖行人、人、自行车、汽车、货车、卡车、三轮车、遮阳篷三轮车、公共汽车和摩托车十大类别,且被划分为 6471张图像的训练集、548 张图像的验证集和 1610 张图像的测试集三个子集。VisDrone2019 数据集的特征可视化图如图 9 所示。左上为类别数量柱状图,汽车(car)实例数超 14 万,占绝对主导;行人(pedestrian)约 9 万次之,三轮车、公交车等类别实例数较少,存在类别不平衡问题;摩托车(motor)、三轮车(tricycle)等典型小目标是检测的难点。左下为空间分布热力图,以 x/y轴表示图像像素坐标,颜色深浅反映目标出现频次,目标主要集中在 x/y 轴 0.2-0.8 区间,符合无人机航拍的视觉分布规律。右上为检测框可视化图,绿色多层框为模型对小目标的多尺度预测框,反映模型对小目标的定位能力。右下为尺寸分布散点图,横轴为宽度、纵轴为高度,点的分布显示多数目标集中在小尺寸区间(width/height<0.3),验证了该数据集的小目标检测需求。
3.3 实验环境与实验细节本实验的模型训练与代码运行均部署于租赁的云服务器环境,硬件配置具体为:GPU 采用 NVIDIARTX 3090(24GB 显存);CPU 为 2.5GHz 14 核心处理器,搭配 60GB 内存;存储配置为 60GB 磁盘空间,满 足 实 验 数 据 与 代 码 的 存 储 需 求 。 软 件 环 境 基 于Linux 操作系统,深度学习框架采用 PyTorch2.2.2+Cuda12.1 配合 Python 3.10.19 系列版本。为保障实验的可复现性与消融实验的可比性,所有模型均不使用预训练权重,全程基于随机初始化权重完成训练。
3.4 消融实验
3.4.1 模块消融实验的量化结果整体网络结构的消融实验:我们对改进 RT-DETR模 型 的 3 个 改 进 部 分 进 行 了 消 融 实 验 , 分 析CSP-MSEIE 、 TEL-EAA、 P2 检 测 头 这 三 个 部 分 在VisDrone2019 数据集上对检测性能的影响,考虑到 P2检测头带来的高计算复杂度,我们尝试将编码器输出的特征通道维度统一为 256,并进行了一系列实验。表 4 显 示 , 与 测 试 集 上 的 RT-DETR 相 比 , 使 用CSP-MSEIE 模 块 重 构 主 干 网 络 分 别 将 mAP50 和mAP50:95 提高了 1.3%和 0.8%。在改进主干网络的基础上,革新注意力机制,在参数量与浮点运算量基本不变的情况下,不仅将 mAP50 和 mAP50:95 提高了0.6%和 0.4%,还将模型的推理速度提升了 70.7%。最后,扩展特征金字塔,新增 P2 层的 MSEIE-EAA 模型在 mAP50、mAP50:95、召回率和精确率方面分别达到了 42%、24.7%、42.7%和 59.4%的数值。这些数值表示在各个指标上比基线 RT-DETR-R18 模型显著提高了 4.4%、4%、4.9%和 3.4%。
3.4.2 CSP-MSEIE 模块作用的热力图对比分析由于边缘信息多分布于浅层网络,CSP-MSEIE模块通过多尺度特征融合,充分提取并融合浅层网络中丰富的边缘与细粒度信息,显著增强了对小目标边缘特征的表达能力,从而有效提升了检测精度。为进一步理解 CSP-MSEIE 模块的工作机理,我们通过梯度加权类激活热力图(Grad-CAM)[28]对特征学习过程进行可视化如图 11 所示。如图 11(a)的 RT-DETR-R18中高空密集且遮挡场景存在将空地误检为车辆;图(11)b 添加 CSP-MSEIE 模块的模型没有将空地误检;图(11)c 的 RT-DETR-R18 中昏暗密集且遮挡场景存在将草丛、空地误检为车辆,将树木遮挡下的车辆漏检的问题;图(11)d 添加 CSP-MSEIE 模块的模型没有将草丛、空地误检为车辆,且将左上方被树木遮挡的汽车成功检测,进一步验证改进方法能提升原始模型在极端复杂场景中的准确性和鲁棒性。、
3.5 对比实验为了进一步验证 MSEIE-EAA-RTDETR 模型检测性能的优越性,本研究采用 VisDrone2019 和 KITTI数据集进行了一系列对比试验。YOLO 系列(v5 至v13)[29-36]:作为单阶段实时检测中的常用算法,我们选取其不同尺寸的模型(轻量型 S/M、中大型 L/X)。该系列采用轻量化的主干网络与多尺度特征融合技术,推理速度较快(例如 YOLOv10-S 的帧率可达504.6),并具备较为完善的训练框架与数据增强方法,对无人机场景中小目标和复杂背景的检测具有较好的适应性,可作为实时检测的基础对比模型。RT-DETR 作为基于 Transformer 的无锚框实时检测 的 代 表 算 法 , 本 实 验 对 比 了 不 同 ResNet 骨 干(R18/R34/R50)的 RT-DETR 模型和其他文章的改进模 型 。 文 献 [37] 中 RT-DETR-SEA 模 型 在 基 线RT-DETR-R18 基础上,提出了小目标增强体系结构(SEA),其关键技术点为在 P2 特征层集成 SPD-Conv 层,增强空间信息捕捉能力;在特征级联后引入 CSPOmniKernel 模块,提升多尺度特征表达;并且在改进后保持实时性,改进后 FPS 与基线模型相当。
3.6 检测结果可视化分析为深入分析改进 RT-DETR 的检测效果,与原始模型 RT-DETR 进行对比,如图 12 所示。图 12(a)的原始 RT-DETR 在无人机视角的车辆密集场景中,因非机动车小目标尺寸过小、汽车与卡车相互遮挡,出现明显漏检和错检情况:图(a)第三图红色椭圆标记的巴士发生错检,真实标签为卡车。图(a)第五图红色椭圆标记的汽车和面包车发生错检,真实标签为卡车。图(a)第六图蓝色椭圆将空地误检为了卡车,第七图蓝色椭圆标记处漏检了卡车。图(a)第八图左侧将卡车错检为了巴士,右侧将汽车错检为了摩托车和面包车。图 12(b)RT-DETR-MSEIE-EAA 成功检测出第三图和第五图被遮挡的卡车,第六图空地的误检框也完全消除,但是仍然漏检了第七图的卡车,在第八图仍有少量卡车错检为了巴士和摩托车。这表明改进模型相比原始模型提升了小目标检测精度,尤其在车辆密集、目标遮挡的复杂背景下效果突出,但是仍然存在漏检、错检,后续研究仍需进一步改善。
3.7 跨数据集零样本泛化实验为验证模型在跨数据集场景下的泛化性能,本文将 在 VisDrone2019 数 据 集 上 训 练 得 到 的 基 线RT-DETR 模型及改进模型的最佳权重,直接迁移至UAVDT 无人机航拍数据集进行零样本跨域检测测试。整个过程未对目标数据集进行任何微调或重新训练,旨在评估模型在陌生航拍场景下对小目标的检测能力。
4 结束语本研究针对无人机航拍图像中小目标检测特征提取不足与假阳性率高的问题,以 RT-DETR-R18 模型为基线,引入多尺度边缘信息增强、高效加性注意力重构及高分辨率 P2 层特征融合等改进策略,并在VisDrone2019 与 KITTI 数据集上进行实验验证。实验结果显示,在 VisDrone2019 数据集上,MSEIE-EAA模型的精确率、召回率、mAP@50 及 mAP@50:95 分别提升 4.4%、4%、4.9%与 3.4%,在保持实时推理能力的同时,显著增强了对小目标的检测性能。在 KITTI数 据 集 上 , 改 进 模 型 的 mAP@50 、 mAP@75 与mAP@50:95 分别达到 95.1%、86.2%和 76.6%,优于YOLO 系列、原 RT-DETR 基线及其他现有改进模型,且参数量缩减至 16.5M,体现了其在复杂场景下的有效性与鲁棒性。尽管当前研究取得了一定进展,模型仍存在进一步优化的空间:在推理速度与计算复杂度方面,现有模型 GFLOPs 为 114.6,与轻量级 YOLO 系列相比仍有差距,在边缘设备上的实时部署效率尚需提升;此外,模型对极端遮挡与超低分辨率目标的检测稳定性也有待加强。