这是一篇计算机应用技术硕士论文代写范文,视觉SLAM;稠密建图;目标检测;语义分割;语义通信;为研究论点。本文在动态场景下的视觉 SLAM 系统和语义通信方面取得了一定的成果,但仍具有一定的不足之处。结合本文的不足与自动驾驶领域待解决的问题和挑战,未来可以从以下几个方向进一步深入研究。
目录
摘要
Abstract
1.1 选题背景及意义
在现代军事背景下,无人装备的应用日益广泛。纵观近年来的局部战争,高新技术已成为制胜的关键因素。随着人工智能、大数据与云网融合等技术的飞速发展,现代战争形态正发生深刻变革。以无人机和地面无人车为代表的作战平台能够适应复杂多变的战场环境,并在高风险区域中替代人员执行任务,从而显著降低人员伤亡率、提升作战效率。未来战争的核心趋势是为无人装备赋予智能化能力,使其能够独立感知、决策与协作,从而满足高对抗性与高实时性的作战需求。然而,实现无人装备的智能化仍面临诸多挑战。当前,大多数无人装备系统仍需依赖人工实施实时操控。以中型无人机为例,通常需配备约五名操作人员协同完成控制任务,不仅涉及对无人机位姿的精确操纵,还包括对传感器回传信息的持续监测与参数调整。此种操作模式导致人机比例偏高、作业效率低下,且在复杂战场环境下难以有效应对高速动态变化及多目标任务需求。相较于民用场景,战场环境具有更强的动态性与不确定性,因而要求无人装备在执行任务时具备更高效的实时感知、决策与推理能力。其中,实时感知能力是无人装备实现智能化的基础,只有准确感知周边环境,才能基于所获数据进行自主决策与行为规划。感知结果的重要表现形式之一即为对周围环境的实时地图构建,因此,面向动态场景的实时建图技术成为提升无人装备实时感知能力的关键支撑。为了满足现代无人装备在高动态战场环境下的实时感知需求,针对实时性、动态性,本文的第一个研究点聚焦于基于 YOLOv8(You Only Look Once version8 , YOLOv8 ) 网 络 [1,2] 的 动 态 场 景 视 觉 语 义 SLAM ( Semantic SimultaneousLocalization and Mapping,SLAM)技术。语义 SLAM 的含义是语义即时定位与地图构建技术,是一种结合了传统 SLAM 技术和语义信息处理的新型 SLAM 方法。传统视觉 SLAM 在静态环境下具有较高的稳定性和实时性,且具有成本较低,高稳定性,高实时性,强扩展性的特点,为在具有高复杂度特点的现代战场环境中进行建图的任务提供了有效的支撑。

1.2 视觉SLAM系统研究现状
即时定位与建图技术的作用是用于绘制未知环境中的地图,同时跟踪机器人或摄像系统在该环境中的位置。这使得设备能够实时了解周围环境并确定其相对于周围环境的位置,而无需依赖外部传感器。多年来,研究人员提出了各种 SLAM 方法。纯视觉 SLAM 系统可进一步分为两大类:特征法和直接法[4,5]。特征法依赖于从图像中提取并匹配稀疏局部特征,以此建立相邻帧之间的几何约束。该方法具有较强的鲁棒性,尤其在存在光照变化、运动模糊或部分遮挡的情况下,该方法依然能够保持较高的定位精度。此外,特征法的稀疏性使其在计算效率和实时性方面具有优势。然而,它对特征提取与匹配的质量依赖较大,当场景纹理较弱或重复结构较多时,性能可能明显下降。直接法不依赖显式的特征提取,而是直接利用图像的像素强度信息,通过最小化光度误差来估计相机位姿与三维结构。此类方法能够充分利用图像中的密集信息,在纹理较弱或特征不足的场景中表现更佳,并且有助于恢复稠密或半稠密地图。然而,直接法对光照变化和动态场景较为敏感,并且在非线性优化过程中计算开销较大,对硬件性能要求更高。
1.3 语义通信算法研究现状
在现代通信理论中,传统通信架构源于香农所提出的语法通信模型。在第二次世界大战期间,香农将其在密码学中的研究成果与通信理论相结合[33],指出密码系统与有噪信道模型之间存在着内在联系。如图 1.2 所示,二者的差别仅在于编码方式的不同:前者在信息中引入密钥,后者则在信道中引入噪声。随后,香农在研究逻辑门电路时受到启发,提出使用二进制符号 0 和 1 对所有信息进行编码,并创造性地引入了比特(bit)这一基本概念,用于度量信息的长度。为了进一步量化信息的不确定性,他提出了信息熵的概念,借鉴物理学中玻尔兹曼定义的熵来描述信息源的不确定性程度。
1.4 问题分析、主要挑战以及研究方案
静态稠密点云地图的生成难题:基于特征法的传统视觉 SLAM 系统(如 ORB-SLAM 系列)主要依赖稀疏特征点进行定位与建图。尽管其在效率和实时性方面具备优势,但只能生成稀疏点云地图,难以满足智能作战任务对环境理解与交互的高精度需求。缺乏稠密地图会削弱无人装备对复杂战场环境的精确感知与利用能力。为此,本文提出的 YOLOv8 动态语义 SLAM 系统在检测并剔除动态物体后,仅利用稳定的静态特征进行建图,从而在动态环境下仍能生成高精度的静态稠密点云地图。该能力突破了传统特征法 SLAM 的局限,为构建数字化平行战场环境提供了更加可靠的环境表示。
1.5 论文内容以及结构
本文的主要研究内容涵盖视觉 SLAM 系统的基础理论,基于 YOLOv8 网络的动态场景视觉语义 SLAM 系统和基于金字塔池化模型和双重损失函数的语义通信算法。通过在不同数据集与不同环境下的实验验证,本文系统性地评估了所提出动态语义 SLAM 系统与语义通信算法的有效性与优越性。论文结构如图1.4 所示。本文章节如下:第一章:绪论。本章首先阐述了研究的背景与意义,并系统综述了视觉SLAM 系统的发展历程,按照时间顺序梳理了其规范化框架的完善过程。同时,介绍了基于神经网络的动态 SLAM 系统研究现状与语义通信算法的最新进展,并在此基础上分析了当前研究中存在的主要问题及本文的研究思路和解决方案。第二章:本章依据现代视觉 SLAM 的标准架构,对相关理论与核心概念进行系统性介绍。从 SLAM 问题的数学建模入手,涵盖刚体运动与坐标变换公式、前端特征点提取与匹配、相机位姿估计、后端全局地图构建与位姿优化(捆绑优化)算法,以及回环检测中基于词袋模型的实现方法等内容,为后续研究奠定理论基础。
第三章:基于 YOLOv8 网络的动态场景视觉语义 SLAM 系统研究。本章详细阐述了所提出的基于 YOLOv8 的动态场景视觉语义 SLAM 系统(RYD-SLAM)的总体架构与核心算法。以 ORB-SLAM3 作为基础系统进行改进,在前端引入基于 YOLOv8 的语义分割模块,并改进跟踪线程以实现动态场景下的鲁棒定位。在后端构建基于两阶段筛滤法的稠密点云建图模块,实现清晰、精准的静态稠密点云地图生成。整个系统通过并行化多线程方法实现,以此来提升系统的实时性。最后,基于 TUM RGB-D 数据集[49]中的六组场景对系统进行了测试,从多角度验证了所提系统的有效性与优势。第四章:本章提出了一种新型语义通信算法框架。在编码器与解码器部分均采用神经网络构建,并通过端到端的联合训练方式实现模型优化。编码器采用改良的金字塔池化模块,以增强对信源图像的语义特征提取与编码能力。在传输过程中引入信道噪声模拟,以提升算法在复杂环境下的抗干扰性能。由于语义通信以实际任务执行为导向,本文设计了双重损失函数,以平衡图像重构误差与任务执行误差,从而保证通信系统的任务执行准确率。最后,基于CIFAR-10 数据集[50]与现有语义通信算法的对比实验验证了所提出算法的可靠性与优越性。第五章:总结与展望。本章对全文的研究工作进行总结,梳理了本文的研究内容与主要贡献,并给出了最终研究结论。同时,对研究过程中存在的不足进行了反思,并展望了未来进一步的研究方向。
视觉 SLAM 是一种利用视觉传感器(通常是相机)同时实现定位和地图构建的技术。简单地讲,就是机器人或设备在未知环境中运动时,利用相机实时采集图像信息,并通过算法实时估计自身位置,同时构建环境的地图。视觉SLAM 的核心任务包括两部分,定位和建图。定位即确定机器人或相机在环境中的位置和姿态,建图即实时构建环境地图,用以描述机器人所在环境的结构特征。视觉 SLAM 系统通常包含特征提取与匹配,视觉里程计,后端优化,回环检测。特征提取与匹配的主要作用是从图像中提取稳定的特征点或区域(如ORB 等),并在连续图像帧之间进行匹配。视觉里程计用来基于图像特征匹配结果估计设备的相对运动和位姿变化。后端优化算法利用图优化(如 BA 捆绑优化[51])或滤波方法(如扩展卡尔曼滤波[52])减少累计误差,提高位姿与地图的精度。回环检测则是当设备重新回到之前的位置时,识别出这一现象并修正累计误差,从而提高地图的全局一致性。本章主要介绍现有的视觉 SLAM 系统的各个步骤所常用的算法及其相应的术语,这些算法为后续构建适配动态场景下的视觉 SLAM 系统提供了重要的理论支撑。
2.1 SLAM问题数学建模
在传统的 SLAM 问题中[53],机器人通常是携带着某种传感器在位置环境中运动,一般而言摄像机是使用频率最高的传感器,因为摄像机成本低廉,且十分便携。由于相机通常是在某些时刻采集数据的,所以也只关心这些时刻的位置和地图,因此将连续时间拆分成了 。在这些时刻,使用 表示机器人的位置,各个时刻的位置表示为 ,他们构成了机器人的轨迹。在地图方面,假设地图是由多个路标组成的,每个时刻传感器会测量到一部分路标点,记为 。因此,机器人的运动方程可表示为 ,是运动传感器的输入, 为该过程中加入的噪声。为了模拟真实场景,方程中加入了噪声使得该模型变成了随机模型,因为机器人不能完美地执行所下达的指令。同理,机器人的观测方程记为 ,它描述的是机器人在位置 上看到某个路标点 时,产生了一个观测数据 ( 时刻下 路标点的观测数据)
2.2 刚体运动和相机坐标系变换
在空间坐标系中,刚体运动可以简单地概括为旋转和平移。假设某个单位正交基 经过一次旋转变成了 。那么,对于同一个向量 ,他在两个坐标系下的坐标记为 和 。因为向量本身没有变,所以根据坐标的定义。
2.3 特征点提取匹配
这样构成的位姿矩阵 属于特殊欧式群 ,他构成一个李群,具有连续的群结构。对于李群而言,李代数是他们的切空间,李群如, 是非线性流形,但他们的李代数如 , 局部是线性的,这就大大减轻了计算复杂度。在对位姿矩阵进行优化的时候,我们可以将非线性空间中的变换问题,转换为线性空间中的微分问题,从而方便地进行数值优化。李代数 是一个六维向量空间,李代数 是一个三维向量空间,定义符号 为反对称符号(将向量映射到矩阵,反之 则是把矩阵映射成对应的向量),每个向量对应一个反对称阵,可以用于表达旋转矩阵。
2.4 通过匹配点求解相机位姿
通过对在完成特征点匹配过后,SLAM 系统会使用这些匹配完成的点对进行初步的相机位姿估计,计算并优化位姿矩阵 。在 SLAM 系统运行初期,还没有可用的稠密三维地图点,必须先从两张图像的匹配特征中恢复相对运动。这时一般采用对极几何的方法进行位姿矩阵的计算,通过计算本质矩阵或单应矩阵来进一步分解获取旋转矩阵 和平移矩阵 。一旦建立起初始地图并生成了若干三维地图点,就可以在每一帧中通过匹配这些已有的 3D 点与当前帧 2D 特征点来估计相机位姿。此时,已知的 3D–2D 对应关系恰好满足 PnP(Perspective-n-Point,PnP)问题[61],SLAM 系统使用高效的 EPnP(Efficient Perspective-n-Point,EPnP)算法[62]并结合 RANSAC 算法进行鲁棒的初始位姿计算。极几何求解相机位姿。
第三章 基于 YOLOv8 的动态场景视觉语义 SLAM 技术研究
3.1 引言
3.2 基于 YOLOv8 网络的 SLAM 系统总体架构
3.3 基于 YOLOv8 网络的 SLAM 前端算法结构
3.4 基于两阶段筛滤法的SLAM后端稠密地图构建算法结构
3.4.1 稠密点云地图构建算法总体结构
3.4.2 基于 Farneb(?)ck 光流法的动态光流掩码生成算法
3.4.3 基于两阶段筛除法的帧点云构建算法
3.4.4 基于两阶段过滤法的全局点云滤波算法
3.5 SLAM系统实验与结果分析
3.5.1 实验平台和场景数据集介绍
3.5.2 系统运行可视化展示
3.5.3 轨迹图结果对比
3.5.4 绝对轨迹误差和相对位姿误差结果对比
3.5.5 稠密点云地图构建结果对比
3.5.6 系统运行时间评估
3.6 本章小结
4.1 引言
Conv2d 卷积层[76]的作用是对输入图像的像素进行卷积运算,从而获得整体语义特征向量。BatchNorm2d 层[77]则对每个 batch 中相同特征维度的数据进行归一化处理,使其分布趋于均值为 0、方差为 1 的高斯分布。其主要作用是在激活函数之前调整数据分布,从而缓解梯度消失问题。由于常见激活函数(如 ReLU)在中心区域具有最大的梯度响应,BatchNorm2d 能够有效地将数据分布调整至该区域附近,从而提升训练效率,降低模型对权重初始化的敏感性,并加快收敛速度。ReLU 激活函数[78]通过引入非线性因素,使神经网络具备更强的特征表达能力。在 CNN 网络中,ReLU 激活函数具有较好的性能,其本质为一个分段函数:输入大于 0 时输出其本身,小于等于 0 时输出 0。该函数不仅计算简单,梯度表现接近线性,便于网络优化,还能够输出稀疏激活,从而在一定程度上缓解过拟合问题。
对于语义通信系统而言,与传统通信编码系统相比,其核心区别在于:语义通信不仅需要保证传统意义上的数据恢复性能,还必须兼顾实际任务的完成效果。在现有研究中,语义信源编码通常被建模为一个失真率优化问题,并包含两个约束条件:其一是语义信息的恢复,其二是可观测信息的还原。前者直接决定了下游任务的执行效果,而后者则用于刻画语义编码系统在整体信息还原与可视化层面的性能表现。基于这一建模思路,本文设计的神经网络损失函数由语义信息损失与观测信息损失两部分构成,并针对不同类型的信息采用相应的度量方法。通过双重约束的引入,不仅能够保证语义层面的任务执行精度,同时也能够确保通信系统整体的可解释性与稳定性,从而实现更符合语义通信目标的优化效果。
在本章节中,将会给出整个面向智能体交互的语义通信算法的实验设计原理以及实验数据分析。在本次实验中,我们将基于变分自编码器(VariationalAutoencoder based,VAE-based)[85]的语义通信算法与所提出的基于金字塔池化模型(Pyramid-based)的语义通信算法进行对比实验,来论证本文语义通信算法的优越性。实验评价指标主要包括三个方面:实际任务执行准确率,图像重构的峰值信噪比以及图片的回复质量可视化结果。通过这三类指标的综合分析,可以对基于金字塔池化模型的语义通信算法在性能与优势方面进行更加全面和深入的评估。
本章围绕所提出的基于金字塔池化模型与双重损失函数的语义通信算法展开了系统性的研究与分析。首先,在引言部分阐述了信息化时代通信需求与现有通信架构之间的矛盾,并指出传统通信模式在处理效率与带宽利用率上的局限性。在此背景下,结合深度学习的语义通信被提出作为新的解决方案。随后,本文详细介绍了基于金字塔池化模型的语义通信算法的总体框架。通过对编码器、解码器及任务模块的结构设计进行分析,明确了各模块在语义特征提取、信息压缩与任务执行中的作用。其中,编码器采用改良后的金字塔池化模块与卷积层相结合的方法,实现了全局与局部语义特征的高效融合;解码器则基于反卷积结构设计,在保持对称性的同时,尽可能减少激活函数带来的信息损失,从而提升了解码质量。信道部分利用加性高斯白噪声进行建模,真实模拟了实际通信环境下的噪声干扰。
5.1 全文总结
本文围绕复杂战场环境中无人装备的智能化作战需求,聚焦于“感知—建图”与“通信—协作”两个核心环节,系统开展了基于视觉语义 SLAM 和语义通信的研究工作,主要研究成果与贡献如下:(1)提出基 YOLOv8 的动态场景视觉语义 SLAM 系统(RYD-SLAM)。针对传统 SLAM 系统在动态环境下易受高速运动目标干扰的问题,本文在 ORB-SLAM3 的基础上引入 YOLOv8 目标检测与语义分割模块,结合邻域检测法构建铜带物体检测模块。该方法能够自动识别并剔除动态特征点,从而实现复杂动态场景下的鲁棒定位与跟踪。实验结果表明,所提系统在 TUM RGB-D 数据集的多个动态场景中均表现出显著优于基线系统的稳定性和精度。(2)突破静态稠密点云地图生成难题。传统特征法 SLAM 系统往往只能生成稀疏点云地图,难以满足智能作战对精确环境建模的需求。本文通过引入并行化多线程机制与基于两阶段筛滤法改进的建图模块,有效提升了稠密地图构建效率,使系统能够在动态环境下生成清晰、细致的静态稠密点云地图,为无人装备的环境理解与自主决策提供了可靠支撑。(3)提出基于金字塔池化模型和双重损失函数的语义通信算法。针对战场通信受限条件下数据压缩率与语义保真度难以兼顾的问题,本文设计了一种端到端的语义通信框架。通过改良的金字塔池化模块实现对图像全局与局部语义特征的高效提取,并结合双重损失函数在图像重构与任务执行之间实现动态平衡。实验结果验证了该算法在低带宽、低信噪比环境下的优越性,显著提升了语义级通信的鲁棒性与任务适应性。
5.2 工作展望
尽管本文在动态场景下的视觉 SLAM 系统和语义通信方面取得了一定的成果,但仍具有一定的不足之处。结合本文的不足与自动驾驶领域待解决的问题和挑战,未来可以从以下几个方向进一步深入研究:(1)轻量化与硬件优化。尽管本文提出的基于 YOLOv8 的语义 SLAM 系统和基于金字塔池化模型的语义通信算法在性能上取得了显著提升,但其在资源受限的嵌入式平台(如无人机、无人车的车载处理器)上运行时仍存在功耗高、计算延迟大的问题。未来研究应进一步关注模型的轻量化与硬件优化,例如通过网络剪枝、知识蒸馏、低比特量化等技术压缩模型规模,降低计算复杂度,从而在保持较高精度的前提下显著提升推理速度。同时,可以探索与 GPU、FPGA 及专用 AI 芯片的深度适配优化,以实现软硬件协同设计,真正兼顾系统的实时性与能效比,为其在战场等资源受限场景中的实际应用奠定基础。(2)目前 RYD-SLAM 系统主要针对动态环境中具有自主运动能力的目标进行识别与处理。然而,战场环境复杂多变,除自主运动目标外,还存在大量受外力驱动而产生运动的物体,如人员驾驶的车辆、被推动的装备等。这类物体虽不具备自主运动能力,但在战场环境中同样会对建图精度产生显著影响。因此,后续研究可进一步探索非自主运动物体的识别与滤除方法,建立更完善的动态目标分类与处理机制,以提升系统在复杂战场环境中的适应性和鲁棒性。(3)目前本文提出的基于金字塔池化模型和双重损失函数的语义通信算法受编码器-解码器工程实现的限制,神经网络的输入输出张量尺寸固定,无法实现动态压缩率调节。这种固定结构难以适应不同应用场景对压缩率的差异化需求。因此,后续研究可重点改进语义通信算法的网络架构设计,探索支持可变输入输出尺寸的编码器-解码器结构,使系统能够根据信道条件、任务需求等实际情况动态调整压缩率,从而提升算法在复杂应用场景中的灵活性和适用性。(4)复杂环境下的鲁棒性提升。在现实的战场环境中,光照条件、气候变化以及电磁干扰等因素往往远比实验室环境更为复杂和极端,现有系统在这些情况下的表现仍有待加强。未来研究可尝试引入多传感器融合策略,将视觉信息与激光雷达、毫米波雷达、IMU 等多源传感数据进行深度融合,借助互补特性提升系统在弱纹理、低光照及强干扰条件下的鲁棒性。此外,还可以结合深度神经网络的自适应特征提取能力,动态调整特征权重,从而增强系统在非结构化环境中的适应性。这不仅有助于提高无人装备的导航与建图精度,也能够在突发情况下维持系统的稳定性与可靠性。(5)跨模态语义通信。目前的语义通信研究仍主要集中在图像任务上,而未来智能作战体系必然涉及多模态数据的交互与传输,例如图像、语音、文本、传感器信号等。未来的研究可探索跨模态语义通信的设计与实现,研究如何对多源异构数据进行联合压缩、编码与传输,并在接收端实现语义层面的有效恢复。特别是在战场等复杂环境下,语音与图像的联合传输可为指挥控制系统提供更完整的态势感知能力,而文本与传感器信号的融合则能够显著提升任务执行的准确性。跨模态语义通信不仅能够最大化利用有限带宽资源,还能确保不同任务所需的核心语义信息得到优先传输,从而在多源信息融合与共享方面发挥重要作用。(6)群体智能协同。随着无人集群作战概念的提出与发展,未来战场上的无人系统往往不再是单一作战单元,而是多个智能体协同完成任务。在这一背景下,如何实现基于语义 SLAM 与语义通信的群体智能协同,成为值得深入研究的重要方向。一方面,可以探索分布式语义地图的构建与共享机制,使多个智能体能够在不同视角下同时构建并更新战场环境的全局语义地图;另一方面,还需研究群体智能体在任务分配、路径规划与动态交互中的语义通信机制,以确保不同智能体之间能够高效协同、互补感知,最终提升整体作战效率与鲁棒性。这一研究不仅对智能作战体系具有现实意义,同时也对群体机器人、灾害救援及智慧交通等领域的发展具有重要的推动作用。
参考文献 略
相关文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.