第28卷第5期中国惯性技术学报V ol.28 No.5 2020年10月Journal of Chinese Inertial Technology Oct. 2020 文章编号:1005-6734(2020)05-0586-09                                      doi.10.13695/jki.12-1222/o3.2020.05.004
基于图像语义分割的无人机自主着陆导航方法
尚克军1,2,郑辛1,王旒军2,扈光锋2,刘崇亮2
(1. 北京理工大学自动化学院,北京 100086;2. 北京自动化控制设备研究所,北京 100074)
摘要:针对复杂电磁作战环境下无人机自主着陆应用场景,提出了一种基于深度卷积神经网络图像语义分割的无人机自主着陆导航方法。首先设计了轻量高效的端到端跑道分割神经网络RunwayNet,在特征提取部分使用空洞卷积对ShuffleNet V2进行改造,得到输出特征图分辨率可调的主干网络,并利用自注意力机制设计了自注意力网络模块,使网络具备全局跑道特征提取能力;然后设计将网络浅层丰富的细节、空间位置信息与顶层粗略、抽象的语义分割信息相融合的解码器模块,获取精细的跑道分割输出结果;最后设计了基于跑道分割区域的边线提取和位姿解算算法,实现相对位姿信息的解算。
仿真和机载飞行实验结果表明,基于嵌入式实时计算平台可实现无人机着陆全过程跑道区域的精准分割识别,作用距离达到3 km、成功率接近90%,解决了着陆过程中跑道识别盲区和实时性等问题,显著提高了复杂环境下无人机着陆的鲁棒性。
关  键  词:图像语义分割;机场跑道检测;自注意力模块;位姿解算
中图分类号:V249.3文献标志码:A
Image semantic segmentation-based navigation method for UA V
auto-landing
SHANG Kejun1,2, ZHENG Xin1, WANG Liujun2, HU Guangfeng 2, LIU Chongliang2
(1. School of Automation, Beijing Institute of Technology, Beijing 100086, China; 2. Beijing Institute of
Automation Equipment, Beijing 100074, China)
Abstract:A UA V auto-landing navigation method based on deep convolutional neural network image semantic segmentation is proposed for the application scenarios of UA Vs auto-landing in complex electromagnetic combat environments. Firstly, a lightweight and efficient end-to-end runway detection neural network named RunwayNet is designed. In the feature extraction part ShuffleNet V2 is reformed by using void convolution to get a trunk network with adjustable output feature graph resolution. A self-attention module based on the self-attention mechanism is designed so that the network has global ru
nway feature extraction capabilities. Secondly, a decoder module is designed by fusing the rich details, the spatial location information of the low-level layers with the rough, abstract semantic segmentation information of the high-level layers to obtain a fine runway detection output. Finally, an algorithm of edge line extraction and pose estimation based on the segmented area of runway is proposed to realize relative pose calculation. The results of simulations and airborn experiments show that the precise segmentation and recognition of the runway area during the landing of the drone can be realized by the embedded real-time computing platform.
The operating distance can reach 3 km and the success rate is close to 90%. The problems of runway identification blind area and real time in the landing process is solved, and the robustness of UA V landing in complex environment is significantly improved.
Key words: image semantic segmentation; runway detection; self-attention module; pose estimation
收稿日期:2020-07-11;修回日期:2020-10-15
基金项目:青年科学基金项目(2019-JCJQ-ZQ-034)
作者简介:尚克军(1977—),男,博士研究生,从事惯性导航、视觉导航、数据融合技术研究。E-m
ail:***************联 系 人:郑辛(1968—),男,教授,博士生导师,从事导航、制导与控制系统研究。E-mail:****************
第5期尚克军等:基于图像语义分割的无人机自主着陆导航方法                          587 无人机安全着陆是其重复飞行的关键,在着陆过程
中无人机与着陆平台间的相对位置、姿态等导航信息的性能直接决定着陆的成败,目前,导航信息的获取主要借鉴有人飞行器中采用的差分卫星(如美国JPALS)、仪表、微波、雷达等测量方式,需地面设备辅助,且在复杂电磁环境中易受干扰,影响着陆安全。
随着视觉导航、机器学习等技术的发展,基于视觉传感器的着陆导航技术利用机场跑道等特征,可在运动过程中确定无人机与机场跑道间的相对位姿等导航信息,具有结构简单、非接触、自主性强、成本低和近距精度高等优点,引起了广泛研究和关注[1]。Barber等人[2]通过设置地面特殊视觉标志(Visual Marker)成功实现了微型固定翼无人机在固定和移动目标平台的降落;德国航空航天中心(DLR)的研究人员通过在车顶上布置数个光学二维码,成功将一款翼展3 m,重20 kg的小型固定翼无人机(Penguin BE)降落在以75km/h速度行驶的汽车车顶上[3]。Gui等人[4]通过在无人机上安装可见光摄像机和一个940 nm的滤光片,在跑道理想着陆点后放置4盏发射波长为940 nm的红外发光二极管(LED),实现复杂背景条件下的安全着陆。Miller 等人[5]利用跑道前视图像,使用图像配准(Image
Registration)算法计算无人机与跑道之间的相对位姿;Vezinet等人[6]基于跑道的参考图像执行图像配准以检测点特征进行着陆引导;Liu等人[7]将跑道作为视觉标志,提出了一种着陆视觉导航P3P问题唯一解的求解方法,实现了无人机与跑道之间六自由度位姿解算;慕尼黑工业大学(TUM)和布伦瑞克理工两所大学研制的C2Land系统[8],采用模板匹配方法通过可见光和红外图像进行跑道识别,并于2019年5月在钻石DA42飞机上成功完成了一次完整的全自主着陆试验。
基于视觉传感器的着陆导航应用的前提是对着陆过程中获取的图像进行实时、准确、可靠的特征检测识别,但是受环境变化(如季节变化、光照等)、着陆过程尺度变化剧烈和计算复杂度等因素影响,视觉着陆导航的鲁棒性与实时性不能保证,极大地制约着视觉着陆相对导航技术的工程应用能力。
本文提出了一种基于深度卷积神经网络图像语义分割的无人机自主着陆导航方法,以机场跑道为视觉特征,设计构建了轻量高效的端到端跑道分割神经网络RunwayNet,通过主干网络、自注意力网络模块和解码器等设计实现对跑道区域精细地分割,在此基础上,通过跑道分割区域的边线提取,实现无人机与着陆跑道间相对位置和姿态信息的高精度、高可靠测量。系统流程如图1所示,本文导航方案在特征识别准确性、鲁棒性等方面展现了很大的优势,为无人机视觉可靠自主着陆
特征边线
检测
X
Y
Z
图1  系统流程图
Fig.1  System flow diagram
1  跑道分割网络设计
跑道区域定义为跑道左右边线、起始斑马线和终止斑马线之间的区域,如图2中红区域所示。设计分割网络时,在重点兼顾计算实时性的同时,提升网络的分割精度和多尺度特征提取能力。
x
l
l
r
l
s
l
p
O
y
v
p
图2  跑道区域定义
Fig.2  Definition of runway area
如图3所示,跑道分割网络(命名为RunwayNet)
采用编码器、解码器结构,编码器由主干网络和自注意
力模块组成。
Fig.3  RunwayNet network architecture
主干网络(Network Backbone)为采用空洞卷积[9](Atrous Convolution or Dilated Convolutions)进行改造的轻量级ShuffleNet V2[10],对输入的图像逐步提取抽象语义特征,最终输出464通道OS=16(输出步长,Output Stride)的特征图;自注意力模块通过位置注意力和通道注意力两个子模块对主干网络输出的特征图进行特征变换,以捕获特征图空间维度和通道维度的相
588                                          中国惯性技术学报                                      第28卷
似性信息,提高网络的感受野和特征提取能力。解码器模块通过跳跃连接和双线性插值上采样实现网络浅层丰富细节、空间位置信息与顶层粗略、抽象语义分割信息的融合。最后,使用11⨯卷积将解码器输出特征图映射为两通道(分类类别数),上采样8倍后在通道维度取最大值(ArgMax )获得最终的分割结果。 1.1  主干网络构建
以轻量级ShuffleNet V2"1"⨯版本为基础构建主
干网络。为获得精细的语义分割结果,同时提取抽象的语义信息,要求主干网络在输出较高分辨率特征图的情况下,顶层网络的感受野不能太小,而ShuffleNet V2输出Output Stride 为32的原始特征图不能满足要求,为此使用空洞卷积对ShuffleNet V2进行改造。
空洞卷积通过引入膨胀比率(Dilation Rate ),在常规卷积核中插入空洞来构造空洞卷积核,不同膨胀比率rate 的空洞卷积核如图4所示。空洞卷积不增加卷积核参数量和卷积计算量,在保持输出特征图尺度的同时增大卷积核的感受野,从而提升主干网络的特
(a) rate=1x1(b) rate=2x2(c) rate=3x2
图4  空洞卷积 Fig.4  Atrous Convolution
设常规卷积核尺寸为k k ⨯,引入的膨胀比率为r ,卷积层输入图像尺寸为h w ⨯,滑动步长(Stride )为s ,在边缘填充(Padding )零像素的圈数为p ,则等效的
空洞卷积核大小ˆk
及输出特征图的尺寸m n ⨯分别如下:
ˆ(1)(1)
2
(
1)(1)
/
1
2(
1)(1)/1k k k r m h p k k r s n w p k k r s ⎧=+--⎪
=+----+⎢⎥⎨⎣⎦⎪
=+----+⎢
⎥⎣⎦⎩ (1)
图5  主干网络 Fig.5  Network backbone
如图5所示,在进行主干网络设计时,去除ShuffleNet V2网络“Stage4”网络块后的池化层和全连接层,构建为全卷积网络(Fully Convolutional Networks ,FCN
),设置“Stage4”网络块中第一层步长为1,并将随后的三个网络层改造为膨胀比率为2的空洞卷积,在使卷积层感受野继续增大的同时,特征
图尺寸不再减小。最终主干网络输出
464通道Output Stride 为16的特征图,分辨率提高一倍。 1.2  自注意力模块设计
基于自注意力机制[11-16],利用跑道成图像素值的相似性、空间位置坐标的相似性和连续性,设计自注意力模块(Self-attention Module ),对跑道像素和空间位置的相似关系进行建模,在不需要外界信息辅助情况下通过特征图之间的特征变换,实现特征图空间维度和通道维度的大范围全局相似性信息的融合,从而提高网络语义分割精度。
如图6所示,设计位置注意力模块(Position attention Module )和通道注意力模块(Channel attention Module )对输入特征图进行特征变换,提取全局像素相似性和通道相关性信息;使用33⨯卷积核对两个模块输出进行操作后,直接与注意力模块输入特征图在通道维度进行拼接;使用11⨯卷积对拼接的特征图进行特征整合,通过迭代优化让网络自动选择特征,提高位置注意力和通道注意力特征融合得“自由度”;最后,使用失活概率为0.1的随机失活层,随机失活一些特征,避免网络对某些特定特征的过度依赖,增强模块的鲁棒性。在这个过程中,为减少梯度消失等现象以加快收敛速度,自注意力模块中每层卷积操作后均使用了批量归一化和ReLU 激活函数。
图6  自注意力模块 Fig.6  Self-attention module
1.2.1  位置注意力模块
理论上网络中深层的卷积核具有很大的感受野,更容易抽象出高级语义特征,但实验证明深层网络的实际感受野远小于理论值,导致全局特征缺失。位置注意力模块通过特征图之间的特征变换计算像素之间小型汽车网上自主编号申请
的全局相似性关系,建模特征图中局部特征的全局位置上下文信息,从而增大网络的感受野,增强网络的全局特征表达能力。
如图7所示,首先使用两路11⨯卷积压缩输入特征图的通道维度(不失一般性,未考虑网络训练时批量归一化“Batch”维度),第一路分支的通道压缩比为8,得到特征图为f ,第二路分支的通道压缩比为2,可保留较多的原始信息,得到特征图为g ;然后分两路对特征图f 进行特征变换,一路进行维度变换和转
第5期                      尚克军等:基于图像语义分割的无人机自主着陆导航方法                          589
置,合并高度和宽度维度,得到特征图1f ,另一路只进行维度变换,合并高度和宽度维度,得到特征图
2f ;接着对1f 和2f 进行矩阵乘法,消去通道维度
后使用Softmax 函数进行归一化,获得尺寸为
[,]H W H W **的注意力图;同时,对特征图g 进行维度变换,得到[*,/2]H W C 的特征图1g 。最后,将注意力图与特征图1g 进行矩阵乘法,将获取的全局相关性权值信息重新分布到原始特征图中,恢复特征图高度和宽度维度后,获得尺寸为[,,/2]H W C 的输出特征图。
[H*W,H*W
图7  位置注意力模块 Fig.7  Position attention module
1.2.2  通道注意力模块
一般情况下,深度卷积神经网络中顶层不同的通道会关注不同的分割类别,通道注意力模块利用相似的特征变换操作,在保留通道维度的同时,使网络具有全局通道相关性表达能力[17]。
如图8所示,首先使用11⨯卷积压缩特征表达,得到特征图h ;然后分三路对特征图h 进行维度变换或转置操作,分别得到尺寸为特征图1h 、2h 和3h 。对特征图1h 和2h 进行矩阵乘法,消去H W *维度,保留通道维度,得到特征图G 。为了防止训练期间的损失值不收敛
[15]
,对特征图G 中的像素点,i j G 按式(2)
进行处理,然后用Softmax 函数进行归一化,获得尺寸为[/2,/2]C C 的注意力图,其描述了通道之间的相关性,权值越大,通道特征相似度越高。
,,max()i j i j G G G =-          (2)
其中max()G 表示特征图中像素最大值,,i j 分别表示像素点坐标,,[1,/2]i j C ∈。
[C/2,C/2
图8  通道注意力模块 Fig.8  Channel attention module
最后,将注意力图与特征图3h 进行矩阵乘法,消去H W *维度,将全局通道相关性信息分布到原始特征图中,恢复特征图高度和宽度维度后,获得尺寸为
[,,/2]H W C 的输出特征图。
1.3  解码器设计
主干网络和自注意力模块编码了图像中丰富的语义信息,但输出特征图分辨率低,丢失了部分空间位置信息,设计解码器模块,使用上采样逐步增大特征图的尺寸,并使用跳跃连接融合主干网络浅层丰富的细节和空间位置信息,从而提取多尺度特征,恢复清晰的物体边缘,获得更加稠密、精细的语义分割结果。为降低解码器模块中卷积操作对网络实时性的影响,设计时使用了深度可分离卷积[18],错误!未到引用源。错误!未到引用
源。
(Depthwise Separable Convolution )。
深度可分离卷积首先使用33⨯卷积核(通常称为
“Depthwise Convolution”)在输入特征图上逐通道进行卷积运算,然后使用11⨯卷积(通常称为“Pointwise
Convolution”)进行通道关系映射。深度可分离卷积与
常规卷积的计算量之比如下:
onvolution
2
onvolutio depthwise c pointwise c 222n
11()11
i i o i o o i i o o o o k k c h w c c h w k k c c h w
k c c h w
k k c c h w k c c k c k ⨯⨯⨯⨯+⨯⨯⨯⨯⨯=
⨯⨯⨯⨯⨯+⨯⨯=
⨯⨯⨯⨯⨯+=+⨯
(3)
其中i h w c ⨯⨯为输入特征图尺寸,o h w c ⨯⨯为输出特征图尺寸,则i o k k c c ⨯⨯⨯为常规卷积核尺寸(o c 为卷积核个数),i k k c ⨯⨯深度可分离卷积逐通道卷积核尺寸,11i o c c ⨯⨯⨯为11⨯卷积核尺寸。由于通常卷积核尺寸远小于输出通道数,所以深度可分离卷积与常规卷积的计算量之比约为21/k ,当卷积核设置为33⨯时,深度可分离卷积约可减少8~9倍的计算量。
解码器网络结构如图3中所示,以编码器模块输出的16OS =特征图为输入,首先进行双线性插值2倍上采样,获得8OS =的特征图;然后引入主干网络中“Stage2”输出的相同空间分辨率特征图,并使用11⨯卷积对其降维3倍获得38通道浅层特征,将两路特征图拼接后,使用两层33⨯的深度可分离卷积整合细化深层和浅层特征,输出256通道8OS =的稠密特征图。
2  相对位姿解算 2.1  着陆过程成像分析
无人机着陆过程中跑道成像典型情况如图9所示,根据无人机与跑道相对距离的变化,将着陆过程分为A 、B 、C 三个阶段:
A 区:1l x K <,即1K 点之前,由于无人机距离机场跑道较远,跑道成像表现为点目标,如图9(a)所示,
590                                          中国惯性技术学报                                      第28卷
不进行边线提取,在视觉传感器坐标系内不能解算相对位置/姿态信息;
B 区:12l K x K < ,即K 1,K 2点之间,机场跑道完整成像为梯形目标,如图9(b)所示,在视觉传感器坐标系内可以进行跑道辨识,提取左右边线和起始线,获得高精度相对位置/姿态测量信息,并与惯性传感器导航信息进行融合,提高着陆导航信息的测量性能;
C 区:24l K x K < ,即K 2点和刹停点K 4点之间,
跑道成像不完整,如图9(c)所示,图像中无跑道起始线,可提取跑道的左右两条边线,视觉测量奇异,无
法获得唯一解,可通过惯性传感器导航信息、无人机
滑跑运动约束等辅助获取相对位置
/
姿态信息,
保持着
B
C
A
1
23
l
l
(a) 阶段 A (b) 阶段 B (c) 阶段 C
(a)  Stage A        (b)  Stage B          (c)Stage C
图9  无人机着陆过程中跑道成像 Fig.9  Runway images during landing process
基于跑道分割网络输出的分割图,通过跑道轮廓检测、空间矩计算、跑道边缘检测、候选线段提取、边
线筛选分类与拟合等步骤提取跑道左右边线和起始线(如图2所示),根据提取的跑道边线,分阶段计算无人机与机场跑道之间的相对位置和姿态参数。 2.2  边线提取与位姿解算
跑道边线提取流程如图10所示。
首先进行轮廓检测,以跑道分割网络输出特征图为输入,检测并计算所有轮廓面积,选取轮廓面积最大的作为跑道区域。根据跑道轮廓占比进行着陆阶段判断:设输入图像的宽和高分别是w 、h ,跑道轮廓宽和高w '、h '满足1/15w w '* 、1/10h h '* ,且跑道区域面积小于1150()w h *,认为处于A 阶段,否则认为处于B 、C
阶段。A 阶段只提取轮廓中心,不提取边线,B 、C 阶段提取边线。
随后计算跑道区域的空间特征。对阶段B 和C 的图像计算最大轮廓的零阶和一阶空间矩:
,,()j i ji x y x y
m p x y =⋅⋅∑          (4)
其中,(0,1)i j ∈,,x y 表示图像像素列坐标和行坐标,,x y p 表示图像像素值。
根据空间矩计算跑道轮廓的重心坐标m p (图11(a)中红圆):
10010000
,m m
x y m m ==          (5) 计算跑道轮廓的周长arc l 、轮廓最左侧点l p (图11
(a)中红)、最右侧点r p (图11(a)中绿)、最顶端点
t p (图11(a)中蓝)和最底端点b p (图11(a)中青)
Fig.10  Flowchart of runway edge line detection
然后进行候选线段拟合。采用Canny 边缘检测算子对跑道轮廓进行边缘检测后,使用概率霍夫变换进行候选线段拟合。在无人机着陆过程中,跑道区域由小到大尺度变化较大,为此假设B 、C 阶段跑道区域为等边三角形,则三角形边长13tri arc l l =*,使用跑道轮廓周长更新概率霍夫直线变换参数,累加器阈值
threshold 、最小线长min LineLength 、最大线距max LineGap ,如式(6)所示:
1101min 101max 15tri tri tri
threshold l LineLength l LineGap l ⎧
=⎪⎪⎪
=⎨⎪
⎪=⎪⎩
(6)
拟合得到的候选线段如图11(b)所示。
然后进行跑道边线筛选与分类。定义跑道区域中线为轮廓重心m p 和轮廓最顶端点t p 的连线,记其斜