DOI : 10.11992/tis.201811009
一种改进的深度学习的道路交通标识识别算法
何锐波1,2,狄岚1,梁久祯3
(1. 江南大学 人工智能与计算机学院,江苏 无锡 214122; 2. 中国电子科技集团公司第二十八研究所,江苏 南京 210007; 3. 常州大学 信息科学与工程学院,江苏 常州 213164)
摘    要:针对复杂的环境,结合图像预处理与深度学习神经网络,提出了一种道路交通标识识别算法。该方法不仅利用图像分割技术,而且利用卷积神经网络模型对道路交通标识进行了更准确的识别。首先,通过调节光照影响、去除复杂背景、数据增强和归一化等批量预处理操作,形成一个完整的数据集;然后,结合squeeze-and-excitation 思想和残差网络结构,充分训练出自己的卷积神经网络模型;最后,将优化的网络模型用于道路交通标识的识别。实验结果表明,该方法使训练时间缩短了12%左右,识别精度可达99.26%。
关键词:道路交通标识识别;图像分割;卷积神经网络;去除复杂背景;数据增强;归一化;压缩和激励网络;残差连接
中图分类号:TP391.4      文献标志码:A      文章编号:1673−4785(2020)06−1121−10
中文引用格式:何锐波, 狄岚, 梁久祯. 一种改进的深度学习的道路交通标识识别算法[J]. 智能系统学报, 2020, 15(6):1121–1130.
英文引用格式:HE Ruibo, DI Lan, LIANG Jiuzhen. An improved deep learning algorithm for road traffic identification[J]. CAAI transactions on intelligent systems, 2020, 15(6): 1121–1130.
An improved deep learning algorithm for road traffic identification
HE Ruibo 1,2,DI Lan 1,LIANG Jiuzhen 3
(1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China; 2. The 28th Research Institute of  China  Electronics  Technology  Group  Corporation, Nanjing  210007, China; 3. School  of  Information  Science  and  Engineering,Changzhou University, Changzhou 213164, China)
Abstract : This study proposes a road traffic identification algorithm based on image preprocessing and deep-learning neural networks for complex environments. The proposed method uses not only the image segmentation technology but also the convolutional neural network model to more accurately identify the road traffic signs. First, a complete dataset is obtained via batch preprocessing operations,
including illumination effect adjustment, complex background elimina-tion, data enhancement, and normalization. Next, the convolutional neural network model is sufficiently trained based on the combination of the squeeze-and-excitation network and residual network structure concepts. Finally, the optimized network model is used to identify the road traffic signs. The experimental result shows that the proposed method re-duces the training time by approximately 12% and that the recognition accuracy can reach 99.26%.
Keywords : road traffic identification; image segmentation; convolutional neural network; complex background elimina-tion; data enhancement; normalization; squeeze-and-excitation network; residual connection
道路交通标识的探测和检验在快速发展的智能交通领域受到了广泛的关注,其含有的限速、限行、限高提示、车道方向的指示等提示信息,为
道路交通的通行效率和通行安全提供了保障,对其内容的研究具有重要意义。
现今有许多针对路标的检测方法,如:采用不同彩空间[1-3]
进行匹配检测的方法,对形状及轮
廓[4-6]进行分割提取的方法,或融合形状与彩特
[7]
的检测方法、或采用深度学习、神经网络有
收稿日期:2018−11−11.
基金项目:江苏省研究生科研与实践创新计划项目(KYCX18_
1872).
通信作者:狄岚. E-mail :******************.
第 15 卷第 6 期智 能 系 统 学 报
Vol.15 No.62020 年 11 月
CAAI  Transactions  on  Intelligent  Systems
Nov. 2020
关知识进行检测的方法[8-10]。以彩空间为模板的检测方法最早由Yang等[11]提出,通过提取R层信息,构建待选模板,对路标图像进行粗略分割;因YCbCr彩空间[12]具有受亮度变化影响较小的特点,采用依据图像Cb、Cr分量进行图像分割;提取形状特征模板的检测识别方法最早由Piccioli等[13]提出,后逐渐改进为SNCC算法[14]。现今采用多尺度的算法来识别检测,如马尔科夫随机场和基于贝叶斯的[15]、基于特征点采样和OSPA距离的[16]识别检测路标的算法,这些算法虽然在速度和准确率上有着特有的优势,但却有着严苛的限制条件,缺乏普适性。深度学习模型可以看作由多个人工神经网络层组成[17],通过构建含有多个隐层的神经网络模型,将低层特征通过逐层非线性特征组合变换,形成更加抽象的高层特征表达。加深模型网络是常用于提高检测识别准确率的方法之一,但随之而来会出现“退化”问题。He等[18]就提出了ResNet (residual neural network),缓解了“退化”现象,但并没有解决梯度爆炸问题。WMW团队提出了SENet (squeeze-and-excitation networks)模型[19],使用特征通道融合的方式,通过建模展现特征通道间依赖关系,从而强化有用特征并抑制无用特征。本文结合SENet和ResNet模型的原理,取各自优点,使用较小的网络层数来达到较高的识别水平。
因此针对上述存在的问题,本文所做的工作是:
1)提出了将HU不变量与彩空间多尺度相结合进行处理的方法,减少光照影响,并除去复杂背景,降低无用特征被学习到的几率;
2)通过旋转数据增强及归一化操作,对小型数据集进行增强,满足网络训练要求,提高识别准确率;
3)结合SE网络和残差网络结构,构建了自己的网络模型。同时,通过调整相应的参数以适应路标图像的特点,采用浅层网络模型使训练时间得到大幅减少,保证具有较高识别准确率。
1  图像预处理
1.1    数据集的光照处理
环境因素会给交通标识的图像采集工作带来很大的负面影响,从而造成识别困难。本文从RGB和YCbCr两个不同的颜空间对图像进行阈值划分,从而实现对图像的预处理,降低环境因素干扰。RGB彩空间模型通过构建红、绿、蓝3个通道的笛卡尔坐标系,来表示彩图像,通道的取值范围为[0,1]。Y C b C r彩空间较RGB彩空间能显示图像整体的亮度信息。将RGB图像转换成YCbCr空间表示的具体转换公式[20]为
Y∈[85,200]
经过空间换算,经过大量实验得到图像亮度阈值在内较为正常,通过图像增强等方式对阈值外图像进行处理。通过RGB彩空间的叠加或删减来对图像进行增强,具体效果如图1所示,对曝光不足图像的处理公式为
式中k为一个可调节参数。
(a) 原图(b) Y 空间(c) 图像增强
图 1    曝光不足图像增强
Fig. 1    Insufficient exposure image enhancement
R=R−k(1−R)·R k
对于过曝图片的增强公式,是一个可调节参数,实验效果如图2。
(a) 原图(b) Y 空间(c) 图像增强
图 2    过曝图像增强
Fig. 2    Overexposure image enhancement
车标志识别图片大全图片1.2    特征匹配
数字图像处理中,通过提取轮廓边界及形状特征进行分割是图像识别领域的一种常用的方法。本文整合交通标识图像的共有形状特征进行特征提取,降低神经网络在数据集训练时的无用特征学习。图3所示为交通标识形状特征图。
·1122·智 能 系 统 学 报第 15 卷
图 3    交通标识形状特征图
Fig. 3    Traffic-sign shape feature chart
通过形态学的开闭操作降低图像中的噪声,
后用最大类间方差法寻图像阈值,以阈值为界
灰度图像转换为二值图像;最后使用孔洞填充提
取图像特征形状。图4为操作示意图。
(a) 原图(b) 开操作(c) 闭操作(d) 最大类
间方差
(e) 孔洞填充
图 4    图像形状特征提取
Fig. 4    Shape feature extraction
(p,q)
在取得图像的形状特征后,可通过对比轮廓
矩[21]的方式判断形状相似度。轮廓的矩
定义为
p=1,2,···q=1,2,···f(x,y)
式中:;。对于离散图像,
其阶标准矩[22]定义公式为
p+q阶中心矩定义为
¯x¯y
ηpq=µpq/µr
00
r=(p+q)/2+1
式中和代表图像的重心,归一化的中心矩定
义为,其中,。
M1M7
通过二阶和三阶归一化中心矩可以构造出
7个不变矩 ~ :
这7个不变矩构成了一组特征向量,通过将
交通标识图像与标准轮廓图像形状进行特征向量
的匹配,形成mask掩膜,进行路标特征的提取。图5
表示mask掩膜的匹配生成及数据集图片的特征
提取去背景。
(a) mask 掩膜
(b) 特征提取
图 5    掩膜与特征提取
Fig. 5    Mask and decontextualization
1.3    归一化与数据增强
128×128
本文采用三次样条插值的方法[23]将深度学习
模型所需的训练集归一化处理到的尺寸
大小。对小于尺寸的图片,根据深度学习模型的
特性,可以通过图像的几何变换(如平移、旋转、
尺度拉伸、对比度调整以及颜变换)进行数据
增强;对于大尺寸的,则采用均值缩减降低图像
尺寸。本文对数据量较少的进行旋转变换来扩充
数据集。
2  模型与算法
2.1    卷积神经网络结构
随着人们对神经网络的深入探索研究,衍生
出了名为深度学习的思维理念,其中较为常用的
叫卷积神经网络模型。其核心思想是通过反复
的迭代,逐层反向调节网络中的权重参数来最小
化损失函数同时提高识别率。为解决参数多、复
杂度高等问题采用权值共享策略,而其稀疏连接
的特性提高了并行处理能力及误差的容忍程
度。卷积层(convolution layer)、池化层(pooling
layer)和全连接层(Full-connection Layer)是卷积
神经网络的主要构成部分;卷积神经网络结构示
意图如图6。
第 6 期何锐波,等:一种改进的深度学习的道路交通标识识别算法·1123·
2.2    局部响应归一化与残差连接
文献[24]针对梯度爆炸问题,提出了一种局部响应归一化的思想,为提高网络模型的泛化能力减少过拟合程度,采用竞争机制,增大局部特征值的差距分化;文献[25]提出一种恒等映射拟合的方法优化深层网络的训练学习。局部响应归一化(local response normalization) 如图7所示:借
鉴侧抑制思想,利用附近几层对特征中间层进行
x ,y (x ,y )N  位置的输出; 表示该层中核的总数。
(      )2
a x,y
j −2a x,y
j −2a x,y j −1a x,y
j +1a x,y
j +2
a x,y j
b x,y
j
a x,y
j (      )2a x,y
j −1(      )2a x,y j +1(      )2a x,y
j +2a x,y
j (    )2÷
00
(                  )β
k  + (  )·∑•
n α−
图 7    局部响应归一化示意图
Fig. 7    Local response normalization diagram
H (x )=F (x )+x F (x )=H (x )−x F (x )=0H (x )=x F (x )≈0H (x )x 图8为残差连接示意图,为降低梯度爆炸问题,简化训练学习过程,利用数学运算把式
转化成  的思想,其中
当  时 ;若 ,则只考虑 与  的相差部分,残差连接用此思想,保留了学习到的深层特征,又简化了层级梯度。
权重层
权重层
+
)=F (x )+x x ReLU 恒等x
图 8    残差连接
Fig. 8    Residual connection
2.3    Squeeze-and-Excitation 模块
F tr :X →U ,X ∈R H ′
×W ′
×C ′
,U ∈R H ×W ×C F tr V =[v 1v 2···v C ]
v C U =[u 1u 2···u C ]深度学习模型的改进方法中,许多都从空间维度进行考量;而SENet(squeeze-and-excitation networks)通过使用特征重标定方法,不引入新的空间维度并考虑特征通道间的关系来进行特征通道融合。Squeeze-and-Excitation 可以被任何形式如: 的运算定义,本质是个计算模块,把  视为一种卷积运算,让
表示滤波核的集合,其中  为第
c 层滤波的参数。输出结果可以被表示为 ,其中
u c =v c ∗X =
C ′∑s =1
v s c ∗x s
v c =[v 1c v 2c ···v C
c
]X =[x 1x 2···C ]v s
c v c 式中: 和 (为了简化符号,省略了偏差项),其中  是一个二维空间内核, 中包含了通道与通道之间的相互依赖关系。
图9是Squeeze-and-Excitation 模块思想的直观图。
输入层
卷积操作池化操作
全连接操作
...(卷积-池化-卷积操作)
输出层
C 1: 特征层
C n +1: 特征层
S 1: 池化层
S n : 池化层
图 6    卷积神经网络结构
Fig. 6    Structure of the convolutional neural network
·1124·
智 能 系 统 学 报
第 15 卷
X X
~U F sq  (·)F ex  (·,W )F sxale  (·,·)
H H F tr H ′
W ′
C ′
C
C
1×1×C
1×1×C
W
W
图 9    Squeeze-and-Excitation 模块Fig. 9    A Squeeze-and-Excitation block
2.4    基于深度学习改进的路标识别算法
通过整合上述理论与公式,优化网络结构、调节模型参数、结合Squeeze-and-Excitation 与残
差连接思想,形成本文的算法,具体流程如图10:
1)对数据集进行特征提取及亮度值批量预处理操作;
2)对数据集进行归一化及数据增强操作;3)结合Squeeze-and-Excitation 模块及残差连接思想,调节参数优化网络模型结构,构建自己的网络模型,并对训练集进行充分训练学习;
4)利用训练好的模型结构对任意交通标识图像进行识别检测,验证模型算法。
光照处理
充分训练测试
测试集
完整数据集
改进的卷积神经网络
训练好的交
标识卷积模型
局部响应归一化
整合残差连接和S q u e e z e -a n d -E x c i t a t i o n 模块
去背景
归一化数据增强
图 10    基于深度学习改进的路标识别算法流程
Fig. 10    Improved road sign recognition algorithm flow using deep learning
3  实验结果与分析
15×15250×250(128×128)实验采用德国交通标识标准数据库(GTSRB),其包含39 209张训练集路标图像及12 630张测试集路标图像,共有43类;以及比利时交通标识数据库(BelgiumTSC),其包含4 590张训练集图像及2 520张测试集图像,共62类。数据集中的图像大小从  到  不等,通过对训练集进行归一化和数据增强,得到增强后的Belgi-umTSC 训练集含图像6 272张,GTSRB 的训练集含图像51 989张,图像大小统一为 。实验所用电脑型号为Dell Precision T7910,中央处理器为E5-2600v4八核,内存大小为32 GB ,图形处理器为NVIDIA QUADRO M2000,具有4 GB 显存,使用软件为MATLAB2016b 及VisualStudio
2010,并采用Caffe 框架[26]
,为减少对比实验误差,将非对比项参数固定,如初始学习率设置为0.001,训练集图像一次处理量设为100,测试集图像一次处理量为10,优化算法为随机梯度下降法(stochastic gradient dscent, SGD),学习率下降函数为step 函数,momentum 值为0.9。模型的好坏通过损失函数来衡量,当损失函数值趋于平稳则代表模型已充分学习。
整合Squeeze-and-Excitation Networks 思想和残差连接到经典AlexNet 网络模型中进行对比实
验。表1为经典网络及本文模型训练时间表。图11为模型层级及参数设定,图12和图13为不同深度模型在BelgiumTSC 和GTSRB 两数据集上的实验结果,迭代次数设置为30 000,是多次实验抽取的结果展示,通过实验可得准确率与网络层级并非线性正相关关系,因为梯度爆炸问题,导致实验层级增加到10层之后模型开始无法收敛。
表 1    训练时间(比利时数据库)
Table 1    Training time(BelgiumTSC)
模型名称训练时间(±10 min)
5层LeNet 模型  1 h 25 min AlexNet    1 h 30 min
8层网络结构模型
2 h 残差网络  6 h SENets    4 h 40 min 本文网络模型
2 h 20 min
本文的网络模型结构如图14所示,分别为与经典的网络进行原始数据、数据增强及预处理操作不同训练
集的对比分析。表2和表3给出了多次实验下不同网络模型的准确率及损失值。由表格实验结果横向对比可知,对数据集进行归一化处理、数据增强操作以及预处理操作能防止过拟合现象,增加模型的识别准确率;同时通过实验结果纵向对比发现残差连接及SENet 的思想均能
第 6 期
何锐波,等:一种改进的深度学习的道路交通标识识别算法
·1125·