小型微型计算机系统Journal of Chinese C o m p u t e r Systems 2021年6月第6期 Vol.42 No. 6 2021
廖璐明,张伟,王亚刚
(上海理工大学光电信息与计算机工程学院,上海2_3)
E-mail :w z h a n g@usst. edu. cn
摘要:针对现有的交通标志识别算法在识别率和识别速度等方面存在的不足,在空间不变性方面还可以进一步利用的问题,提出一种基于空间变换网络和注意力机制的交通标志识别算法.首先将交通标志图片经过数据增强,然后输入到空间变换网络 中,使得图片具有空间不变性,经过卷积层提取特征和池化层降维,提取图片抽象语义信息进行分类,在模型中加入改进的注意 力机制模块,在通道和空间两个维度对特征图施加注意力机制,实现交通标志的准确快速识别.最终实验结果表明,在公开的德 国交通标志数据集上,在43个类别12630个测试集上达到99. 80%的识别率,平均识别时间只需0. 29ms.
关键词:卷积神经网络;注意力机制;交通标志识别;深度学习;空间变换网络;特征图
中图分类号:T P391文献标识码:A文章编号:1000-丨220(202丨)06-1262^05
Traffic Sign Recognition Based on Attention Mechanism
L I A O L u-m i n g,Z H A N G W e i,W A N G Ya-gang
(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093, China)
Abstract:A i m i n g atthe problemsexisting in the shortcomings of traffic sign recognition algorithms in recognition rate and speed,and i t can be further used in space invariance,a traffic sign recognition algorithm based on space transformation network and attention m e c h­anism is proposed. Firstly,augmentation the traffic sign image,then i t is input into the spatial transformation network,w h ich m a k e s the i m a g e space invariant. After extracting features from the convolution layer and dimensionality reduction f rom the pooling layer,the ab­stract semantic information of the i m age is extracted for classification,and the improved attention m e c h a n i s m m o dule i s added to the model. T h e attention m e c h a n i s m is applied to the feature m a p in the channel and space dimensions to realize the traffic sign accurate an d fast identification of traffic signs. T h e final experimental results s h o w that the recognition rate is 99. 80%and the averagerecogni- tion time is only 0. 29m s on 43 categories and 12630 test sets of G e r m a n Traffic Sign Recognition Benchmark.
K e y w o r d s:convolutional neural network ;attention m e c h a n i s m;traffic sign recognition ;deep learning ;spatial transformer networks ;feature m a p
i引言
无论是在自动驾驶方面还是在髙级驾驶辅助系统(A d­
vanced Driving Assistance S y s t e m,A D A S)方面, 道路交通标志 信息的获取都是必不可少的一部分.近年来随着我国车辆不 断增加和道路交通系统不断完善,智能交通系统发展迅速,它 在交通信号检测、车辆监测等方面广泛应用.交通标志识别作 为核心技术之一,可以准确、实时的识别交通标志并做出提醒 或决策,避免交通事故发生,实现安全驾驶111.
2012年开始,深度学习蓬勃发展,以卷积神经网络的为
基础单元的深度学习模型,在计算机视觉,自然语言处理和语
音等方面相对于传统的机器学习方法有着更好的实时性和准 确性.应用卷积神经网络进行交通标志识别一直是研究热点.
传统的机器学习方法识别交通标志分为两步,先对数据 进行特征提取,然后进行识别,A y〇U bEllahy
ani[2]等使用图像 的方向梯度直方图和H I S数字图像模型来提取特征,分类器 采用随机森林和支持向量机.在德国交通标识数据集得到了较好的结果.文献[3]使用交通标志的二值模式特征进行训 练,采用A d a B o o s t141分类器,但是该算法只能在少数类别交 通标志上使用.基于神经网络的算法相对于人工提取图像特 征的方法取得更好的结果,文献[5]基于InCepti〇n V3的迁移 学习[6]方法在微量数据集上取得%%的结果;文献[7]通过 加权极限学习机和A d a B o o s t融合优化,通过加权最优表决得 到最优分类器,在德国交通标志数据集上识别率达到99. 12% ;文献[8]融合图片的多尺度特征,增加低层特征的利用率,识 别率达到99. 25% ;文献[9]通过对特征进行深度重构和权重 分配,识别率达99. 32%.
传统的图像特征提取加机器学习的方法,存在识别率低,特征设计复杂等缺点[m].虽然基于卷积神经网络的方法可以 实现端到端的交通标志识别,但是目前的算法存在模型参数 多,网络复杂的问题,识别率也有待提高.针对上述问题,本文 结合空间变换网络(Spatial Transformer n e t w o r k,S T N)!11■和注意力机制提出一种结构简单,参数量少的卷积神经网络模 型,该模型在德国交通标志数据集上的识别率达到99. 80%.
收稿日期:2〇2C M)M)3收修改稿日期:2〇2(M)7-13基金项目:国家自然科学基金项目(11502145 )资助.作者简介:廖璐明,男,1994年 生,硕士研究生,研究方向为计算机视觉;张伟(通讯作者),男,198丨年生,博士,副教授,研究方向为最优控制及其应用;王亚刚,男,1967年 生,博士,教
授,研究方向为系统辨识及过程控制.
廖璐明等:基于注意力机制的交通标志识别1263 6期
与现有算法相比在识别率和识别时间上达到最优.
2相关算法
2.1空间变换网络
空间变换网络可以增加图像处理模型的鲁棒性,使模型 具有空间不变性.当目标发生诸如旋转、偏移等转化后,模型 依然能给出正确的结果.当交通标志发生放大、旋转、平移等 变化后,模型仍然能够对其正确分类,卷积神经网络中的池化 机制使得神经网络具备很少的尺度不变性,但仅依靠池化操 作无法满足某些情况下模型对于较大的不变性的需求.关注重要的通道特征.
C B A M(Convolutional Block Attention M o d u l e).丨3]结合了 空间(spatial)和通道(channel)注意力机制模块,可以轻松嵌 人到已有的卷积神经网络结构中进行端到端的训练.C B A M 结构改进了 S E N e t的通道注意力机制,并且增加空间注意力 机制.C B A M结构如图2所示,从图中可以看出通道和空间 注意力模块是独立的,结构简单,但功能强大,网络中加人C B A M结构实际上是对特征图在通道和空间层面做微调.
图2卷积模块的注意力机制模块
Fig. 2 Convolutional block attention m o d u l e
图1空间变换网络
Fig. 1Spatial transformer network
空间变换网络的核心是对输入图像做仿射变换,变换矩 阵的6个参数通过神经网络模型学习得到.空间变换网络结 构如图1所示,作为独立的模块,使用时很方便地嵌人到已有 模型的结构中.从图中可以看出,输人t/可以是图片和特征 图,它由本地网络(Localisation N e t w o r k),网格生成器(Grid Generator)和采样器(S a m p l e r)3部分组成.本地网络回归变 换参数0(2x3矩阵),0是仿射变换矩阵的6个参数.网格生 成器根据变换参数0做矩阵运算,以目标图V的所有坐标点 为自变量,以0为参数,得到输人图U的坐标点.假设特征 中每个像素的坐标的每个像素坐标为乂),空 间变换函数r8为二维仿射变换函数,对应关系为:
!;;)T^G,)=Ae ■〇\\^13'
(A
y\(i)
其中0,3控制图像平移,u12,e21控制图像的旋 转、伸缩.
采样器利用采样网格和特征图作为输入.采样器保证了空间变换网络自适应变换后输出图像的准确性,建立输出 与输人上所有像素点灰度值联系.采样公式表示为:
^=i i u^A(2)
n m
其中,A = m a x(0,l - lx:- ml )m a x(0,l - ly; - nl),e
w表示输人图像,V E尺"'x〃表示变换后的图像,//',
表示采样网格的高和宽,C控制输入输出通道数不变.
2.2 C B A M模型
人工神经网络的设计灵感来源于生物的神经网络行为特 征,注意力机制是人工神经网络模仿生物神经网络的经典案 例.神经网络中的注意力机制指在全局信息中重点关注对当 前任务有益的区域,如通过局部信息鸟喙分辨一只鸟.在视觉 任务中S E N e t[l2]是注意力机制的代表.S E N e t模块创造性地 关注
通道之间的关系,在神经网络训练过程中自动学习到不 同通道特征的重要程度,对特征图每个通道施加不同的权重,
C B A M中的通道注意力模块对比S E N e t增加全局平均池化分支提取特征信息,结构如图3所示,对输人的特征图 F,对每个特征图做全局平均值池化和全局最大值池化,分别 经过全连接神经网络(多层感知机),全连接层的输出维度和 特征图F的通道数相同,接着对两个输出执行e l e m e ntwise加 操作,s i g m o i d激活函数将值压缩到0和1之间.得到通道层 面的注意力特征图M    e.将M t和特征图F做e l e m entwise乘法 操作,得到经过通道注意力机制微调后的特征图.
T Channel Attention Module
^P u,    c MaxPool
feature F
㊉E
Shared M L P
Channel
Attentio
M c
图3通道注意力模块
Fig. 3 Channel attention m o d u l e
C B A M中的空间注意力模块结构如图4所示,输人为通 道注意力模块输出的特征图F',首先对特征图F做基于通道 的全局最大值池化和全局平均值池化,得到两个和特征图r 相同宽高,通道数为1的特征图,如图4所示,将这两个特征 图在通道维度叠加.经过卷积操作,降维为1个通道.再经过 s i g m o i d将值压缩到0和1之间,生成空间层面的注意力特征 图M s.M s和特征图F'做乘法,得到最终的特征图.
图4空间注意力模块
Fig. 4Spatial attention m o d u l e
2.3标签平滑
多分类问题对类别向量进行独热编码(one-hot vector)
1264小型微型计算机系统2021 年
对于长度为n的数组只有一个值为1其余都为0,1所在位置 代表物体的类别.独热编码使得模型容易过拟合,模型过于相 信预测的类别.为了解决这个问题,文献[14]提出了标签平 滑(Label Smoothing Regularization)对数据集的标签进行优化.将类别概率很小一部分分给其他类别,对分类正确做了惩 罚.标签平滑公式如下:
= (1 ~e)x y+e x u(3)其中为标签平滑后数据标签J为数据o ne-h o t标签,e 为平滑因子,《是人为引人
的一个固定分布.
3交通标志识别算法
3.1基于注意力机制的交通标志识别模型
本文提出的基于注意力机制的交通标志识别模型由空间 变换网络、卷积层、池化层和改进的注意力机制模块组成.图 5为改进的注意力机制模块.改进后的注意力机制模块将通 道注意力模块和空间注意力模块分开.其中,通道注意力模块 和空间注意力模块的细节可以从图3和图4中了解.
图5改进的注意力机制模块
Fig.5 Improved attention m e c h a n i s m m o d u l e 整个网络模型输人为统一大小的交通标志图片,首先经 过空间变换网络,图片经过伸缩,旋转和平移等变换,获得空 间不变性,接着卷积层和池化层交替出现,提取图片特征和降 维,在网络中加人通道注意力模块和空间注意力模块,输出对 应43个类别的交通标志.整体网络结构简单明了.空间转换 网络和两个注意力机制模块以模块化的方式嵌人到网络中,在模型训练过程中实现自学习.
表1网络参数表
Table 1N et wo rk parameter table
编号层级特征图
0输入层43 x43 x3
1S T N-
2Convl41 x41 x l O O
3Pooll20 x20x100
4Con v218 x 18 x 150
5Pool29x9x150
6Conv37 x7 x250
7Pool3  3 x3 x250
8Channel attention-
9Con v4  2 x2 x250
10Global pool1 x l x250
11Spatial attention-
12flatten250
13Output43
3.2网络参数
本文设计的网络模型共764945个参数.网络参数如表1所示.定义网络模型除去空间变换网络和注意力机制模块的 网络为B a c k b o n e.从表1中看出,本文模型的B a c k b o n e包括4个卷积层,3个池化层,1个全局平均池化代替全连接层,减 少模型参数.为了防止过拟合和加快训练,在每个池化层后面 加人 Batch Normalization 和 D ropout.网络最后接 Softmax 分 类器用于多分类.
4实验结果及分析
实验使用U b u n t u l8 . 04,64位操作系统,C P U为Inter
Corei7,2.6G H z,内存16G.显卡为英伟达G T X 1660 T i,显存 6G.Pytorch深度学习框架.M i n i c o n d a集成开发环境,Python3
编程语言.
4.1实验整体流程
实验整体流程如图6所示,首先将数据集划分为训练集、验证集和测试集,统一交通标志图片尺寸,数据预处理还包括 数据增强,模型建立完成后,设置初始超参数,在训练集训练 网络权重,验证集调整超参数,测试集验证模型泛化能力.
图6实验流程图
Fig.6 Experiment flow chart
4.2实验数据集及数据增强
本次实验使用德国交通标志数据集,包括35339张训练 图片,3870张验证图片,12630张测试图片,每张图片包含一 个交通标志.共43类交通标志,图片大小从15 x15到250 x 250不等,类别分布不均匀.图片尺寸统一为43 x43 x3.部分 交通标志图片如图7所示.
图7德国交通标志数据集
Fig.7 G e r m a n t r a f fi c sign recognition b en chmark
在实验中对训练数据使用数据增强,它可以增强模型的 泛化能力,减小过拟合.实验对训练集进行亮度、对比度、饱和 度、翻转、平移、旋转、随机裁剪等数据增强.扩充训练集到原 训练集的10倍.
4.3实验超参数设置
本文实验超参数设置为:初始学习率为0.001,总损失在 5个印o c h后不再减小则学习率减半.B a t ch Si ze为64,epoch 总次数为50次.D r o p o u t为0. 5.使用L e a k y R e L U激活函数. 优化器为 R a n g e r,Ranger 由R A d a m[i5!和 L o o k A h e a d116]组合 而成,
被认为是当前最好的深度学习优化器之一.
廖璐明等:基于注意力机制的交通标志识别
1265
99.1899.44
99.56
99.62V  99.804.5本文算法与其他算法比较
将本文算法和其它算法在德国交通标志数据集上的识别率进行比较,比较结果如表3所示.从表中看出,本文算法
表3
不同模型识别率对比
Table 3 C o m p a r i s o n  of recognition rates of different m o d e l s车标志图片
模型
识别率/%
基于inceptionV3迁移学习[5]
96H u m a n  Average [20 ]
98.84m s c n n
[,8]
98.89W E L M -A d a B o o s t [7]
99.12逐级细化分类算法[l 7]99.15多尺度卷积神经网络[8]99.25S T N +重构C N N 特征[9]
99.32Committee of C N N s [19 ]
99.46本文算法
99.80
99. 80%的识别率,比其他算法的识别率高3%以上,远远高 于人类98. 84%的表现.C o m mi t t ee  of  C N N s
算法不仅识别率
不如本文算法,而且该模型复杂,参数多,训练时间长.S T N  +
重构C
N N
特征的算法也用了空间变换网络,还有复杂的特
征重构网络,但识别率比本文算法低4. 8个百分比.
表4
不同模型识别时间对比 Table
4
Com p a r i s o n  of
recognition
time  of
different
models
模型
识别时间/m s
Committee of C N N s [19 ]
339逐级细化分类算法[|7]65多尺度卷积神经网络[8]
18m s c n n
[18]
11本文算法
0.29
表4列出了本文算法和其他算法在单幅交通标志平均识
6期
4.4实验结果分析
为了解空间转换网络,数据增强,标签平滑和注意力机制
对模型识别率的影响,进行多次消融实验.实验结果如表2所 示.从表2可以看出,模型B a c k b o n e 识别率为99. 18% ,超过 了文献[7]和文献[17]的结果,说明本文算法B a c k b o n e 的有 效性,但是识别率存在提升的空间;加人空间变换网络后模型 识别率达到99. 44%,识别率提高了 0. 26% ,表明空间不变性 在交通标志识别任务方面非常重要;进一步使用数据增强之 后识别率进一步提高,达到99. 56%,数据增强对识别率的提 高不大,这可能是数据增强中的几何变换(旋转,平移等)带 来的效果和空间变换网络对模型的效果存在部分重叠;标签 平滑对模型的识别率提高较小,但实验中证明对模型识别率 是有积极影响的;加人改进的注意力机制模块后识别率提高 了 0. 18% ,效果明显,最终识别率达到99. 80% .
表2
不同方法对模型识别率影响 Table
2
Influence  of
different
methods  on
mcxJel
recognition
r a t e
S T N  数据增强
标签平滑~
注意力机制~
识别率/%
别时间的对比.本文算法在测试集上B a t c h  S i z e 设置为4,单 幅交通标志图片的平均识别时间为〇. 29m s .远少于其他算 法,在实时性方面明显优于其他算法.满足自动驾驶等场景实 际需求.
5结束语
本文提出了一种基于注意力机制的交通标志识别算法,
该算法结构简单,参数少,结合S T N ,数据增强,标签平滑和 改进的注意力机制等方法,在德国交通标志数据集上实验,识 别率达到99. 80% ,单幅交通标志图片识别时间为0. 29m s ,在 识别率和识别速度方面对比其他算法有明显提高.本文探讨 了多种方法对识别模型的影响,可以对其他识别任务提供参 考.下一步可以在模型融合、识别错误样本针对性数据预处理 等方面进行研究,进一步提高算法识别率.
References :
[1 ] Xie Jin,Cai Zi-xing,Deng Hai-tao,et a l . Traffic sign classification
based on deep learning of image invariant feature[J]. Journal of C o m ­puter-Aided Design & Computer Graphics ,2017,29(4) :632-640.[2 ] Ellahyani A,Ansari M  E,Jaafari I  E. Traffic sign detection and rec­
ognition based on random forests [ J ]. Applied Soft Computing, 2016,46 :805-815 ,doi : 10.1016/j. asoc. 2015.12.041.
[3 ] Zhang Y a n -k u n ,H o n g  C h u -y a n g ,W a n g  Charles. A  real time rectan­
gular speed limit sign recognition system [J ]. C A A I  Transactions on Intelligent Systems,2010,5(6) :540-544.
[4 ] Schapire R  E,Singer Y. Improved boosting algorithms using confi-
dence-ratedpredictions[ J ]. Machine Learning, 1999,37 (3 ) : 80-91.
[5 ] L u  Jian,Chen Z e -m i n ,M a  C h e n g  - x  i an, et a l . Traffic sign recogni­
tion based on transfer learning [ J ]. Measurement & Control Tec h ­nology ,2019,38( 11) :81-85.
[6 ] Lin Jun-yu,Li Yi-xuan,Zhe n g  Cong-wei,et a l. Classifying flowers
and their diseases by using convolutional neural network [ J ]. Jour­nal of Chinese Computer Systems,2019,40(6) : 1330-1335.[7 ] X u  Y a n ,W a n g  Q u a n -wei,Wei Zhen-yu. Traffic sign recognition al­
gorithm combining weighted E L M  and AdaBcx>st [ J ]. Journal of Chinese Computer Systems,2017,38(9) :2028-2032.
[8 ] X u e  Zhi-xin,Zheng Ying-hao,Xiao Jian,et a l . Traffic sign recogni­
tion based on multi-scale convolutional neural network [ J ]. C o m ­puter Engineering, 2020,46(3) :
261 -266.[9 ] Z h u  J u n ,H o u  Zhen-jie,C h e n  Shu-yue,et a l . Traffic sign recognition
based on depth feature reconstruction and weight assignment [ J ]. Journal of Chinese Computer Systems,2019,40(9) : 1932-1939.[10] W a n g  W e i ,Z h a n g  T o n g ,W a n g  Xin. Survey of single image super­
resolution based on deep learning [ J ]. Journal of Chinese Computer Systems,2019,40(9) :1891-1896.
[11] Jaderberg M ,S i m o n y a n  K,Zisserman A,et a l. Spatial transformer
networks[ C  ]//Advances in Neural Information ProcessingSys- tems( I C O N I P ) ,2015 :2017-2025.
[12] Xie L ,W u  J,Lin Z,et a l. Recurrent squeeze-and-excitation context
aggregation net for single image deraining[C]//European Confer­ence on Computer V i s i o n (E C C V ) ,2018 :262-277.
[13 ] W o o  S ,Park J ,Lee J Y,et a l . C B A M :convolutional block attention
module[ C]//E u r o p e a n  Conference on Computer Vision(E C C V ),
2018:3-19.
V  V V  v v
v v v v
1266小型微型计算机系统2021 年
[14] Szegedy C,Vanhoucke V,Ioffe S,et a l.Rething the inception archi­
tecture for computervision [C]//Proceedings of the I E E E Confer­
ence on Computer Vision and Pattern Recognition ,2016:2818-2826. [15 ]Liu L,Jiang H,H e P,et a l. O n the variance of the adaptive learning
rate and be y o n d[C]//International Conference on Learning Repre­
sentation,Addis Abeda, Ethiopia,2020.
[16] Zhang M R,Lucas J,Hinton G,et a l. Lookahead optimizer:k steps
forward, 1step bac k[C]//33r d Conference on Neural Information Processing Systems,Vancouver,Can d a,2019.
[17] X u D a n,Z h a n g Jiang-li,Yu Hua-long,et a l. Coarse-to-fine algo­
rithm for traffic sign recognition [J ]. Journal of Data Acquisition and Processing,2018,33(3):163-170.
[18] Sermanet P,Lecun Y. Traffic sign recognition with multi-scale con­
volutional networks [ C]//Proceedings of U C N N' 11, San Jose, U S A:I N N S,2011:2809-2813.
[19] D a n C,Meier U,Masci J,et a l. Multi-column deep neural network
for traffic sign classification [ J ]. Neural Networks : T h e Official Journal of the International Neural Network Society ,2012,32 (1):333-338.
[20 ]Stallkamp J, Schlipsing M, Salmen J, et a l. Manvs. computer:
benchmarking machine leamingalgorithms for traffic sign recogni- tion[J]. Neural Networks,2012,32:323-332.附中文参考文献:
[1]谢锦,蔡自兴,邓海涛,等.基于图像不变特征深度学习的交通
标志分类[J].计算机辅助设计与图形学报,2017,29(4) :632- 640•
[3 ]张燕昆,洪初阳,W a n g Charles.实时矩形交通限速标志识别系统
[J].智能系统学报,2010,5(6) :540-544.
[5]卢健,陈,马成贤,等.基于迁移学习的交通标志识别[J].
测控技术,2019,38(11 ):81名5.
[6 ]林君宇,李奕萱,郑聪尉,等.应用卷积神经网络识别花卉及其病
症[J].小型微型计算机系统,2019,40(6):1330-1335.
[7]徐岩,王权威,韦镇余.一种融合加权E L M和AdaBoost的交
通标志识别算法[J].小型微型计算机系统,2017,38(9) =2028- 2032.
[8 ]薛之昕,郑英豪,肖建,等.基于多尺度卷积神经网络的交通标
志识别[J].计算机工程,2020,46(3) :261-266.
[9]朱军,侯振杰,陈树越,等.深度特征重构与权重分配的交通标
志识别算法[J]•小型微型计算机系统,2019,40(9) :1932-1939. [10]王威,张彤,王新.用于图像超分辨率重构的深度学习方
法综述[J].小型微型计算机系统,2019,40(9) :1891-丨896. [17]徐丹,张绛丽,于化龙,等.逐级细化的交通标志识别算法
[J].数据采集与处理,2〇18,33(3) :163-170.
《小型微型计算机系统》期刊简介
《小型微型计算机系统》创刊于1980年,由中国科学院主管、中国科学院沈阳计算技术研究所主办,为中国计算机 学会会刊.
创刊40年来,该刊主要面向国内从事计算机研究和教学的科研人员与大专院校的教师,始终致力于传
播我国计算 机研究领域最新科研和应用成果,发表高水平的学术文章和髙质量的应用文章,坚持严谨的办刊风格,因而受到计算机 业界的普遍欢迎.
《小型微型计算机系统》所刊登的内容涵盖了计算机学科的各个领域,包括计算机科学理论、体系结构、软件、数据 库理论、网络(含传感器网络)、人工智能与算法、服务计算、计算机图形与图像等.
在收录与检索方面,在国内入选为:《中文核心期刊要目总览》、《中国学术期刊文摘(中英文版)》、《中国科学引文 数据库》(C S C D)、《中国科技论文统计源期刊》、《中国科技论文统计与分析》(R C C S E),并被中国科技论文与引文数据 库、中国期刊全文数据库、中国科技期刊精品数据库、中国学术期刊综合评价数据库、中国核心期刊(遴选)数据库等收 录.还被英国《科学文摘》(I N S P E C)、俄罗斯《文摘杂志》(A J)、美国《剑桥科学文摘》(C S A(N S)和C S A(T))、美国《乌 利希期刊指南》(U P D)、日本《日本科学技术振兴机构中国文献数据库》(J S T)和波兰《哥白尼索引》(1C )收录.