基于改进Cascade R-CNN的交通标志牌识别

142传感器与微系统(Tmnsducer and Microsystem TechnologXs )2021年第45卷第5期

DOI 8 0. 83873/J. 8 000-6737(2021 )05-0°42-04

基于改进Cascode R-CNN 的交通标志牌识别*

收稿日期：231-09-24

*基金项目：国家自然科学基金资助项目(5 378333)

徐国整1周越2，董斌3廖晨聪1

(1.上海交通大学船舶海洋与建筑工程学院，上海220240 ； 2.上海交通大学电子信息与电气工程学院，上海22024/ ；

3.东南大学土木工程学院，江苏南京211189)

摘要：针对雨、雪、雾天等恶劣环境下，交通标志容易被遮挡，且目标较小，难以被高精度识别以及定位的问题，提出先粗检测再精确检测的策略，并采用改进的级联(Cascade)R-CNN ：优化锚设计、在线难例挖

掘和多尺度训练，同时用图像去雾和增亮算法进行数据增强，最后选用2个不同的骨干网络的模型进行融

合。结果表明：在基于虚拟仿真环境下的自动驾驶交通标志识别大赛提供的数据集上，提出的算法表现出优异的泛化能力和准确率，并在指标F1分数达到了 0. 9972，有效地克服虚拟场景中不同的天气状况和行

人状况等干扰因素，实现了道路周边交通标志牌的精确识别。

关键词：智能交通；交通标志牌识别；级联(Cascade) R-CNN

中图分类号：U495； TP39 1 文献标识码：A 文章编号：1 000-6737(2021 )05-0142-04

Tsffic signs recoonition based on imprwed Cascode R-CNN *

XU G poz /l // , ZHOU Yuo 2, DONG Bin 2, LINO Cheocong 1

(1. Schooi of Nawi Architecture , Ocenn and Civil Engineering , Shanghai Jiaotong University , Shanghai 22024/, China ； 2. Schooi of Electsnic ,Information and Electricoi Engineering ,Shanghai Jiaotong University ,Shanghai 200240,China ；

3. Schooi of Civil Engineering , SoutOenst University , Nanjing 211189, China )

Abstsct : Aiming a- the problem that in harsh enviroxments such as min , snow , fog ； etc ； traffic signs are easily UVchei , and the target is small - which is difficult to be accumwly ide/ified and accumwly posiFoxei , o strategy of

coarse to fine(C to F) is pmposeO and an improvs cascade regiox with coxvolu/oxal neural network features ( R-

CNN ) network is adapwi, which includes impmvei anchor design, ox/ne difficult case mining and muVi-scak

training. A- the same /me ； the image endaxcement is peLormei by image b/ghtness endaxcement and defogging algokthm. Finally ,twc diVerent bachboxe network mobels are usel for fusion. The results show that the pmposeO algokthm peLorms excellent generalizakox abi/ty and accuracy in the daWset providei by the agWmakc driving

traffic sign recognitiox compe/tiox basel ox virtual simdatiox enviroxment and scomi 0. 9972 ox the index Fl. It

can effec/vely overcome the interference factors such as diVerent weather couditioxs and peiesWian coxditioxs in

virtual scenes and accurately identWp the traffic signs around the road.

Keywords : inwlligent tmnspoka/ox ； traffic signs recognitiox ； cascade regiox with CNN features ( R-CNN)

0引言

交通标志牌检测是指在车辆行驶过程中利用计算机视

觉技术采集交通标志并实现自动检测与识别。现有的基于

深度学习的交通标志牌检测算法可以分为两大类：一类是

基于回归方法的目标检测算法，另一类是基于候选框提取

的目标检测算法。前者的典型代表有YOLO ［1］和SSD J ］, 它们直接对图像进行划分网格，在每个网格对应位置回归

出目标位置和类别信息，检测速度非常快，但是在检测精度

上略有欠缺。后者的典型代表是Faster R-CNN 23，它先通

过候选区网络(region proposal network ,RPN )提取可能存在交通标志的候选框，再用r -cnn J ］对其进行检测，使检测

精度得到很大提高，但是在较高ITU ( inWrsec/ox over

unxn)阈值下仍然无法满足该任务的精度要求2］o 文

献［6］提出级联R-CNN 结构，使得能够在高IDU 阈值的情

况下训练出高质量的检测器。

本文基于虚拟仿真环境下的自动驾驶交通标志识别大赛提供的数据集，针对雨、雪、雾天等恶劣环境下以及行人

状况等干扰因素，交通标志容易被遮挡，且目标较小，难以

被高精度识别以及定位的问题，本文首先对数据集进行了

去雾、增亮增强；并基于改进的Cascade R-CNN ，提出了先

第5期徐国整，等：基于改进Cascade RPNN的交通标志牌识别143

粗后精和模型融合的思想和设计了检测算法框架。本文提出的算法模型较其他模型有着显著的优势，能高精度精准的检测并识别复杂环境下道路周边交通标志牌。

1模型算法

1.6算法流程设计

本文提岀的算法框架如图1所示，首先针对干扰因素对图像做了去雾和增亮的数据增强，然后基于由粗到精的策略，将第一个网络预测出的包含目标的小尺寸区域裁剪出来然后再放大，输入到两个分别基于ResnexU4和Hrnet J]的不同的骨干网络中重新训练并预测，最后将模型结果进行融合，输岀模型检测岀的交通信号灯的精确位置坐标以及类别。

图1本文提出的算法流程

1.2Cascade R-CNN算法

检测问题是分类和定位问题的结合，对于分类问题，可以根据标签直接计算损失，对于定位问题，现有目标检测模型的主要解决办法是回归，同时需要根据INU阈值来定义正负样本0OU的选择就会对训练和推断造成很大的影响。通常INU大于某个阈值会被假定为正样本，当这个阈值设置偏低，易产生噪声；设置偏高则会降低检测器的性能：一方面导致正样本数量的急剧减少，会导致训练过程过拟合，另一方面训练和推断两个阶段的阈值不同会导致不匹配。Cascade RPNN采用多个阶段训练，能很好地解决这个问题。

本文采用的Cascade RPNN具体结构如图2所示。首先输入（input）图像，经过提取特征的骨干（bacUbone）卷积神经网络，本文粗检测模型中采用的是ResneW6，精确检测模型中分别采用的是ResnexU61和Hrnet。为了获得更加鲁棒性的高层语义特征，在卷积神经网络之后，本文加上了特征金字塔网络（feature pyramid network,FPN）J]；然后使用RPN生成候选区，对于候选框下采样层（RW）本文采用了对齐候选区下采样层（RW Align）,Rol Align的准确率显著优于普通的RW pwhng[]，最后经过接头网络（H）再分别进行分类（C）和框回归（B）。对于RPNN部分，本文进行了三阶段扩展，检测器的级联阶段越深，对相似假阳性就有更多的选择性。三个阶段的IOU取值依次为6.6, 0.7J.5，利用三个串联INU阈值训练，每经过一个检测器，候选区的INU都更高，样本质量更好，当使下一个检测器阈值设置得比较高时，也不会出现过多的样本被判为负样本，从而避免过拟合问题。

图2Cascade R-CNN结构示意

1.3锚设计

Cascade RPNN通常是在PASCAL VOC数据集上进行训练评估，默认采用三种高宽比的（0.5,1J）的锚比例，而在交通信号标志的检测中，目标通常比较小，同时高宽比分布比较固定，本文统计了数据集的全部被检测目标的高宽比，主要分布在0.6~54之间。故本文采用了（0.6,1, 54）的锚比例，这样的锚设计能更好地在区域生成网络中更好地生成适合目标大小的候选区域。

1.4在线难例挖掘

本文在每个阶段的RPNN部分使用在线难例挖掘（online hard example mining,OHEM（的方法：针对模型训练过程中导致损失值很大的一些样本，重新训练它们。将原图的所有候选区输入到RoPDlign中，计算它们的分类损失和框回归损失，根据损失从高到低排序，以及利用极大值抑制，来选出前K个候选区，将K个候选区重新输入RoPDlign 中训练，并将梯度残差回传给卷积层，从而更新整个网络。

1.7多尺度训练

对于小目标而言，单一尺度的训练难以检测出小目标，而利用多尺度训练，可以提高模型的鲁棒性。多尺度分为训练阶段多尺度与测试阶段多尺度，其中训练阶段多尺度又分为图像金字塔与特征金字塔。

本文在训练阶段采用图像金字塔方法，将多种分辨率的图像送到网络中识别，训练时每隔一定轮回随机选取一种尺度训练，这样训练岀来的模型鲁棒性强，其可以接受任意大小的图片作为输入。

1.2由粗到精

交通信号牌检测的数据集中目标较小而图片尺寸较大，容易导致目标难以检测到或者因为IOU达不到6.0的阈值要求而被过滤掉。并且，图片中包含大量无用信息，而这些又占用了大量的计算资源。因此，本文采用由粗到精

144

传感器与微系统第2卷

的策略，在相同的计算资源下，即先利用一个骨干网络深度

和宽度较小的模型来检测全尺寸图片(3 200像素X800像

素)，得到目标框大致坐标信息，再根据此坐标信息裁取一个包含目标的小尺寸区域，将其适当放大后输入一个骨干

网络深度更深且宽度更宽的模型中重新训练并预测。

2数据增强

针对数据集中存在大量雾天和在夜晚拍摄导致亮度较

暗的图片中的交通标志无法辨识的情况，本文采用暗通道去雾与神经网络增亮的方法对数据进行了增强。

2. 0暗通道去雾

本文采用暗通道去雾算法对图片进行去雾处理，计算

机视觉和计算机图形学中，图像去雾模型如下

(3)=/(3))3)+^4(1 —-(3))

(1)

式中"巧为待去雾的图像为无雾图像，4为全球大气光成分,0 3 )为折射率(大气传递系数)。

去除雾霾的目标是从中/(X )恢复丿())A 和对于)))

个像素的彩图像⑵，存在3N 个约束和4N +3个未知数。等式中的第一项称为衰减项，第二项被称为空气光，空

气光在散射光的作用下产生颜转变，透射率随场景深度呈指数变化，如果能够恢复转化关系，就能将场景深度恢复

到未知的范围。在无雾图像中，每一个局部区域都很有可

能会有阴影，根据Dark Channel P/cr 理论20]，每一个局部

区域都很有可能存在至少一个颜通道会有很低的值。如

下式所示，通过求出每个像素RGB 分量中的最小值，存入

一副和原始图像大小相同的灰度图中，然后再对这幅灰度

图进行最小值滤波便可得到暗通道。7表示彩图像的每

个通道,82”表示以像素)为中心的一个窗口。

严d ()) =min ( min 7(p))

(2)

e 2

) c e ,，S ，r!

算法步骤如下：

)估计传输率)假设大气光4已知，则

广⑵)=0))广⑵)十1 —(3)

(3)

2) 取两次最小值运算

-1 .厂(2)) (( ) - • 7(*) 2 c — ) =£(

车标志图片3*€

2(”) C 4

*€

2(”)C

2—0”))

(4)3) 代入暗通道先验假设，令暗通道为0，即

7xd (3)=min ( min 7(p ) =0

(5)

*e 2” c e ,,a A!

2求岀窗口内折射率0) - . / .厂(2)\£(3) ： s min (min —

*€2(

”) C 4

s e [06 ] a =0. 95

(0)

5)计算去雾以后回复图像73)=m a g ⑵)A °)+4

⑺

当投射图03)的值很小时，会导致72)的值偏大，从而

使得图像整体向白场过度，因此一般可设置一阈值(，当

03)值小于0时，令0”)=0，本文中所有效果图均以0 =

0. 9为标准计算。如图3所示，本文的去雾算法能够很好去除图片中的雾霾，且在一定程度上增加了图片对比度。

图3暗通道去雾效果

2.2神经网络增亮

针对数据集中较暗样本以及去雾以后图像变暗的问题,

本文提出FCN LightWet ，采用训练一个全卷积网络(fuOy cox

volu/oxal networks , FCN )来直接处理快速成像系统中的低亮

度图像。纯粹的FCN 结构可以有效地代表许多图像处理算法。如图4所示，在图片的每个通道上将空间分辨率降低

50 %。原始低分辨率数据以0 X6排列块组成；通过交换相邻

通道元素的方法将36个通道的数组打包成6个通道。此

外，本文消除黑像素并按照期望的倍数缩放数据(例如，x

10或x350)。将处理后数据作为FCN 模型的输入，输出是

一个包含)通道的图像，其空间分辨率只有输入的55 %。

本文将两个标准的FCN 结构作为模型的核心架构，分别是多尺度聚集网络(multi-scale conW0t aggregakox network ,

CAN )和 U-net 。

图4 FCN LightNet 技术路线

本文网络输入是原始的较暗的原始数据，在RGB 空间

中的真实数据是相应的光照条件较好的图片数据。在每次

训练迭代中，随机裁剪一个51像素x512像素的小图用于

训练并利用翻转、旋转等操作来随机增强数据。效果如图5

所示。

图5 FCN LightNet 增亮效果

3实验结果与分析

3.0 数据集

数据由虚拟仿真环境下的自动驾驶交通标志识别大赛

主办方天津泰达科技发展集团有限公司采集，全部来源于

虚拟场景环境下自动驾驶车辆采集的道路交通数据，场景

中会有不同的天气状况(雾天、雨天、雪天等)和行人状况

第5期徐国整，等：基于改进Cascade RPNN的交通标志牌识别145作为干扰因素，采用仿真环境下车辆摄像头采集数据，图片

大小为6206像素x1700像素。

3.2实验环境与参数设置

本文的模型训练和测试均基于上海交通大学学生创新

中心GPU计算平台的Lmux系统进行，使用了4块5G显

存的NVIDIX GeUo/c GTX1786Ti GPU。训练的初始学习

率设置为6.61，在第4个轮回的迭代之后降到6.061，在第

3个轮回的迭代之后降到6.0061，之后以6.0061的学习率

继续迭代4个轮回停止。优化函数采用的是随机梯度下降

法，动量、衰减率分别设为6.9000,6.0061，在PYTORCH架

构上进行实验。

3.3模型评估与实验结果

图像检测需要使用矩形框将目标检测物体选中，根据

检测结果和目标框之间重叠比率大于6.90，视为合格候

选，预测的实例人和真实实例B之间的IOU计算公式为

IOUgB）=MB}

HUB!

（7）

式中A为被预测的实例;B为真实实例;OU为交并比。

根据图片中汽车道路标志牌名称与候选名称是否一致判断图像内容是否匹配。为全面评估模型的有效性，必须同时检查召回率(—call)和精度(precision)，检测结果的召回率和精确率的计算公式为

TP+FN

（9）

式中R为召回率;TP为真正例，指模型将正类别样本正确预测为正类别;FN为真负例，指将负类别样本正确地预测为负类别

TP+FP

（5）

式中P为精确率;FP为假正例，指将负类别样本错误地预测为正类别。

当精确率和召回率评估指标都为最优时是最理想的情况；但一般情况下，精确率高，召回率就低，反之，召回率高，精确率就低、故本文采用综合评价指标F/，来综合考虑精确率和召回率，从而更合理地评估模型的性能,F/的计算公式为

F=2PR21)

F l PR21)

通常来说，图的大小增大，能提高检测的准确率，故在本文的实验中，采用了一张卡训练一张图的策略。本文提出的改进算法记为OurPascabe RPNN，并与其他模型结果对比如表/所示。模型/和模型2的输入为原图，模型6-模型6是采用CW F的思想之后，将目标裁减出来之后，再次进行训练，输入为裁剪并放大之后的小图；模型/和模型2的骨干网络均采用了ResneWO，没有采用更深更宽的网络的原因是原图的尺寸是6206像素x1806像素，比较偏大，采用ResnetS O的骨干网络，GPU已经占用了73%以上，模型6-模型5则是采用了C to F的策略之后，同样的计算资源之下，采用了更深更宽的网络；模型1-模型3是没有经过改进的模型，模型4-模型5均采用了本文的改进策略。

表1模型计算结果对比

模型类别F/得分模型1:faster mnu_—sneW6（原图）059452

模型2:cascahe—nu_—sneW3（原图）0.90134模型6:cascahe—nn_ResnexW31__2x4/8.99336

模型4：ouwcascaUe—nn_ResnexW71_C2x4b0.9961/模型5：ouwcascaUe/np_HrpeWp__480599592

模型6：ouwcascaUe—nn_ensezbm8.5645实验结果表明：模型1的得分是显著低于模型2的得分，其原因是因为当OU>6.9的框才算目标被检测到，级联RCNN结构体现了巨大的优势，它让检测到的目标定位更加的精准；而模型4-模型6的得分均高于模型2超过1%，验证了本文提出的由粗到精检测的方法在高精度检测方面的优势；模型4和模型5其他参数均相同，但是采用ResnextU61和Hrnet2p两种不同的提取特征的骨干网络，这两个模型的性能表现相似；模型5是将模型4和模型5进行了融合，结果表明两个不同的骨干网络的模型进行融合，模型将表现更加的优异，泛化能力也能会更好。

4结论

本文基于Cascade RPNN的网络思想设计了一种更适用于复杂环境下交通标志识别的算法系统，在验证集上F1指标取得了0.0772的分数，实现了对交通标志的精准检测和识别，并得到如下结论6)当对检测目标的定位准确率要求高时’Cascade RPNN的优势显著高于Raster RPNN;

2)针对交通信号牌检测数据集的特点，对图片进行去雾和增亮处理，适当修改Anchor mSv，并结合难例挖掘、多尺度等方法，能显著增强模型的检测效果;3)当被检测图片大小远超过被检测目标的大小时，采用本文提出的由粗到精的方法，能在节省计算资源的前提下还能大幅提升检测的准确率;4)将性能相近，但是网络结构不同的模型进行融合，能更好提高模型的泛化能力和检测的效果。

参考文献：

[1]王超，付子昂.基于YOLO o模型的交通标识检测算法J].

计算机应用,8558(2)631-283.

[2]LID W,ANGUELOV D,ERHAN Djtah SSD:Single shot multi

box Setector[C]//Proceedings of the2013Europeas Ccwfe—sce ox Computes ViNw(ECCV),Amsterdam J OD：21—67.

J]潘卫国，陈英昊，刘博，等•基于Fotx-RCNN的交通信号灯检测与识别[]•传感器与微系统,2013：36(3)：57-53:130.

(下转第103页)

第5期贺军义，等：基于改进IMM运动模型的室内定位算法153

表2数据是对所有采样点的滤波结果求误差均值和误差标准差，分析表中数据可以得出无论是滤波精度还是滤波稳定性SIMM算法都有一定的优势。

综上所述相比于传统IMM算法，显然文中提出的SSMM算法滤波效果更优。

表2两种算法对移动标签定位精度比较

方向

估计误差均值/Pm估计误差标准差/P m

观测值IMM SIMM观测值IMM SIMM ” 6.915906 4.)9.998.992,98

* 6.53662 4.50562 4.21 3.47

4结束语

对于机动目标而言，目标运动状态的快速转变会导致滤波算法运动模型匹配失效，短时间内会急剧增加滤波误差。为提高跟踪精度，一方面研究了如何减小初始定位误差，本文利用TDOA算法精度较高和计算复杂度较低的特点，有效降低了定位时产生的误差；另一方面研究了如何优化IMM算法的适应性和精确度，在传统IMM算法的基础上，结合Sx/er模型的自适应性特点，提出了SIMM算法，进一步提高了对机动目标的跟踪性能。实验表明，本文提出的算法能够有效降低目标在强机动运动状态下定位的误差。但算法仍然具有局限性，由于TDOA算法的特性，当实验在非视距环境下定位误差较视距环境下会变大，该问题将在下一步工作中解决。

参考文献：

[1]谷红亮，史元春，申瑞民，等.一种用于智能空间的多目标跟

踪室内定位系统[J]-计算机学报,2037(9)：133-1311[2]LAN],LI X R.EquivakiWmoPel argumeota/on for variablv-

structure mul/pV-mobel estimation[]].IEEE Traus on Aero

(上接第145页)

[4]GINSHITK R,DONAHUE J,DARRELLAND T,V al.Rich feature

hiemrchies for object detection and seoian/c segme/atWn[C]〃2014IEEE ConUvuce on Computer Vision and Patteru Recogui-

tWn A TEE,2914833-597.

J]武林秀，李厚杰，贺建军，等•基于深度学习的交通标志检测方法研究大连民族大学学报,293,29(5)83—81. [6]CAI Z,VASCONCELOS N.Cauabe R-ENN:Delving into high

quality object detection[C/〃PvceelXgs of2313IEEE

Confevuce on Computer Vision and Patteru Recogni/on,IEEE,

231：6)4-612.

[7]XIE I GIRSHITK R,DOLLAR P,et al.AggvgaWl redduai

Wansformakous for deep ueoral uetwords[C]〃PmceelXgs of 2317IEEE Interyakonal Confevuce on Computer Vision and

Pattebf Recognition,2317:1492—)03.

[8]SUN K,XINO B,LIO D,c-al.Deep highk-resolu/on vpvu/a-

space and Ekctronic System,20),2(4)：1—53.

[3]LI X R,ZHANG Y M.Mul/pk-mdoel esUmaUon with va/able

sWucture-qak V:Likem-mdoel set algo/thm[Z] •IEEE Traus on Aerospace and Ekctronic System,200063(2)：443—446. [4]LI X R,CITKOV V P,RU Z Mul/pV-mobel estimation with vari

able structum-paL VI:Expect-mdoel argumeotakon[Z]•IEEE Traus on Aerospace and Ekctronic Syste

m,2005,41(3):853—867-

J]刘扬，马钊，吴钦章•引入多速率模型的变结构机动目标跟踪2]四川大学学报(自然科学版)68),49(1)821—10-[6]杨永建，樊晓光，王晟达，等.基于自适应CS模型的IMM算

法系统工程与电子技术691863(5)：977-963.

[7/李思嘉，曹菲，林浩申•基于IMM-CCKF的海上机动目标跟踪算法研究[J].计算机仿真65365(13)888-204-

[8]刘义，赵晶，冯德军，等.高精度惯导速度信息辅助的弹目相

对运动模型构建方法2]电子学报6311,39(9)8257-2211.

[6]夏楠，王珏，李博•基于粒子滤波和交互多模型的移动定位方

法J]电子学报,23187(1)：17—233-

[1]徐莉莉，范洪，胡军国•基于DTW的室内指纹定位方法J]

传感器与微系统A53,37(11)84一37.

21]谢地，鲁照权，丁浩峰，等.基于超声波测距的高精度室内定位系统[]•传感器与微系统69363(13)88-31.

[1]李华亮，钱志鸿，田洪亮.基于核函数特征提取的室内定位算

法研究2]•通信学报,2017,38(0：)9-137-

作者简介：

贺军义(1982-)，男，博士，讲师，研究领域为计算机测试与控制技术，嵌入式测试与控制技术，惯性测试与控制技术等,E-mail: gkmaiV@13。

郭凯(334-)，男，硕士研究生，研究方向为嵌入式系统与计算机测控技术。

-0kaming for humau pose estimation[C]〃PmceelXgs of 2313IEEE Confemoce on Computer Vision and Patteru Recogui-

Wu(CVPR),231：5698—5738.

[6]LIO.DOLLAR P,GIRSHITK R,et al.Feature pyramid uet-

words for object deWctWn[C[//PvceelXgs of2317IEEE Inter-

nakonal Confevuce on Computer Vision and Patteru Recogui-

Wn,2917813—2125.

[13]LIO H B,YANG J,WU Z P,et al.A fast single image deOazing

methob based on dark chanuel p/er and v/uex theory J].Acta Automatica SXica,201,22)：164—378.

作者简介：

徐国整(195-)男，硕士研究生，研究方向为智能监测, E—mail：5uozheogxp@。

廖晨聪(1990-)男，通讯作者，助理研究员，研究领域为智能监测检测,E-mail:billabay@ 。

基于改进Cascade R-CNN的交通标志牌识别

发布评论取消回复

最近发表

热门文章

标签列表