修改稿收稿日期:2013-03-15
作者简介:李高林(1960-),男,高级工程师,主要从事汽车整车及零部件检测技术的研究和开发。
车载多媒体视频品质主观评价方法
李高林,郑华,范学
(深圳市比亚迪汽车有限公司汽车工程研究院,广东深圳
518118)
摘要:主要介绍车载多媒体视频品质的主观评价方法,详细阐述评价过程、评价项目、评价素材及实车评价案例。
关键词:车载视频;主观评价;单激励;评价素材中图分类号:U463.67文献标识码:A 文章编号:1003-8639(2013)10-0056-05Subjective Evaluation Method for Onboard Multimedia Video Quality
LI Gao⁃lin,ZHENG Hua,FAN Xue
(BYD Automobile Co.,Ltd.,Shenzhen 518118,China)
Abstract :The author mainly introduces the subjective evaluation method for onboard multimedia video quality,details the process,project,material and real car cases of the evaluation.
Key words :onboard multimedia video;subjective evaluation;single excitement;evaluation material
1
视频品质评价方法介绍
车载多媒体系统由DVD 播放器、车载移动数字电视(CMMB 或DVB-T)、AM /FM 接收机、GPS 导航等模块组成,共用液晶显示屏显示模块功能信息,见图1。在车载多媒体系统中,视频部分有DVD 播放器、移动数字电视等。用户在使用中主要关注DVD 播放器的视频品质是否满足个人的视觉要求。
视频品质评价方法有主观品质评估和客观品质评估两种。客观品质评估是采用信噪比(SNR)或均方误差(MSE)等指标对视频品质进行评价的,常用的客观品质评估方法分为全参考、部分参考以
及无参考客观品质评估方法。而人类视觉系统(HVS)对不同类型失真的敏感程度不同,且视频的统计数据易随多种因素的改变而改变,因此客观评价的结果往往与视频的主观品质不完全一致,不能很好地反映观看者的主观感受。
主观评价是直接利用观察者对被测系统图像(或视频序列)的主观反应来确定系统性能的一种测试。由于人(受众)是视频信息的最终接受端,影像所包含的信息最终由人来进行分析、识别、理解,所以主观评价比较合理,评价结果有说服力。
车载多媒体视频品质主观评价方法主要用于评价车载多媒体系统(DVD)视频主观品质,包括清晰度、度细节及亮度细节等。该评价方法可以替代客观测量(用视频/图像分析仪器分析测量视频品质),在产品研发阶段能及时发现问题,缩短了产品研发的验证周期,同时也为今后开发其他车型的多媒体系统视频部分的验证提供了一种快捷、准确的评价依据。
2评价方法———单激励连续品质主观评价方法
视频系统播放主观评价的测试素材(静态/动态的图像或视频序列),评价人员在有限的时间内观看所播放的测试素材,依据相应的评价要求进行评分。
这种测评方法与人眼日常的评测行为非常类似。在日常生活中,我们往往不可能对照着某一参考信息来对所观看的素材进行评判,这是因为在人类的记忆中,有某种与待评测素材对应的抽象参考信息。
图1
车载多媒体系统框图
. All Rights Reserved.
因此,当对某一个运动场景或者静态图像进行打分时,人眼能准确地判别该图像的品质。单激励主观评测方法不仅与人类的日常判别行为类似,而且评测过程相对其他方法比较简单,评测所需时间较短。
主观评价观看距离:因使用环境的不同,车载环境的观看距离为显示屏幕高度的5倍,即如果使用7寸或者10寸显示屏幕,则评价时的观看距离为:35~50cm。
2.1评价人员要求
1)评价人数:10人或以上,应包括男性、女性。2)评价人员的视觉生理要求:参与评价人员的眼部应没有任何疾病,如盲、弱之类。具有正常的视力(含校正视力)和觉。
3)评价人员需要理解评价用测试素材的静态图像和视频片段序列所要考察的项目属性。评价时不要过分关注图片或者视频片段的内容,因个人差异,不同的人对同一种显示内容有不同的看法。只考察系统还原评价内容的表现能力是否与个人的视频经验相吻合、接近性及差异性和所观看到的画面的清晰度、分辨率、彩还原能力等是否满足个人视觉感观要求。
4)独立评价,不能因他人的看法而改变自己对评价项目的思考与分析判断。应坚持自己对考察
项目属性的理解,评价时避免随意性,应在后续评
价方法的要求范围内给予公正的评价。2.2主观评价过程
2.2.1正式评价前演示培训
在每个测试评价阶段开始时,应向评价人员详细、正确地介绍评价方法和评分标度(表1)、存在的品质因
素以及静态图像和视频序列损伤类型(例如动态视频序列的暗背景),并进行评价演示示范。示范显示应该使用正式测试的图像或视频序列以外的图像或序列(虽然演示示范用的静态图像和视频序列不是评价中使用的,但应与正式测试中使用的图像或序列具有可比性)。
正式评价之前的演示示范(包括示范说明在内)时间一般不应超过30min。在正式开始评价之前,应引入3~5个“样本显示”(包括静态图像以及动态视频序列)来稳定评价人员的判端能力以及稳定性。评价数据不纳入评价结果数据统计中。从一
个显示评分到下一个显示评分均匀地进行。在评价阶段的主体部分中,为了检测相关性,评价周期可以重复,但要避免相同的评价用图像或视频序列在相继的评价周期中出现。
主观评价过程如图2所示,评价前示范流程如图3所示。
2.2.2示范阶段
在每个测试阶段开始时,要向每个评价人员详细、正确地介绍评价方法和评分标度以及静态图像或视频序列显示的顺序和时间,但不应出现影响评分结果的暗示。然后进行评分过程的示范。播放5幅不同类型的静态图像(包括人物、植物以及风景图像),用以说明彩饱和度、彩还原能力、亮度细节等评价属性。播放2段以上视频片段用于画面清晰度、高速运动状态下有无拖尾等说明。
在示范阶段中,评价人员不需要对播放的静态图像和视频序列进行打分。此阶段主要用来讲解静态图像和视频序列的播放过程以及评价内容。在示范阶段结束后,如果评价人员对评价过程有任何不清楚的地方都可以提问,试验组织者需要进一步作解释说明。2.3主观评价素材选取要求
在视觉信息材料中选取具有代表性的静态图像及视频片段,通过主观评价方式来考察系统对颜、运动预测与补偿、灰阶层次、清晰度、细节分辨能力的处理能力。选取的测试素材应包含不同编码参数条件下所产生的压缩静态图像以及视频片段。
测试素材分为专业性测试素材及非专业性测试素材,专业性测试素材包括标准的三原信号、灰度等级、复合测试信号等测试信号;非专业性测试素材应包括日常生活中常见的动植物、人物、食物、常见的活动场景片段以及电影片段等。2.4静态图像与动态视频序列选取要求
当评价的对象是静止的数字图像时,所选取的测试材料只需包含典型空间特征(物体的数目、纹理变换、形状及颜等)。而当评价的对象是动态视频序列时,还需要考虑时域上的特性。比如,为了测试某个压缩系统的性能,视频序列的空间、时域特性对品质评价具有重要的作用。因为序列的空
表1
5分制评分说明
评分等级
54321
主观感觉很好好一般较差很差
比亚迪汽车最新新闻干扰/缺陷可见度不察觉
察觉但不讨厌略为讨厌讨厌
非常讨厌
图2主观评价过程
图3
评价前示范流程图
. All Rights Reserved.
间、时域内容变化越剧烈,其压缩效率越低,在同等码率下所产生的失真越大。空域越大,表示每帧视频包含的边缘与纹理内容就越多,图像的空间结构越复杂,时域越大表示视频序列的运动越剧烈。
在动态视频序列的挑选过程中,所选择的视频序列应涵盖以下4种类型:①运动平缓但空间内容复杂的视频序列;②运动剧烈且内容复杂的视频序列;③运动平缓且空间内容较平滑的视频序列;④运动剧烈但空间内容变化较少的视频序列。2.5专业测试信号与非专业测试信号
专业测试信号应包括全红场信号、全绿场信号、全蓝场信号、全黑场信号、全白场信号、彩条信号(75%与100%两种)、清晰度复合测试信号(动态与静态)、水平及垂直灰阶等级测试图等测试信号。静态测试图像播放时间要求:实际评价时播放时间应大于10s。
非专业测试信号应包括运动的场景片段、不同地区的电影片段以及日常生活中接触较多的视频(如新闻节目、访谈节目等)等片段。动态播放时间要求:实际评价时运动场景片段播放时间应大于300s;利用DVD 格式的电影片段对视频系统进行评价时播放时间应在300~500s 之间。2.6主观评价项目
1)清晰度主要考察系统处理包含亮度/度、
静止/运动的大面积彩和细节丰富以及饱和度高的彩场景的清晰度。见图4。
针对静止物体与低速动态结合的自然景观下的视频解码效果确认。在用于主观评价时,视觉上要有自然景的感受,尤其是水、岩石、绿树交界处不能有失真的感觉。
2)人物肤处理能力主要考察系统对人物肤的处理与真实肤相接近程度、细节表现能力。见图5。
针对人物表现时的视频解码效果确认。用于主观评价时,脸部的立体感是否明显,化妆与未化妆部位的人体肤的显示是否自然,脸部周围的头发与背景之间的界定是否清晰。
3)运动估值/运动补偿能力主要考察系统处理包含亮度/度的物体复杂快速、随机运动和摄像机各种操作运动及场景快速切换的场景,特别是复杂快速运动的场景到大面积细节丰富场景的切换。见图6。
高速动态状况下的视频解码效果确认。在用于主观评价时图像播放流畅,画面转换应自然,关注画面的对比度、度以及亮度。
4)动态场景的运动预测与补偿主要考察系统的运动补偿效果、动态分辨能力、平滑度、运动图像有无拖尾现象等。见图7。
5)彩重现能力主要考察系统处理包含亮度/度、静止/运动的大面积彩和细节丰富以及饱和度高的彩场景。见图8。主要考察度信号的
解调角误差和同步稳定性。在进行主观评价时,主要考察颜是否分布均匀、偏淡或者偏浓。包括彩的饱和度、彩重现是否正确、颜过渡是否清晰、是否有颜干扰带,颜的分布均匀性。
6)颜过渡、度与亮度关系处理主要考察系统的度、亮度细节表现能力。见图9、图10。
主要考察度、亮度失真。在用于主观评价时主要看右侧的条纹在什么部位因条纹间的相互干扰而出现颜过渡干扰,产生模糊不清的现象。见图9。
五变化时的视频解码效果确认。用于主观评价时其度、对比度、亮度要适度,五变化时,颜变化要自然顺畅,不能出现因为颜间的干扰而造成视觉上有失真感出现。见图10。
7)动态视频细节处理细丝物体动态视频解码效果确认。在用于主观评价时主要关注细丝动起来不能有拖影,细丝之间不能因相互干扰而产生细丝模糊不清,画面失真的现象。见图11。
图4清晰度评价视频截图图5人物肤图
图6高速动态视频截图图8绿、紫、蓝、红(75%)
图9扫频信号图10
万花筒
图7
动态视频截图
. All Rights Reserved.
8)灰阶层次主要考察系统灰阶层次的表现能力、过渡处理能力。在用于主观评价时主要关注灰阶层次分明,有明显的层次变化过程,层次间变化没有干扰。层次过渡完全可以辨认。见图12。
2.7评价结果数据处理
首先要确认评价过程的正确性和数据的有效性,用每一位评价人员在同一评价阶段中对同一静态图像或者视频序列的不同评价周期给出的评价分值进行核对,如果评价分值相差2级以及2级以上,该数据则被视作无效而舍弃。如果在评价中出现两组评价数据的平均值相同,则用标准差来比较两组数据的准确度与稳定性。
①评价时环境亮度、观看距离等;②评价人员的情绪、对图像和视频序列的理解程度;③评价时使用方法和评分标度;④评价数据统计方法和结果表达方式。
2.7.1评价结果的平均分值计算公式
平均分值计算公式如下
U=1M M i=1∑r i,j
式中:U——
—平均值;M——
—参评人数;r——
—评价人员的原始评分(i为人员序号,j为项目序号)。
2.7.2标准差计算方法
标准差是一组评价数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一组评价数据有较小的标准差,代表这组数据的数值更接近平均值。标准差S 计算公式如
S=
M
i=1∑(U-r i,j)2
M-1√
2.7.395%置信区间计算方法
[U-ε,U+ε]为95%置信区间。其中U为平均值,ε的计算公式为:ε=1.96S
M
(其中S为标准差,M
为参评人数)。如果评价人员对某项评价项目的评分在置信区间之外,则视为出界评分,需舍弃此评分。2.8视频品质主观评价的优缺点
优点:主观评价的优点是品质等级标准建立容易,实施方便,且符合人眼视觉特性。由于目前对人的视觉系统性质还没有充分理解,对人的心理因素还不出定量描述方法,因而用得较多、最具权威性的还是主观评价方法。
缺点:受观测者背景知识、观测动机、观测环境等因素的影响,因此结果稳定性差、可移植性也差。
3视频品质主观评价案例
图13为不同车型的车载DVD播放器视频品质主观评价的对比报告。可以看出B车型视频品质的清晰度、颜处理、灰阶层次以及亮度/度细节评价项目的平均分数以及实际视觉效果均优于
A车型。
A车型的颜(绿)处理整体视觉效果感觉偏淡,分布不均匀。亮度/度细节处理不好(第4项),导致在亮度变化时饱和度偏低,以至于图13
实车视频品质评价结果
图11动态视频片段(随
风起舞的头发)图12灰阶层次测试信号
. All Rights Reserved.
彩视觉效果失真。A 车型人物脸部肤(评价素材为黄人种的脸部截取图片)还原有失真感觉,B 车型人物脸部肤视觉效果比较接近真实感。参考文献:
[1]ITU-T Rec.P.910,多媒体视频质量主观评价方法[S].[2]ITU-R.BT.802,视频质量主观评价图像序列[S].
[3]高新波,路文.视觉信息质量评价方法[M].西安:西安
电子科技大学出版社.
附:专家审稿意见及作者回复
审稿专家董辉意见:①可否说明评价人数的根据;②文中3章中例子似应有总分;③国外名厂家的评价条件依据是ISO 6658,也是车载多媒体视频品质的主观评价。
作者范学回复:①评价人数一般越多越好,这
样可以避免个体偏差带来的影响,但人员多了会导致评价时间过长。本文推荐为10人以上,我们实际评价的项目会比较多,每一类都有几种标准图片,故考虑试验的方便性,人员不宜过多。②文中3章中的例子是我们进行实车评价的案例。此图截取了实车评价报告的一部分,最终版报告是计算总体平均分,也是5分制。由于此涉及公司机密,故只能给出部分供大家参考。其评价思路与本文介绍一致,只是增加了不少评价图像,细化了一些评价项目。③ISO 6658是感官评价的一份标准,是所有主观感官类评价的总体框架。由于其涉及范围过广,故其针对具体评价指标及项目不能起到引导作用。多媒体的视频主
观评价,我们推荐参考ITU-T Rec.P.910《多媒体视频质量主观评价方法》、ITU-R.BT.802《视频质量主观评价图像序列》,更为专业。
(编辑文珍)非特殊要求,否则应满足规划场强时两种不同的极化方式的有效功率的需求。
3)达到相同的场强,低频段(相对)所需功率放大器的功率比高频段所需功率放大器的功率要高,因此规划或升级辐射抗干扰测试能力时,必须
结合测试频段、测试场强综合考虑功率放大器的有
效功率需求。国际知名汽车企业的汽车电子零部件EMC 的标准主流测试频段为400MHz~2GHz,因此在保有一定的测试余量情况下,400MHz~1GHz 的测试频段,有效输出为500W 的功率放大器(当然也需考虑发射天线的增益,从系统成本考虑,一般
不会考虑低增益天线)能满足200V /m 的测试要求,1~2GHz 的测试频段,有效输出功率为200W 能满足200V /m 的测试要求。参考文献:
[1]ISO 11452-2-2004,Road vehicles Component test methods
for electrical disturbances from narrowband radiated electromagnetic energy.Part2:Absorber-lined shielded enclosure[S].
[2]Jin Au Kong.吴季,译.电磁波理论[M].北京:电子工
业出版社,2003.
[3]阚润田.电磁兼容测试技术[M].北京:人民邮电出版社,
(上接第55页)
. All Rights Reserved.