第35卷第1期    光电工程V ol.35, No.1 2008年1月                          Opto-Electronic Engineering                      Jan, 2008文章编号:1003-501X(2008)01-0120-06
一种基于HVS特性的视频质量评测方法
袁飞,黄联芬,姚彦
( 厦门大学信息科学与技术学院通信工程系,福建厦门 361005 )
摘要:本文针对视频质量的评测应用,对传统峰值信噪比(PSNR)算法加以改进。通过在视频帧内图像和帧间图像的处理过程中引入人眼视觉系统(HVS)的主要特性,克服传统PSNR算法在序列质量检测应用方面的缺陷。方法在帧内图像处理上利用人眼对边缘轮廓失真具有较强敏感性的特点,设计了基于图像边缘的检测方案以提高对典型空域失真的检测性能;在帧间图像处理上,通过测量帧间时域能量的变化,获得序列在时域轴上的典型特征,并据此对空域检测结果进行修正。通过上述改进,算法能在保持传统PSNR算法简易性的同时,提升其检测结果与主观感受的相关性;同时算法的计算量并不复杂,易于在检测设备中实现系统集成
关键词:视频质量;人眼视觉系统(HVS);质量评测;多媒体技术
中图分类号:TP37                          文献标志码:A
Method for Video Quality Evaluation Based on HVS Properties
YUAN Fei,HUANG Lian-fen,YAO Yan
( Communication Engineering Department, Information and Engineering Institute
of Xiamen University, Xiamen 361005, China )
Abstract: A method for the objective video quality assessment is proposed. By using the Human Vision System (HVS) properties into the intra and inter frame processing, the proposed method can overcome the traditional Peak Signal-to-noise Ratio (PSNR) in the application of video quality evaluation. Based on the principle that human's eyes tend to be more sensible to the degradation happening in the edge of image, a detection scheme is designed to evaluate the distortion in the intra frame. By measuring the temporal energy, know the typical features in the temporal domain and then use them to modify the evaluation result of the spatial domain. The proposed method inherits the advantages of the traditional PSNR such as simpleness and convenience and has better correlation with the subjective perception. And it can be easily implemented and integrated in the equipment system of detection.
Key words: video quality; Human vision system (HVS); quality evaluation; multi-media technologies
1  引  言
当前,以数字视频图像为主体的多媒体业务正日益成为有线及无线网的主体业务形态。通过对视频图像质量的客观评价,可取代繁琐费时的主观评价方法,为数字节目制作、编解码器设计及优化、多媒体业务质量调整等诸多应用领域提供方便、快捷的技术保障。
最常用的评测方法是基于统计学理论的PSNR等,这些方法由于数学上处理容易、物理意义明确,广泛应用在视频图像质量评测的各个领域。然而其评价结果常与主观感受存在较大偏差,因此研制可有效替代PSNR的新的评测方法成为当前业界的重要课题,吸引着国内外越来越多院校及科研机构的研究兴趣。包括Intel、美国宇航局(NASA)、泰克仪器、皇家飞利浦等企业,以及ITU-T(SG9,SG12),ITU-R(WP6Q),
收稿日期:2007-04-17;收到修改稿日期:2007-09-26
基金项目:京信研究基金资助
作者简介:袁飞(1979-),男(汉族),福建福州人,博士生,主要研究工作是无线视频处理及传输。E-mail:yuanfei@xmu.edu
2008年1月                袁  飞 等:一种基于HVS 特性的视频质量评测方法  121IEEE(广播技术协会),A
NSI(T1A1),VQEG(Video Quality Experts Group)等标准化组织都纷纷开展相关的方法研究和标准化测试。新的视频质量客观评价方法要取代广泛适用的PSNR ,必须满足以下几个要求:首先,评价结果应比PSNR 等具有更好的主观相似性;其次,评价方法需具有广泛普遍的适用性;最后,算法需简单可行,易于系统集成。基于人眼视觉特性构建HVS 仿生模型是当前较流行的研究思路之一[1]。方法的通用做法是设计人眼HVS 的仿生模型,模仿人眼对参考图像和待测图像之间差异的感知机制,得到相应的感知评价结果。然而,由于人眼生理响应机制十分复杂,这些方法在计算上常过于繁琐而无法实际推广。VQEG 于2000年[2]和2003年[3]先后两次对全球各研究机构提交的视频质量评价模型进行评测。从其两次的报告看,目前视频图像质量的客观评价技术尚无法完全满足通用、可靠、简便的评价标准水平。
鉴于当前PSNR 已在视频图像质量的评测中广为应用,具有相当规模的应用基础和普适性。本研究认为在PSNR 算法基础上融合HVS 的主要特性,能在不过多增加算法复杂性的前提下有效改善算法性能;同时,能保持PSNR 的风格,具有较好的前向兼容性,更适合当前视频质量评价的应用需求。因此,本算法在PSNR 的算法结构上,通过引入HVS 特性以改善和优化PSNR 算法的性能。算法是PSNR 方法与HVS 特性的融合体,其评价结果较PSNR 具有更好的主观相关性,能在继承PSNR 优势的同时提升其性能。为便于描述,文中称之为“增强PSNR ”算法,即EPSNR(Enhanced PSNR)。
2  数字视频图像的客观评价
2.1 主观评价和客观评价
视频图像质量的评价主要有两类形式:主观评价和客观评价。主观评价是以人作为图像的观察者,在一定条件下对图像的优劣进行评分,将结果按诸如“非常好:5分”、“好:4分”、“过得去:3分”、“较差:2分”、“差:1分”或“无法察觉损伤:5分”、“轻微察觉但不讨厌:4分”、“察觉且有点讨厌:3分”、“察觉且讨厌:2分”、“非常讨厌:1分”的形式分档[4]。主观评价虽简单,但需人参与评测、复杂费时且结果易因人因时而异。
客观评价由仪器或软件对质量进行评估,其评价结果具有数值性、易操作性和可重复性等特点,因此在实际应用中具有广阔的应用前景。由于人是视频图像信息最后的接收者,其对质量的感受具有最终的审判权,因此客观评价的性能结果应与人的感受为参考依据。理想情况下客观评价结果应该与主观评价结果具有尽可能接近的相似性。
2.2 峰值信噪比及其缺陷
峰值信噪比(PSNR )是目前应用最广的视频图像客观评价算法,其定义为
MSE L PSNR 210log 10=,∑∑−=−=−=1010
汽车评测视频2|),(ˆ),(|1M m N n n m Y n m Y MN MSE                (1) 其中:L 表示图像中的最大的像素值(如8比特的
量化则L 为255);M 和N 则分别表示图像的行和列。从式(1)可知PSNR 算法是基于噪声层的评价方式,通过像素点的对比能敏感捕获两幅图像(或两端视频)在像素层面上的细微失真,因此具有很高的敏感性。然而PSNR 将构成图像或视频的像素点看成是相互独立的孤立个体,忽视了各像素的局部相关性;其次,PSNR 忽略了HVS 对相同差异出现位置、持续时间等是具有不同视觉感受的特点,将差异的影响等价化;此外,针对视频应用中,其不仅仅是空域信号,还包括时域上的差异,传统PSNR 对时域检测则显得无能为力,只能简单将各帧的结果平均处理。
3  人眼主要视觉特性
视频图像是乘载人眼感受信息的特殊数据,如果采用一般数据差异的计算方式表达劣化值势必与主观结果相偏离。所以研究视频质量的基础是人眼的主要视觉特性。
3.1 多通道及视觉阈值
人的视觉系统是一个多通道结构,它把输入的图像分解成不同感觉分量。每个感觉通道都有其自己的阈值(称之为视觉阈值),如果激励值低于通道的视觉阈值,人眼就感觉不到该激励。视觉阈值主要有空间
光电工程                      第35卷第1期 122性和时间性两大特点。空间性特点体现在视觉的空间频率响
应。研究表明人眼空间感知能力具有带通和低通滤波特性,对高频部分的失真较低频失真不敏感;此外,还与目标及背景的相对亮度有很大关系。时间性特点体现在视觉的时间频率响应。研究表明其响应也类似一个带通滤波器,通常的闪烁临界范围(高过此范围,人眼感觉不出闪烁)在20∼80Hz ,而相应的范围取决于显示的平均亮度;显示亮度越高,则临界范围的阈值越高。
3.2 掩蔽效应
掩蔽效应是影响上述视觉阈值的重要原因。掩蔽是指当存在多个激励时,激励间的互相干扰导致视觉阈值发生变化的现象。视觉阈值的存在使低于阈值的损伤不被觉察;而掩蔽的存在则使视觉阈值变化提升,从而能够容纳更多无法察觉的损伤。只要人眼察觉不出损伤,其造成的影响事实上可忽略不计。典型的掩蔽效应[5]主要有:“对比掩蔽”(如人眼对损伤的敏感度在非常亮或非常暗的区域下降);“纹理掩蔽”(如人眼对损伤的敏感度在图像纹理复杂区比平坦区低); “运动掩蔽”(如人眼对内容随时间变化大的图像块的损伤敏感度低);“切换掩蔽”(如场景切换后的瞬间1∼3帧,人眼对损伤的可见性下降)等。
荣威怎么样4  基于视觉特性的处理方法
视频是一组相关图像按一定速率播放的序列。因此,本研究先分别从“帧内”和“帧间”两个角度探讨结合HVS 特性的图像处理方法,最后再根据特性对整体进行融合修正。
4.1 帧内图像的处理方法
帧内图像体现了空间频率响应特性。HVS 的主要特征表明,人眼对图像边缘通常格外关注。边缘能量的损失大小将很大程度上影响评价分的高低。因此,可通过边缘滤波器提取边缘信息能量,计算这些边缘点上的像素差,以突出边缘区域的误码情况。此外,人眼具有方向选择性,对水平和垂直方向的敏感度相对其他方向大。研究中我们采用水平与垂直方向的边缘滤波[6],如下式所示:
|),(||),(|),(n m g n m g n m g y x +=                            (2)
其中:g (m ,n )表示在像素位置(m ,n )的梯度图像;g x 和g y 分别表示水平向和垂直向的梯度图像。
在视频压缩及通信应用中,方块效应常是最主要的帧内图像的误码形态之一。其误码形态在待测图案中会造成较多的边缘图案。如果这些边缘闭合,则提示该部分方块与背景的对比度级差超过一定值,可能存在严重失真[6];此外,人眼对视觉兴趣区域(ROI ,Range of Interest)内的图像失真比其外失真会敏感很多
[7]。因此,需要判断新增方块边缘的闭合程度、区域大小及出现位置,并据此修正边缘检测索引图。在索
引图参考下计算边缘图案的均方误差,如下式所示: 0),,(if )},,(),,({)(1)(edge 112edge edge edge ≠−=∑∑==k j i R k j i P k j i S k Q k MSE M i N j      (3)
其中:MSE edge (k )表示第k 帧的边缘像素均方误差;S edge (i ,j ,k )和P edge (i ,j ,k )分别表示第k 帧原始图像和待测图像在(i ,j )位置的边缘图;R edge (i ,j ,k )表示经方块效应修正后的检测索引图;Q (k )表示R edge (i ,j ,k )内的总像素点。
4.2 帧间图像的处理方法
帧间图像主要体现了时间轴上的响应特性[5]。根据HVS 的特性,当图像运动较快时人眼无法区分图像中较高的空间频率;而在图像静止时,却能分辨高得多的空间频率。本方法在帧间图像处理上设计了两个任务:“切换点记录”和“帧率估算”。“切换点记录”的目的是记录场景切换的帧号;而“帧率估算”的目的是检测待测帧流畅性是否劣于参考帧,从而可根据流畅性指标判断是否需要对最后结果进行加权。切换点及帧率的估算采用图像的帧间差值距离度量[8],定义为
|)1,,(),,(|),,(edge edge edge −−=∆k j i Y k j i Y k j i Y                          (4)
其中:k 表示当前帧序号;(i ,j )表示其帧内轮廓边缘的像素点坐标;Y 表示图像轮廓边缘的亮度值。中华车报价
场景切换通常前后亮度差较大,视觉对前后亮度差较大点亦存在较高的时域掩盖门限值;换句话说也
2008年1月                袁  飞 等:一种基于HVS 特性的视频质量评测方法  123就是对这时候出现的劣化形态较不敏感。因此,可设定一阈值(∆Y edge )max ,当计算出的∆Y edge 超过 (∆Y edge )max ,则
认为该帧是处于切换点,即记录其序号k 。对帧率的测量,可通过比较原始视频的∆S edge (k )与待测视频的∆P edge (k )是否具有线性相关性来判定。如线性相关,则说明待测视频的帧率跟原始视频基本吻合;如∆S edge (k )值较大而∆P edge (k )较小,则说明待测视频的帧率没有跟上原始视频,从而估算出待测视频的帧率。
4.3 整体融合与修正
在视频文件处理后,需根据HVS 特性对3.1和3.2的处理进行融合和修正,修正步骤如下:贷款买车计算器
首先,根据掩盖特性在“切换点记录”修正(3),忽略场景切换点前后3帧的MSE edge (k )差值影响,可得总体的边缘MSE 值及边缘PSNR 值为
MSE PSNR E Peak E /)(log 102max 10tp =                        (5) 其中∑==L
k MSE k MSE L E 1
edge )(1 其次是对所得的E PSNR tp ,结合估计帧率进行加权。在图像通信中,视频重建时常会用内插或重复帧的方法恢复丢帧。因此,如原视频与测试视频在一段时间内的帧率差异超过一定门限,则说明待测图像可能
出现人为内插图片或画面凝固现象,因此即可通过选择质量衰减因子λ的方式来修正影响,有如下表达式:
)10(tp ≤<=λλPSNR PSNR E E                        (6)
研究表明,帧率对主观质量的影响大小常受应用场合、终端设备以及素材内容活动性等前提条件的制约。不同应用场合对帧率大小有不同的期望。如在标准电视应用场合,通常帧率要求至少25帧(PAL)/30帧(NTSC)以上;而在一些监测应用场合,其对帧率的要求则相对宽松。其次,人眼感受的闪烁临界频率会随显示设备的亮度增高而提高。较低显示亮度的显示设备(如手机、PDA 等),其对帧率大小的期望往往低于CRT 显示器等其它显示终端。最后不同节目内容的空域和时域运动程度都不一样。空域或时域运动较剧烈的素材常会使视频的“可接受最低压缩码率”(即低于这个压缩码率,经压缩或传输的质量常难以被主观感受接受)的门限上升,从而导致丢帧或误码的出现。因此,式(6)中加权修正系数λ的选择需根据上述前提通过事先的分类训练获得。
5  实验及讨论
5.1 测试方案设计
实验目的是验证本算法对以PSNR 为代表的传统算法的性能提升能力。测试分两大部分,其一是视频
文件,其二是静止图片。对每部分都分别测试PSNR 值和改进PSNR 值,并结合主观感受进行对比。素材的误码形态分三类:第一类劣化形态是由Matlab 函数生成高斯、椒盐、泊松等误码噪声;第二类劣化形态 是诸如DPSK 、QPSK 等调制后在不同误码等级下的劣化失真;第三类则使用诸如WCDMA 、CDMA2000等完整协议栈和空中接口的综合业务仿真,本研究中采用3GPP/3GPP2的3G 视频流媒体和RTP 传输测试环境[9],其模版和参数如表1,其中H1和H2模式针对的是视频流媒体业务,H3-H6针对会话类业务。主观评分采用5分损伤制,并将结果转换到(0~1)区间,分值越靠近1则质量越好。
此外,为便于与主观分值进行对比,利用转换公式(7)分别将式(1)和式(6)得到的分贝单位值转换到线性单位值。其中Score Linear 表示线性单位的分值(0~1之间,越靠近1质量越好);Score Log 表示分贝单位值。
光电工程                      第35卷第1期
124)]
6675.20(1701.0exp[111Log Linear −+−=Score Score                      (7) 5.2 结果及讨论
视频和图像均采用标准测试素材,受篇幅所限取表2所示的客观结果进行分析,其中黑体部分的主观效果在图1∼图3中给出。表2中前四个劣化视频的源文件分别为carphone.qcif, container.qcif, Claire.qcif ,Suzie.qcif ;后三个劣化的原图片为256×256格式lena.bmp 和mom&baby.bmp 。
从实验数据中,可得出以下结论:一方面,本算法与PSNR 算法固定数据级差问题,即本算法结果与PSNR 具可比性。如图1的Suzie(H2)主观分为0.9,其PSNR 结果(33.196dB/0.8939)与本算法结果(32.925dB/0.8894)基本可认为等同。另一方面,在出现方块模糊的场合,本算法具有比PSNR 更敏感的捕获能力。如图2的Claire(H2),其模糊出现在非兴趣区但可明显感觉。本算法(24.51dB/0.66)相对PSNR(28.70dB/0.8)更能准确体现主观的感受效果(0.70分)。此外,在较严重的误码出现ROI 区域时,本算法能敏锐地进行适当的值修正,如图3的mom&babby(DPSK 平坦衰落,10^-2)仿真中,本算法(13.281dB/0.2216)比PSNR(21.323db/0.5278)更好地近似主观感受(0.2分)。
6  结  论
实验表明本算法具有以下优点:首先,算法融合了视频的空域处理和时域处理,突破了传统PSNR 方法只能针对静止图像检测的局限。其对视频序列的检测并不是机械地将对各帧图像的测试结果求平均,而是结合时域特性进行修正。因此,相对PSNR 算法而言本算法结果充分利用了视频的时域信息。其次,算法主要的计算量在先期检测索引图像构造和后期时域信息加权修正,算法计算量并不大,因此便于实现和系统集成。此外,相关实验表明本算法比PSNR 具有更好的主观相关性;且当PSNR 算法与主观感受具有较好相似性时,本算法亦可得到与PSNR 算法相近的数值结果。因此本算法对PSNR 算法具有较好的兼容性和数值可比性,可作为PSNR 方法的改进乃至替代算法加以推广和应用。
图1  Suzie 图片实验图示
Fig.1
Test image of Suzie 图2  Claire 图片实验图示 Fig.2  Test image of Claire
图3  Mom&Babby 图片      实验图示
Fig.3  Test image of Mom&babby
2008年1月袁飞等:一种基于HVS特性的视频质量评测方法125参考文献:
[1]  佟雨兵,胡薇薇. 视频质量评价方法综述[J]. 计算机辅助设计与图形学学报,2006,18(5):735-741.
TONG Yu-bing,HU Wei-wei. A Review on Video Quality Assessment Methods[J]. Journal of Computer-Aided Design & Computer Graphics,2006,18(5):735-741.
[2] VQEG. Final report from VQEG on the validation of objective models of video quality assessment[EB/OL].
vqeg.v,2000.
[3]  VQEG. Final report from VQEG on the validation of objective models of video quality assessment II [EB/OL].
中国汽车销量排行榜vqeg.v,2003.
[4]  ITU-T. Objective perceptual assessment of video quality:Full reference television [EB/OL]. Switzerland:ITU-T
Telecommunication Standardization Bureau (TSB),http ://vqeg.v,2004.
[5] Weisi Lin,Li Dong,Ping Xue. Visual distortion gauge baseds on discrimination of noticeable contrast changes[J].IEEE
Transations on Circuits and Systems for Video Technology,2005,15(7):900-908.
[6] ITU-T. Recommendation J.144 (Rev.1) - Objective perceptual video quality measurement techniques for digital cable television
蝙蝠车多少钱
in the presence of a full reference [EB/OL]. www.itu.int/itudoc/itu-t/aap/sg9aap/history/j144/index.html,2004.
[7] 邢昕,沈兰荪,汪孔桥. 一种基于视觉兴趣性的图像质量评价方法[J]. 中国图象图形学报,2000,5(4):300-303.
XING Xin,SHEN Lan-sun,WANG Kong-qiao. A Quality Assessment Method of Image Based on Visual Interests [J]. Journal of Image and Graphics,2000,5(4):300-303.
[8] S. Wolf and M. Pinson. Video quality measurement techniques[EB/OL]. www.its. bldrdoc. gov/n3/video/documents.htm,2002.
[9] ITU-T. Common Test Conditions for RTP/IP over 3GPP/3GPP2 [EB/OL]. Santa Barbara: ,2001.
JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ (上接第88页)
[6]  HSIEH C K,SU K U. A methodology of predicting cavity geometry based on scanned surface temperature data-prescribed
surface temperature at the cavity side [J]. ASME Journal of Heat Transfer,1980,102:324-329.
[7]  HSIEH C K,SU K U. A methodology of predicting cavity geometry based on the scanned surface temperature data-prescribed
heat flux at the cavity side [J]. ASME Journal of Heat Transfer,1981,103:42-46.
[8]  HUANG C H,CHAO B H. An inverse geometry problem in identifying irregular boundary configurations [J]. International
Journal of Heat and Mass Transfer,1997,40:2045-2053.
[9]  王登刚,刘迎曦,李守巨. 二维稳态导热反问题的正则化解法[J]. 吉林大学自然科学学报,2000(2):56-60.
WANG Deng-gang,LIU Ying-xi,LI Shou-ju. Regularization Procedure for Two-dimensional Steady Heat Conduction Inverse Problems[J]. Acta Scientiarium Naturalium Universitatis JILINENSIS,2000(2):56-60.
[10] 王登刚,刘迎曦,李守巨. 非线性二维导热反问题的混沌-正则化混合解法[J]. 应用数学和力学,2002,23(8):864-870.
WANG Deng-gang,LIU Ying-xi,LI Shou-ju. Chaos-Regularization Hybrid Algorithm for Nonlinear Two-Dimensional Inverse Heat Conduction Problem[J]. Applied Mathematics and Mechanics,2002,23(8):864-870.
[11] 范春利,孙丰瑞,杨立,等. 基于红外测温的内部缺陷尺寸、方位的计算方法研究[J]. 热科学与技术,2005,4(1):
82-86.
FAN Chun-li,SUN Feng-rui,YANG Li,et al. Study on numerical method determining size and position of subsurface defect based on thermographic temperature[J]. Journal of Thermal Science and Technology,2005,4(1):82-86.
[12] 俞昌铭. 热传导及数值分析[M]. 北京:清华大学出版社,1982.
YU Chang-ming. Heat Conduction and Numerical Analysis [M]. Beijing:Tsinghua University Press,1982.