【摘  要】 为能有效地对沉浸音频系统进行评价,提出一种沉浸式音频的主观和客观评价方案,构建衡量沉浸式属性的  沉浸式指数,其他属性延续传统音频系统的评价方法。
【关键词】 沉浸式音频;沉浸式属性;沉浸式指数;主观评测;客观评测文章编号: 10.3969/j.issn.1674-8239.2020.11.003
The Subjective and Objective Evaluation of Immersive Audio System
MA Shi-chao
(LEONIS Cinema, Beijing 100190, China)
【Abstract】In order to evaluate the immersive audio system effectively, a subjective and objective evaluation scheme of    immersive audio system is proposed, and the immersion index to measure the immersion attribute is constructed,  and the other attributes continue the evaluation method of traditional audio system.
【Key Words】immersive audio; immersive property; Audio Immersive Index (AII); subjective evaluation; objective evaluation
与传统的音频系统不同,沉浸式音频(Immersive Audio)系统侧重于沉浸式属性(Immersive Property),也就是突出其可以从三维空间中的任何角度对声音进行渲染和还原。为了能有效地对沉浸式音频系统进行评价,提出一种沉浸式音频的主观和客观评价方案,构建衡量沉浸式属性(三维空间任意渲染)的沉浸式指数,其他属性延续传统音频系统的评价方法。
1  沉浸式音频技术的发展现状
声音经历了无声(Silence)、单声道(Mono)、立体声(Stereo)、5.1/7.1等发展过程,笔者将这个过程抽象为从空(Empty)、到点(Point)、到线(Line)、到面(Plane)的历程,如图1所示。近年来,声音研究者开始突破平面的限制,将声
沉浸式音频系统主观与客观评测体系的探索
马士超
(雷欧尼斯(北京)信息技术有限公司,北京 100190)
音的录制(Recording),渲染(Render)与还原(Restore)进行三维处理[1]。
一种显而易见的方式是增加声道数,即基于声道(Channel-Based Sound)的技术方案,除了在双耳
横切面进行扬声器平面布局外,分别在头顶(Top)与脚下(Bottom)进行部署,从而形成三维的空间布局,如图2所示,如9.1,11.1,13.1,15.1以及22.2。将这种布局的表示归纳三种方式:(1)x .y ,x 表示主扬声器与环绕扬声器声道总数,y 表示次低频扬声器LFE;(2)x .y .z ,z 表示顶环扬声器声道总数,x 表示主扬声器与平面环绕扬声器声道总数;(3)x .y .z .n ,n 表示底环扬声器声道总数,z 表示顶环扬声器声道总数,
高尔夫6改装gti
x 表示主扬声
长安睿行器与平面环绕扬声器声道总数。
但是,这种技术具有先天的局限性。随着声道数的增多,后期录制和处理的工作会呈几何级数增加,称之为多声道技术的超级复杂性(Super Complexity)。同时由于没有任何
滴滴公布安全报告一个播放环境与制作节目的后期混音棚是一致
图1  声音的发展历程
的,因此,没有多声道技术实际播放的环境能如实展现创作者的意图,称之为多声道技术的完全不一致性(Total Inconsistency)。
因此,基于对象(O b j e c t -b a s e d Sound)的技术方案应运而生,其描述的是声音轨迹,如图3所示。一个声音对象包含如下元素:信号本身s ,隐含的时间信息t ,以及其在三维世界的三维坐标{x ,y ,z }和其他
大众甲壳虫怎么样
辅助属性,o={s ,t ,{x ,y ,z },aux parameter}。混音师无需花费大量的时间来处理每个扬声器的具体输出信号,只需要将主要精力放在艺术创作上即可。上面提到的多声道技术的超级复杂性与完全不一致性都被解决了。
基于声场(Scene-based Sound)的技术方案适合描述没有轨迹属性的声音,主要是重建空间中声场的分布,如图4所示。声场
和大家比较了解的光场类似,是对以特定位置为中心的整个声音信号场的信号描述,典
型的分解描述是采用高阶Ambisonic技术,比较有效的方法是使用传声器阵列录制后进行矩阵转换。其善于处理环境声场效果,是
对象技术的有益补充。
因此,当下的沉浸式音频系统采取融合声道、对象与声场三种技术的方案,具体实现就是,声道作为基础,对象技术实现声音在三维空间的连续运动,声场技术用来描述没有运动轨迹的元素,营造周边环境或烘
托氛围。Dolby ATMOS主要采用了声道+对象的技术方案。HOLOSOUND在声道+对象的基础上,将
声场技术融合进来,采用高阶立体音频HOA(High Order Ambisonics)算法,可以对整个声音空间之中的某一点对象的声音进行录制,记录每一点声效的坐标位置、声像大小与位移时间等重要信息的元数据。为每一个声音指定运动轨迹,通过音频处理器的实时运算渲染,把运算后的声音对象分配到相应的一个或多个扬声器中,音
频处理设备具有自动房间声场校正系统,
图2  一种16通道扬声器的布局
图3  基于对象的HOLOSOUND后期制作流程
图4  5阶声场HOA技术示意图
图5  HOLOSOUND系统框架(制作端与放映端)
从而实现声音对象在三维空间中的运动。HOLOSOUND系统框架如图5所示,分为制作端与放映端,各部分的技术实现方案见图6。其中,制作端音频技术工作流(Workflow)如图7所示,放映端音频技术工作流如图8所示。
2  对于HOLOSOUND与ATMOS的主观评测
2018年10月11日,中国电影发行放映协会(C F D E A )协同中国电影科研所(CRIFST)组织了几十名业内专家对于沉浸
合肥违章查询式音频HOLOSOUND与Dolby ATMOS进行了盲测。之所以选择HOLOSOUND与ATMOS,因为两种技术符合DCI/SMPTE标准[2-5]。参
与评测的专家分别来自于中国电影科研所、中宣部电影数字节目管理中心、中国电影集
团、华夏电影、北京电影学院、中国电影数字制作基地、中国传媒大学中国中央电视台
等,具有专业性与代表性。
避免一些先入为主的认知,评测采取盲测的方式,共用同一个影厅、同一个影厅的扬声器以及相应的功放,评测的内容及设备切换的拓扑图见图9。由于ATMOS与HOLOSOUND都采用对象技术,并且都做到了点声源,因此,可以共用一套播放系统,采用的播放组合如表1所示。
该盲测的结论主要有两点:
(1)HOLOSOUND与ATMOS系统是兼容的,也就是ATMOS播放系统可以播放HOLOSOUND素材,
HOLOSOUND播放系统也可以播放ATMOS素材;
(2)HOLOSOUND与ATMOS系统效果
图6  HOLOSOUND制作端与放映端的技术实现方案
图7  HOLOSOUND制作端技术工作流
图8  HOLOSOUND放映端技术工作流
图9 盲测对比内容与设备切换拓扑
表1  HOLOSOUND与Dolby ATMOS盲测播放组合
基于人工智能技术,结合传声器阵列/人工头分析仪,采用特殊的算法,形成了沉浸式音频指数AII (Audio Immersive Index)评价方法,目前已被SMPTE与AES等相关的国际标准组织所采纳。其目的是用于沉浸式音频与
沉浸式音频、沉浸式音频与传统音频之间的技术对比,区分出什么是沉浸式音频技术。相比人工盲测的主观评测方式,更加客观、准确,为评价沉浸式音频系统的效果提供了有力的技术依据。
3.1  音频沉浸式指数之数字电影
下面给出沉浸式音频指数AII的评价方法,图11是AII获取技术所采用的可能的传声器阵列图,图12是数字影院基于扬声器的AII系统流程图。具体的评价方法和计算过程(采用球坐标形式表示信号的坐标)[6]
(1)构造目标位置信息
构造X 个点对象,每个对象的三维位置可以用
来表
示(1≤i ≤X ),这些点对象通过各种不同的Render系统进行还原,依据Render的能力在特定的扬声器布局中进行展现。
(2)获取测试位置信息假设传声器阵列有M 个传声器,采集所述音频对象信号后获得信号数据;
将所获得的信号数据转换成N 阶HOA数据,由于N 阶HOA数据实际上有(N +1)2路数据,需要一个专门的M ×(N +1)2维度的矩阵。构造的等角度差的虚拟扬声器阵列,每个扬声器包括一个空间坐标,扬声器个数为N ;
根据构造的等角度差的虚拟扬声器阵列对所述N 阶HOA数据通过一个(N +1)2×W 维度的矩阵进行处理,获得W 个扬声器输入信号,其中,W 个扬声器输入信号中最大的输入信号对应的扬声器的空间坐标为测试位置信息 ,
(1≤i ≤X )。
是一致的,效果的评价点包括:音质、总体还音效果、声像定位、声音层次、响度均匀性、声音连续性等。
3  客观评价体系
传声器阵
列(M
i c r o p h o n e Array)作为一门现代声学的重点课题,在过去的10年内取得了突飞猛进的发展,图10
是一种典型的传声器阵列。利用传声器功能可以实现定位(Location)功能,可以通过判定目标位置(Target Position)与测量位置(Measured Position),来判断沉浸式播放系统是否能达到设计的沉浸式效果。
由于在国内外还未发现关于沉浸式音频的评价方法,笔者及所在团队
图10  一种典型的传声器阵列
图12  数字影院基于扬声器的AII系统流程图
图11  AII获取所采用的可能的传声器阵列
(3)计算AII
依据上面步骤(1)构造的
, 以及步骤(2)确定的
,音频沉
浸式指数AII 可以采用如下公式确定:
其中,AII 表示沉浸式指数,X 表示静态对象源的个数,使用很多不同位置的静态对象源,表示构造的目标位置信息,
表示测试位置信
息。
采用上述方法和计算,在数字影院对国际上常见的ATMOS、DTS-X和HOLOSOUND三种基于对象的沉浸式音频系统进行测量。选取参与测试的影院,包括苏州金逸吉尼斯记录影厅、中影基地ATMOS/HOLOSOUND 混音棚、上海百老汇影城、中器影厅,尽可能地在达到同等条件下进行测试。其中一个厅的配置如表2所示,相应的音频点位图如图13所示。AII 的测量结果如图14所示。
3.2  音频沉浸式指数之数字电视
数字电视沉浸式音频评价体系与数字电影没有本质上的区别。数字电影采用的扬声器数量较多,例如,ATMOS在影院系统最多可以达到64通道,HOLOSOUND最多可以达到256通道。
而以电视为核心的家庭娱乐系统一般采用5.1.2/5.1.4/7.1.2/7.1.4的设置,甚至有的时候采用SoundBar形式的虚拟扬声器。但本质上是一样的,都是通过扬声器来还原对象的解析。
实际测试结果显示,无论是5.1.2/5.1.4还是7.1.2/7.1.4,沉浸式指数AII 远远小于数字影院中小厅的音
汽车评测视频
表2  沉浸式音频影厅配置清单图13  沉浸式音频点位图图14  几种沉浸式音频技术在数字影院的AII测量结果