沉浸式音頻技術(shù)的制作、播放及發(fā)展與應(yīng)用
來源:時代拓靈 編輯:ZZZ 2024-02-21 10:03:59 加入收藏
沉浸式音頻技術(shù)近年來逐漸擴(kuò)大其應(yīng)用范圍,常見應(yīng)用于VR,影視,會議等場景。本文由時代拓靈創(chuàng)始人&CEO,孫學(xué)京博士LiveVideoStack線上分享的內(nèi)容整理而成,從聲場采集,傳輸,渲染播放算法以及軟硬件等方面詳細(xì)介紹了沉浸式音頻技術(shù)的制作、播放及發(fā)展與應(yīng)用。
大家好,我是來自時代拓靈的孫學(xué)京。本次分享將主要介紹沉浸式音頻的從采集制作一直到播放整個鏈條上所需要的一些軟件和硬件的技術(shù),詳情如下:
1、沉浸式音頻簡介
1.1什么是沉浸式音頻?
什么是沉浸式音頻?大家最近可能經(jīng)常聽到“沉浸式音頻”,“全景聲”這兩個名詞,那么它們與之前的環(huán)繞聲或者3D音頻有什么本質(zhì)的區(qū)別嗎?
通俗地講,它們之間可能有很多的相似之處。但就技術(shù)層面來說,從底層架構(gòu),到最終的展現(xiàn)形式都有非常大的變化。
首先我們把傳統(tǒng)的5.1音頻擴(kuò)展為不僅包含聲道也包含對象和場景。目前,沉浸式音頻類型主要分為三大類:基于聲道Channel based audio(CBA)、基于對象Object-based audio(OBA)、基于場景Scene-based Audio(SBA)。
目前市面上一些主流的系統(tǒng)主要是Dolby Atmos、MPEG-H以及影視行業(yè)的SMPTE 2098協(xié)議。其主體還是基于Dolby Atmos,但同時它還允許其它不同標(biāo)準(zhǔn)被兼容在此協(xié)議內(nèi),也就是說Dolby Atmos某種意義上是SMPTE 2098的一個子集,我們可以在兼容Dolby Atmos的同時,推出自己的標(biāo)準(zhǔn)。因此我相信,接下來沉浸式音頻將來會迎來一個非常大的利好。
1.2沉浸式音頻-傳統(tǒng)到3D音效
基于揚(yáng)聲器的沉浸式音頻,常見的是5.1或7.1,如果是耳機(jī)設(shè)備,則會有HRTF雙耳3D環(huán)繞的音頻。5.1音頻實際上是固定的聲道位置,由左前、右前、左后、右后構(gòu)成,而7.1就是在5.1基礎(chǔ)上再加兩個背后的聲道位置,.1就是低頻通道的意思。
目前新的沉浸式音頻,不再局限于平面式的聲道,進(jìn)一步支持全面360度*360度的沉浸式音頻(支持高度)。例如影院的杜比影廳,頂部都會布有很多的喇叭;如果是家庭的話,我們經(jīng)常叫做5.1.2,就是在頂上再設(shè)置兩個音箱,或者7.1.4就是在頂上再設(shè)置4個音箱。
真正想要達(dá)到一個非常好的沉浸式效果,頂部的高度信息帶來的對人的感官沖擊感是非常強(qiáng)烈的,比如下雨或者打雷的聲音。即使在平時可能感覺不到很明顯的差別,但當(dāng)你真的專注于音頻效果時,增加了高度信息的音頻感覺就會非常震撼。
這種變革如果停留在傳統(tǒng)的5.1格式上是很難實現(xiàn)的。盡管傳統(tǒng)的做法通過布多層的方式也可以模擬出高度信息,但是并沒有從根本上,即制作混音端來改變底層的架構(gòu)。因此,高度信息的增加實際上是對影視行業(yè)沉浸式音頻制作的巨大改變。加入高度信息的音頻會有很高的沉浸感,并且底層的渲染技術(shù)比傳統(tǒng)的5.1混音要復(fù)雜很多,方位的渲染精度也會大大的提升,所以整體的渲染質(zhì)感有很大的提升。另外,近幾年在AR或者VR時代,非常強(qiáng)調(diào)交互的特性。比如VR頭顯設(shè)備的頭部跟蹤、旋轉(zhuǎn),不僅要旋轉(zhuǎn)視頻,同時還需要旋轉(zhuǎn)聲場。這些都是傳統(tǒng)的5.1音頻(事先混音)很難實現(xiàn)的,而新的渲染技術(shù),沉浸式音頻架構(gòu)是可以實現(xiàn)的。
至于其它的應(yīng)用方面,在看電視節(jié)目的時候,沉浸式音頻還可以靈活的根據(jù)不同的場合控制選擇不同的語言,選擇聲場中不同的方位進(jìn)行體驗等。這些都是通過傳輸一個對象或者傳輸一個聲場的概念來實現(xiàn)的,而傳統(tǒng)的5.1或者立體聲傳輸是沒辦法實現(xiàn)的(無法實現(xiàn)單音軌分離)。
最后一點(diǎn),制作與播放設(shè)備的分離。無論是5.1音箱、立體聲耳機(jī)或是其它設(shè)備,其中的混音都由渲染引擎中的軟件算法來實現(xiàn)。在制作的時候,混音師就會假想出一個球形的空間場景,也就不再完全依賴必須有一個5.1的混音廳才能將聲音混好,并且完成一次混音就可以在任何地方進(jìn)行播放。
1.3 Object Audio
DolbyAtmos的混音界面如圖右下角所示,是一個模擬電影院的方盒子,屏幕在前方。其中小球代表的是音頻對象,其在三維空間中會有一個運(yùn)動的軌跡?;煲魩煏鞫鷻C(jī)或者通過自己的混音環(huán)境來體驗混音(音頻對象)的軌跡,但實際最終播放的時候有可能是一個5.1或者7.1.4的混音環(huán)境,這個是由渲染引擎來完成的。
對象音頻是現(xiàn)在比較流行,并且逐漸占據(jù)主流的。其源自于游戲,杜比作為一個商業(yè)公司將對象音頻徹底商業(yè)化推行到影院中,并進(jìn)行了許多商業(yè)算法上的創(chuàng)新,解決了很多復(fù)雜的場景問題。
對象音頻的一項核心組成部分就是元數(shù)據(jù),我們實際上是通過位置、擴(kuò)展度或者運(yùn)動特性等來描述對象音頻,這些元數(shù)據(jù)都要傳輸?shù)戒秩径?,同時會進(jìn)行一些編碼壓縮操作。對象音頻的渲染方法一般是基于Panning,就是聲音如何通過幅值、相位的關(guān)系在多個喇叭或者耳機(jī)里產(chǎn)生一定的方位感。
1.4 Scene-Based Audio
Scene-Based Audio主要是以MPEG-H為代表(實際指MPEG-H中Scene-Based Audio部分所占比例較高)。Scene-Based Audio主要是用來描述場景的聲場,其核心的底層算法是HigherOrder Ambisonic(HOA),因此一些新的沉浸式音頻的底層技術(shù)也不完全是新的,算法以及新的技術(shù)都是漸進(jìn)的,近幾年隨著帶寬的加大,隨著復(fù)雜度即算力的增強(qiáng),以及AR、VR新的交互方式的產(chǎn)生促進(jìn)了技術(shù)的迅勐提升。Ambisonic也煥發(fā)了青春,VR成功將其帶到了大眾的面前。Ambisonic描述三維空間中的聲場,例如一階Ambisonic更多的是通過極坐標(biāo)。
一階Ambisonics:FOA
Ambisonics中存在一種階的概念,一階Ambisonics我們稱之為FOA(First-Order Ambisonics),零階即沒有任何方向,也就是全向麥克風(fēng)來描述聲場。通常情況下,在Ambisonic中B格式為中間格式,聲場采集設(shè)備得到的原始信號為A格式。為了便于后續(xù)的運(yùn)算,無論麥克風(fēng)是什么樣子,通常都會轉(zhuǎn)化為通用格式即B格式。
如圖,X代表一個點(diǎn)元,通過Ambisonic的(W,X,Y,Z)表示,將其映射到一個聲場中是非常簡單的,主要是應(yīng)用了三角函數(shù)進(jìn)行一系列公式的計算。將其通用化后在高階時的表現(xiàn)即為球面諧波函數(shù)。
高階Ambisonics:HOA
描述聲場其實就是通過物理學(xué)的球面諧波函數(shù)來描述聲波在空間中的傳播,存在非常高的階數(shù),如之前提到的零階、一階函數(shù),甚至三階函數(shù)(右下角圖)。
2、聲場采集技術(shù)
2.1雙耳錄音
接下來介紹聲場采集技術(shù),在音頻平臺中比較常見的有雙耳錄音,模仿人類大腦工作方式,模擬人左/右耳聽到的聲音。常見的使用工具為3Dio人工頭麥克風(fēng)。
上圖為VR時代,3Dio的升級(復(fù)雜)版本,適合于四個方向的Omni Binaural Microphone。Binaural錄音可以理解為聲場采集的上限,拋開人耳個性化的差異,達(dá)到的仿真效果要比HRTF等要好得多。這個錄音的輸出格式通常叫作Quad Binaural(QB)。
2.2 Ambisonic錄音
Ambisonic聲場錄音的優(yōu)勢是更加靈活,通過錄音設(shè)備得到的Ambisonic信號,可以直接做很多的后續(xù)處理。但是如果用Ambisonic信號轉(zhuǎn)成Binaural,效果在某一點(diǎn)上會遜色于Binaural信號。我們也曾做過一些比較,如果是用于VR 360度的聲場采集,與Omni Binaural錄音或者QB格式相比,Ambisonic錄音整體表現(xiàn)會比較平均,也就是最好方向比QB差,但也會比QB最差的方向要好一些。
有關(guān)聲場采集的算法以及麥克風(fēng)的設(shè)備,相對來說比較復(fù)雜。簡單地說,與其它設(shè)備的麥克風(fēng)陣列使用類似,都有同樣的需求:核心參數(shù)有信噪比、一致性、靈敏度、頻響;選擇MEMS麥克風(fēng)還是ECM麥克風(fēng)。早期一般會選擇ECM,但ECM的一致性稍差,所以比較貴的麥克風(fēng)出場時都會自帶匹配的校準(zhǔn)參數(shù)。目前新的麥克風(fēng)更多的是MEMS,一致性相對較好,可以達(dá)到,可以滿足很多需求。Ambisonic聲場采集得到的陣列信號,在剛性球體上,可以近似的用剛性球體球面諧波函數(shù),把傳感器得到的信號轉(zhuǎn)成球面諧波函數(shù)的一些系數(shù)來表示,然后針對系數(shù)進(jìn)行后續(xù)的聲場的旋轉(zhuǎn)等操作。
3、沉浸式音頻的制作,存儲,傳輸
那么,有了沉浸式音頻聲場的采集,之后應(yīng)該如何進(jìn)行進(jìn)行制作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影視行業(yè)比較常用的。主流的Pro Tools目前已經(jīng)全面支持Dolby Atmos,也可以支持一些高階的HOA;Reaper因為其功能強(qiáng)大,價格便宜,性價比高,被越來越多的音頻行業(yè)人士所喜愛。
以上提到的我們稱為音頻工作站,實際上大部分的工作還是通過插件來完成的,工作站完成主流的工作,靠插件來完成具體的如混響算法或者VR相關(guān)的一些工作。常見的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。
時代拓靈公司的插件,叫做Twirling Works,最初是為了VR制作來設(shè)計的。
多通道音頻壓縮一般是通過提取相位差、幅值差等一些Parametric Stereo,多通道通常選擇降維或者去相關(guān)的方式。
MPEG-H HOA編碼的核心是其中的HOA Decomposition部分,將有方向的,細(xì)節(jié)部分的信號取出來。將無方向的,環(huán)境聲音信號分離開。
HOA的優(yōu)勢是存在分層的編碼機(jī)制,如果在帶寬精度要求不高,帶寬不夠的時候,可以傳輸輸入較少的低階信號,如果帶寬足夠的話,則可以傳輸高階信號。
對象音頻的編碼主要是來自杜比的科學(xué)家的貢獻(xiàn),首先是兼容5.1開發(fā)了Joint object coding(JOC),可以將多個對象音頻下混到5.1聲道,通過傳統(tǒng)的5.1通道,生成的信號可以被5.1解碼器很好的兼容播放。并且如果同時支持對象音頻,就可以將其還原成為支持Dolby Atmos的沉浸式音頻。Spatial coding可以理解為是在JOC之上的前處理,面向更多的對象,可以通過一些準(zhǔn)則如:對象的重要性,能量等對多個對象做聚類。
4、渲染與播放
渲染與播放是非常關(guān)鍵的一個部分,渲染的方式通常叫做Panning,在三維空間中的渲染方式稱為Vector-based Amplitude Panning。
HOA的渲染相對更復(fù)雜一些,主要需要考慮的是如何將不同的HOA的信息給到不同的喇叭。
以上是優(yōu)化HOA decoding所使用的準(zhǔn)則之一Max rE。
以上是Decoding的幾種不同方式,傳統(tǒng)的主要Sampling or projection decoding和Mode-matchingdecoding兩種;此外,還有一些新的進(jìn)展,盡可能的使得渲染更均勻,最大程度保證音質(zhì)不受損。
5、基于IP的媒體實現(xiàn)音頻制作和體驗轉(zhuǎn)換
隨著基于IP媒體的出現(xiàn)和對更好的娛樂體驗的追求,音頻終于在廣播中呈現(xiàn)它應(yīng)有的突出作用。你甚至可以稱之為下一代音頻革命。行業(yè)對沉浸式音頻的接受將對現(xiàn)場直播產(chǎn)生巨大的影響——它已經(jīng)在改變著音樂、劇院、影院、演播室、娛樂音樂、電影制片廠和錄音行業(yè)。
沉浸式音頻成為現(xiàn)實
把在水平面上運(yùn)行的環(huán)繞聲擴(kuò)展到三維音頻體驗(空間音頻),沉浸式音頻賦予創(chuàng)作人員和工程師在傳達(dá)情感方面有更高自由度以及對耳聞目睹的內(nèi)容增加視角的更強(qiáng)大工具。目的是讓觀眾從任何方向(如果不是所有方向)都沉浸其中。
沉浸式音頻使用從空間中一個或多個點(diǎn)捕捉聲場中聲音的三維聲,創(chuàng)建能夠混合適應(yīng)不同類型的音響系統(tǒng)的“音頻對象”。由于能夠操控聲場或選擇特定的流,音頻對象打開由制作團(tuán)隊和聽眾自身創(chuàng)造獨(dú)特體驗的大門。靈活性和選擇是關(guān)鍵。
通過沉浸式音頻,觀眾/聽眾可以選擇特定的音頻對象,將其包含在他們看到和聽到的廣播節(jié)目版本內(nèi)。就像一個附加的攝像機(jī)信號選項,如“進(jìn)球攝像機(jī)”或“裁判攝像機(jī)”,可以選擇不同的音頻信號,將聽眾帶入比賽或其它現(xiàn)場體驗的不同部分。觀眾/聽眾可以改變他們的空間位置,從而獲得一個增加更大的現(xiàn)實性和如置身比賽中的感覺的不同視角。附加的聲音可能是來自配話筒的運(yùn)動員,或者一級方程式賽車車手和工作人員之間的通話,或者其它任何可以在制作過程中捕捉的音頻元素。
增加的聲源和數(shù)據(jù)增大復(fù)雜性
現(xiàn)在傳統(tǒng)的聲場是立體聲和環(huán)繞聲:5.1和7.1,具有左、中、右、左環(huán)繞、右環(huán)繞和重低音/低頻效果。沉浸式音頻引入多兩層——除了環(huán)繞聲基本層之外,還有一個高度層和頂層。
音頻對象具有描述如何在聲場內(nèi)還原音頻的相關(guān)元數(shù)據(jù),這些數(shù)據(jù)描述了位置、擴(kuò)散、運(yùn)動特征及其它還音信息,給予對象根據(jù)位置或通過特定的揚(yáng)聲器進(jìn)行靈活定位必不可少的獨(dú)立性。
在沉浸式音頻實現(xiàn)中,廣播公司將發(fā)現(xiàn)需要應(yīng)對和管理更多的音頻流。隨著這種格式在制作工作流程中占有一席之地,考慮到它比傳統(tǒng)的立體聲和環(huán)繞格式可能更復(fù)雜,一個關(guān)鍵的挑戰(zhàn)將是擴(kuò)展服務(wù)。
與在標(biāo)準(zhǔn)的環(huán)繞聲工作流程中相比,沉浸式音頻的音頻源、音頻流和對象的數(shù)量更高,為保持工作流程的定時/同步完整性,可能需要更全面的PTP網(wǎng)絡(luò)規(guī)程?;A(chǔ)設(shè)施的主要考慮因素將是流量和帶寬管理、QoS處理和適當(dāng)?shù)腜TP網(wǎng)絡(luò)層次結(jié)構(gòu)處理。
從廣義上看,交換基礎(chǔ)設(shè)施方面的一個響應(yīng)是與自動播出、控制和調(diào)度平臺集成,因為它們通過控制的方式反映了工作流程的意圖。更具體地說,處理基礎(chǔ)設(shè)施,廣播公司將需要使用可以顯示用于控制和配置的北向API的PTP可知的管理型IP交換機(jī)。
從網(wǎng)絡(luò)的角度來看,廣播公司可能會考慮根據(jù)類別,將音頻源和對象捆綁在一起,例如源位置、被“收集”的聲音類型和要捕獲的特定效果。音頻流作為可以四處移動的對象得到管理,當(dāng)?shù)讓踊A(chǔ)設(shè)施能夠以對人類大腦有意義的方式聚合數(shù)據(jù)時,這是有益的。
為了保持?jǐn)?shù)據(jù)流和數(shù)據(jù)的邏輯組織,與能夠靈活地管理此流量、憑借VLAN進(jìn)行分組并確保加入恰當(dāng)?shù)腝oS的交換基礎(chǔ)設(shè)施協(xié)同工作是很有用的。這在其它類型的通信(如內(nèi)部通話、元數(shù)據(jù))依賴于相同的基礎(chǔ)設(shè)施場合的工作流程中特別重要。
為支持沉浸式工作流程,Artel的AoIP、管理型和支持PTP的交換機(jī)提供這種水平的流量控制/管理和PTP功能。該公司Quarra系列交換機(jī)中的邊界時鐘功能提供對PTP網(wǎng)絡(luò)進(jìn)行分區(qū)的工具,以實現(xiàn)更好的性能。(音頻源智能分區(qū)可以防止PTP主時鐘過載狀態(tài))。特別是對于直播活動,廣播公司可能會考慮根據(jù)哪些交換機(jī)服務(wù)哪些源來部署他們的網(wǎng)絡(luò)。
先進(jìn)的IP交換機(jī)簡化采用
沉浸式音頻仍然處于相對早期的發(fā)展階段,還沒有標(biāo)準(zhǔn)配置獲業(yè)界采用。廣播公司已經(jīng)對5.1.2、5.1.4和7.1.4進(jìn)行了試驗,5.1.4似乎提供了出色的3D體驗,同時還使得基礎(chǔ)設(shè)施轉(zhuǎn)換可管理。
6、行業(yè)現(xiàn)狀與相關(guān)應(yīng)用
有關(guān)行業(yè)現(xiàn)狀,聲場采集部分一階Ambisonics(FOA,F(xiàn)irst-Order Ambisonics)已經(jīng)很常見了,并且同時也出現(xiàn)很多高階Ambisonics(HOA,Higher-Order Ambisonics)的采集。VR對于Ambisonic存在很強(qiáng)大的助推,Google和Facebook也在提供支持。得益于一些主流公司的支持,大家對此技術(shù)有了更多的認(rèn)知和重視。
專業(yè)領(lǐng)域則主要是Object Audio和HOA兩大趨勢,接下來隨著5G、AR、VR的發(fā)展沉浸式音頻技術(shù)的未來是非??善诘?。
關(guān)于沉浸式音頻技術(shù)的相關(guān)應(yīng)用,毫無疑問影視娛樂,VR是最主要的應(yīng)用,例如各家影院的杜比全景聲可以說是非常常見的。此外,在我認(rèn)為會議其實是非很好的應(yīng)用點(diǎn),大家都希望能有一個很好的沉浸式的會議體驗。另外,還有聲場采集以及在其它聲學(xué)領(lǐng)域的應(yīng)用,例如聲學(xué)事件監(jiān)測,定位等也逐漸開始出現(xiàn)一些應(yīng)用。
來源:孫學(xué)京
評論comment