存儲感知世界的視頻編碼
來源:數(shù)字音視工程網(wǎng) 編輯:merry2013 2015-11-27 06:54:41 加入收藏
智慧城市發(fā)展有目共睹,作為一個生態(tài)系統(tǒng),感知是重要一部,通過以視頻監(jiān)控等為基礎(chǔ)搭建的感知物聯(lián)網(wǎng)是數(shù)據(jù)收集的重要環(huán)節(jié),而對數(shù)據(jù)進(jìn)行存儲、分析則成為種種之中。那么在萬物聯(lián)網(wǎng)的世界,視頻監(jiān)控編碼分析、存儲有何挑戰(zhàn)?又如何解決?
視頻編碼與分析的技術(shù)挑戰(zhàn)
在編碼效率方面,大家可能知道,到現(xiàn)在為止,所有視頻系統(tǒng)里面用的都是非常常規(guī)的,通用的視頻編碼的算法和芯片。這個用法對不對呢?實(shí)際上這是不對的,但是現(xiàn)在已經(jīng)形成這種習(xí)慣了,都是這么用的,你不這么用,人家反倒會質(zhì)疑你。當(dāng)然從市場化、從減小成本這個角度來說它是對的。但是從視頻監(jiān)控的目的來看,實(shí)際上是不對的。因?yàn)槟莻€通用的編碼技術(shù),它是為電視服務(wù)的,本身它這個出發(fā)點(diǎn)就是錯的。
目前視頻的自動分析做得不好。因?yàn)樗谙到y(tǒng)設(shè)計的時候,不是為了視頻自動分析這個目的,而是為了視頻存儲和以人為核心的視頻跟蹤,就是一定要有一個人坐在那里看那個大的顯示屏。靠這樣的一套指導(dǎo)思想來設(shè)計現(xiàn)有的智慧城市里面的視頻系統(tǒng),用這樣的一個架構(gòu)去做自動分析,是根本無法實(shí)現(xiàn)的。
隨著時間的推移,監(jiān)控視頻的數(shù)據(jù)占整個大數(shù)據(jù)的比重基本上都在一半或者一半以上這樣一個數(shù)量級。所以數(shù)據(jù)的存儲和處理做好了,大數(shù)據(jù)的問題就解決了大部分?,F(xiàn)在這些大數(shù)據(jù)之所以沒有有效的利用起來,里面很多知識還沒有歸納總結(jié)出來,也是和現(xiàn)有的數(shù)據(jù)積累過程,以及這個系統(tǒng)設(shè)計的出發(fā)點(diǎn)是有關(guān)聯(lián)的。
針對這些問題,我們要找到一個技術(shù)上的切入點(diǎn)來處理。這個切入點(diǎn),要更多的看目前智慧城市里急需的到底是什么。實(shí)際上就是急需事件的追蹤。例如說,有一個人報案,說某家銀行被搶了,劫匪坐了一輛白色的車跑掉了,你有沒有辦法在比較短的時間內(nèi)查到這輛車的位置。
智慧城市中視頻技術(shù)面臨的挑戰(zhàn),就是我們現(xiàn)在面臨的三大問題,一個是監(jiān)控視頻的數(shù)據(jù)存不下,一個是查不準(zhǔn),一個是擋不住。如果我們把這三個問題梳理一下,從技術(shù)上來說就是,一個是編碼的問題,一個是視頻分析與跟蹤的問題,融合起來還有跟GPS、音視頻結(jié)合起來使用的問題。
如果我們把它歸納為技術(shù)挑戰(zhàn),那就是兩個挑戰(zhàn),一個是高效視頻編碼的挑戰(zhàn),當(dāng)然是面向監(jiān)控視頻的。第二個就是如何對分析和檢索進(jìn)行支持。如果大家對視頻編碼和視頻分析稍微熟悉一點(diǎn)的話,你會發(fā)現(xiàn)一個很奇特的現(xiàn)象,就是做視頻編碼的人對視頻分析不感興趣,或者說不太做。反過來,做視頻分析的人對編碼怎么編,基本上做的也不多。為什么會出現(xiàn)這樣的情況?做編碼的人處理的對象是像素和塊,而做分析的人面對的是特征。這兩個一個是踩在地面上,一個是在山頭上,所以這兩伙人很難交匯。我們現(xiàn)在是希望解決這個問題,因?yàn)楸仨毎堰@兩個事一起來做,你才可能做成一個面向智慧城市的技術(shù)。
高效視頻編碼標(biāo)準(zhǔn)
從標(biāo)準(zhǔn)的歷史上來看,實(shí)際上前30年中,基本上所有的貢獻(xiàn)、所有的技術(shù)都是圍繞著通信領(lǐng)域的視頻編碼和廣播里面的視頻編碼做的,前期主要是面向廣播的視頻編碼。當(dāng)然也有面向通信的視頻編碼,后來也出現(xiàn)了兼顧通信和廣播的視頻編碼,但是所有這些編碼都不是面向監(jiān)控的。你可能會說,視頻通信不就是監(jiān)控的一種嗎?有的專家就說,如果你要看現(xiàn)在的視頻監(jiān)控,實(shí)際上它是發(fā)展了三代,第一代是模擬,第二代是數(shù)字,第三代是IP監(jiān)控。這個IP監(jiān)控是在網(wǎng)絡(luò)上,但是不是和編碼有針對性的,所以面向監(jiān)控的編碼,目前國際上沒有人做這樣的標(biāo)準(zhǔn),只有中國人在做。
目前的編碼框架一個是變換編碼,一個是預(yù)測編碼,還有一個是商務(wù)編碼,把這三塊組合起來,稱為混合編碼框架結(jié)構(gòu)。這種編碼技術(shù)已經(jīng)使用了30多年。中國從2002年開始,也組織了一個自己的標(biāo)準(zhǔn),2006年第一版出來之后被ITUT接受為IPTV的一個格式。再后來被廣電和工信部聯(lián)合接受為我們國家地面數(shù)字電視機(jī)頂盒和地面數(shù)字電視一體機(jī)的標(biāo)準(zhǔn),去年AVS的增強(qiáng)檔成了我們國家廣電的行業(yè)標(biāo)準(zhǔn)。去年我們?yōu)榱税堰@個標(biāo)準(zhǔn)國際化,也專門在IEEE的標(biāo)準(zhǔn)化協(xié)會下面成立了一個AVS的工作組,目前這個工作組已經(jīng)把第一版編碼所有的流程走完了。
到現(xiàn)在為止,監(jiān)控檔次實(shí)際上是AVS若干個檔次當(dāng)中的一個。AVS的監(jiān)控檔次引入了一個背景建模技術(shù),這是目前其它的標(biāo)準(zhǔn)里面還沒有非常明確的事情。我們做了一些數(shù)據(jù)分析發(fā)現(xiàn),對于監(jiān)控而言,它看的場景是比較固定的,不管攝像頭是固定不動的還是旋轉(zhuǎn)的,這都不要緊,實(shí)際上它的場景是固定的,一旦這個攝像頭安在這個地方,它就在這個場景下,如果你有辦法把這個場景學(xué)習(xí)下來,用它參與編碼,可以提高編碼效率。如果你用場景建模,它就可以降低以前的碼率,這樣就可以提高它的編碼效率。場景模型這方面就沒有太大的難度,就是我給你一個視頻,把視頻分為前景和后景,前景是場景沒有的東西,背景是原來的場景,如果能這樣有效的分開,任何一個視頻就可以分為前景和背景的組合,就可以分開進(jìn)行編碼,對前景可以多用一點(diǎn)比特,使它幾乎沒有損失,對于背景,可以用相當(dāng)?shù)膮?shù)代替它的場景,減少它的比特。
整個系統(tǒng)工作起來,需要對整個碼流進(jìn)行定義,這些定義會告訴你現(xiàn)在參考的是背景模型,還是實(shí)際碼流。通常我們編碼的時候,它的參考幀都是固定給你的。我們現(xiàn)在就變成需要換參考幀的時候,你可以用模型,也可以用實(shí)際的幀,哪個效果更好,就用哪個。這樣我們就從語法上把這個機(jī)制建立起來了,而且這個機(jī)制可以允許你在原來的框架中增加背景建模。有了這樣一個機(jī)制,我們利用背景建模技術(shù),不單在AVS上可以提高一倍的編碼效率,還可以把它嵌到H.264和HEVC里面,結(jié)果是一樣的,都可以提高原來一倍以上的編碼的效率。這是面向視頻監(jiān)控,面向背景建模的編碼技術(shù)。
關(guān)于視頻分析
現(xiàn)在的分析技術(shù)都是基于把原來的編碼圖象解開了以后來做?,F(xiàn)在的問題是有沒有辦法不用解碼就進(jìn)行分析。這個也是我們需要做實(shí)時響應(yīng)的要點(diǎn)?,F(xiàn)在的系統(tǒng)設(shè)計,完全不是面向視頻分析的,因?yàn)樗谴嬖谀抢?,要用的時候把它解開,然后再進(jìn)行分析的。我們現(xiàn)在試圖找一種方法,就是不用解開,或者不用全解,就來進(jìn)行分析。
AVS有一個監(jiān)控檔次,就可以支持這件事。為了說明這件事可以支持,它可以從幀、區(qū)域、對象、事件等不同層面對這個東西進(jìn)行描述。這里最關(guān)鍵的一個就是ROI區(qū)域,你要對它進(jìn)行描述和表達(dá),將來編碼進(jìn)行闡述的時候,是對這一塊單獨(dú)來做的,當(dāng)進(jìn)行視頻的時候,你只需要對前景,或者說對ROI來分析。
這種思路其實(shí)不僅僅是可以用在AVS上,我有幾個學(xué)生專門把這種思路嵌到HEVC、H.264里面,不但編碼可以提高1倍以上,還可以把感興趣的區(qū)域定位出來。從處理速度上來講,不同的算法可能有的時間長一點(diǎn),有的時間短一點(diǎn)。HEVC的塊的結(jié)構(gòu)組合更靈活,利用它的塊的組合的特點(diǎn),也可以做很多ROI的描述,也可以根據(jù)這種可變塊結(jié)構(gòu)描述,做很高的編碼和識別的工作。
人臉識別是非常重要的,我們也有一個專門的課題做人臉識別的工作。人臉識別最理想的分辨率是100×100,最低的也要50×50,如果再小的話,識別效率就會差。編碼壓縮的力度越大,識別率就會降低得越快。
我們現(xiàn)在追求的目標(biāo)不是光用人臉,實(shí)際是人臉和身體組合在一起去做跟蹤,這樣才會比較有效。因?yàn)楣饪慈四樀脑挘绻直媛什粔?,你很難完成跟蹤的任務(wù),特別是有時候他是背過身來的。我們要把這個對象從頭到腳跟蹤下來,然后找到他正面的圖象,看看是不是你要找的人,如果是的話,你就可以全部回溯,如果不是的話,你就把它丟掉。
現(xiàn)在智慧城市當(dāng)中的視頻系統(tǒng)的設(shè)計,并不是面向智能分析和識別的,所以我們有必要去對這個系統(tǒng)設(shè)計進(jìn)行一些影響,在高效的視頻編碼,我們應(yīng)該可以有一些改進(jìn)。另外基于感興趣區(qū)域的表達(dá),我們也可以有所作為。如果把這兩者聯(lián)合起來,將會是一個很好的創(chuàng)新。
評論comment