高文:城市大腦2.0已來,數字視網膜是核心驅動力
來源:CPS中安網 編輯:lsy631994092 2020-08-13 10:02:25 加入收藏
2020年年初國家提出的“新基建”,為技術變遷和行業(yè)發(fā)展,帶來了新的時代機遇,而智慧城市也成為全國城市發(fā)展變革的重要一環(huán)。
城市大腦是現(xiàn)有智慧城市中的一個核心系統(tǒng),它將算力及數據匯聚到一起,加上算法,就能發(fā)揮巨大的作用。
比如,將網絡數據、政務數據、社會數據等等,匯集到一起,然后提供一個云計算服務,就可以提升政府效率、加速企業(yè)創(chuàng)新、促進生活便捷。
在智慧城市系統(tǒng)之中,匯集了各類各樣的數據,其中有90%左右的數據都與圖像、視頻相關聯(lián),如何處理好圖像和視頻數據,在城市大腦系統(tǒng)中是非常關鍵的要素。
那么,現(xiàn)在城市大腦系統(tǒng)的發(fā)展到了哪個階段?從系統(tǒng)1.0到2.0,哪些痛點被解決了?技術又有哪些創(chuàng)新呢?
在8月7日第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)上,中國工程院院士、鵬城實驗室主任高文,分享了主題為《城市大腦2.0-邊端云處理分工的人工智能賦能系統(tǒng)》的報告。
高文院士在報告中,從城市大腦1.0的現(xiàn)狀、問題,談到城市大腦2.0的創(chuàng)新、優(yōu)勢,以及智慧城市發(fā)展的關鍵技術和能力。
01 城市大腦1.0的現(xiàn)狀
城市大腦是智慧城市的核心系統(tǒng),是算力和數據的匯聚地,是生產力和生產資料的集中展現(xiàn)。
它也是超大規(guī)模的人工視覺系統(tǒng)應用,通過數據的匯聚、治理、計算、分析、挖掘和調度,完成數據的全流程加工,面向行業(yè)提供不同層次的產品和服務。
所以,視覺認知計算(VCC)是城市大腦的核心。目前,視頻存儲、分析與識別都在云上完成,分析識別的視頻路數與云服務器的算力成正比。
在現(xiàn)有的系統(tǒng)中,數據基本以圖像與視頻兩種形式進入:
第一種模式:攝像頭就是一個簡單的傳感器,捕捉到圖像或者視頻以后,進行一個編碼壓縮,傳送給云端,云端將它存儲起來。
也可能將它解碼之后進行分析,識別出人臉、車輛,或者進行交通數據的分析等等,這是一種信息或者數據感知的模式。
另一種模式叫做智能終端,在攝像頭這一端就把人臉或者車牌等信息識別出來,識別出來的信息被傳送到云端,直接可以進行分析使用。
這兩種模式是目前城市大腦中數據使用的主要模式,當然這兩種模式都多多少少存在一些問題。
如果僅僅作為一個感知終端,后面如果需要調用,除了解碼以外,還要進行特征提取等工作,需要大量的計算程序,這些計算非常耗費云計算的算力資源。另外,智能終端還無法識別出未被指定的人或物。
所以,城市大腦需要一個更好的系統(tǒng),這個系統(tǒng)不僅云上算力資源需求不多,而且可以完成一些未經規(guī)定的動作。
換句話說,以云計算為核心的城市大腦1.0 目前存在的一些問題是,系統(tǒng)各個部分分工協(xié)調不太好,系統(tǒng)成本比較高,響應速度慢,數據的可利用度比較低。
如果要從1.0演進到2.0,首先要面臨一些挑戰(zhàn):
第一,海量數據≠大數據
現(xiàn)在的城市大腦1.0,它是一個具有海量數據的系統(tǒng),但是這個海量數據并不等于大數據,因為90%的海量數據都是沒有結構化的,只是進行了一個簡單的編碼壓縮。
第二,數據海量 vs 低價值
另外,這些數據的價值也比較低,它不是結構化的,你無法在上面進行分析,這也是為什么很多智慧城市的視頻數據,一段時間之后就被覆蓋了。
高文院士表示,問題的實質是現(xiàn)有城市大腦里的數據表達是不到位的。
如果只是在感知數據后,將編碼壓縮送到云端,它還是一個非結構化的數據;如果能把它識別出來是張三、李四,或者車牌號多少,雖然它已經結構化了,但是它是過度結構化的,對于沒有規(guī)定的任務就無法執(zhí)行了。
所以需要一種泛化能力更強的數據表達,這個數據的表達是一個機緣表達,用這些機緣既可以完成現(xiàn)有的任務,也可以完成現(xiàn)在還沒有定義的一些任務。
這些數據表達想要得到一個比較好的結果,整個系統(tǒng)就必須做得好,包括系統(tǒng)的智力、性能(響應時間、并發(fā)、吞吐)、效率(耗電多大)等等。
如果某套系統(tǒng)可以通過評測,那就代表這套系統(tǒng)比較智能化了。
城市大腦1.0系統(tǒng)的弊端在于:它的智能代價比較高,要么是造價高、要么就是耗電高。
如果要將城市大腦1.0升級到2.0,高文院士表示,可以借鑒人的視覺系統(tǒng),比如人的視網膜、視覺通道、大腦分工是非常協(xié)調和高效的。
從視網膜傳到大腦之間,是一個特征壓縮,被稱為:特征編碼,但這個編碼和現(xiàn)在傳統(tǒng)的圖像編碼并不一樣,它是一個特征壓縮編碼的東西送到大腦中去。
城市大腦2.0就是借鑒這樣一個系統(tǒng)提出的一個體系架構,不僅能傳特征,還能傳壓縮圖像。這個體系架構需要數字視網膜的技術及其標準化,現(xiàn)在這些思路、技術、標準化都逐步到位。
02 城市大腦2.0 :數字視網膜
高文院士認為,城市大腦2.0是一個邊、端、云合理分工的系統(tǒng),而把邊、端、云結合的最核心的技術叫做數字視網膜,它是整個城市大腦2.0里面一個基本架構,又被稱為仿生視網膜的計算架構。
數字視網膜目前有8個特征可以定義它:
1、 使用全網統(tǒng)一的時間;
2、 可定位,可標識,提供精確地理位置,如GPS、Baidou北斗;
3、 視頻編碼:為了存儲和離線觀看的影像重構;
4、 特征編碼:為了模式識別和場景理解的緊湊特征表示;
5、 聯(lián)合優(yōu)化:模擬生物視網膜,支持視頻流與特征流聯(lián)合編碼優(yōu)化,城市大腦有兩個碼流,視頻編碼壓縮流和特征編碼壓縮流,這兩個碼流會捆綁到一起進行傳輸,所以要有一個優(yōu)化策略,把這個帶寬到底分多少給視頻編碼、分多少給特征編碼,通過一個聯(lián)合優(yōu)化,使得整個系統(tǒng)達到最優(yōu)。
6、 模型可更新:支持端/邊深度學習模型的自適應遷移、壓縮、更新與轉換;
7、 注意可調節(jié):模擬視覺注意機制,在端設備、感知網絡等層面實現(xiàn)動態(tài)注意調節(jié);現(xiàn)在的攝像頭沒有“注意”,只能人工拉近拉遠調節(jié)它,做不到自動的注意可調節(jié)。
8、 軟件可定義:支持端邊云協(xié)同計算與推理,實現(xiàn)特征實時匯聚與視頻按需調取。系統(tǒng)要想升級,可以通過軟件定義的方法,對系統(tǒng)自動升級。
要想把數字視網膜技術全部用起來,這里面有一些使能技術。
第一個使能技術,是視頻編碼。
現(xiàn)在做城市大腦、監(jiān)控系統(tǒng)都離不開視頻編碼,攝像頭里面都有一個視頻編碼芯片,視頻編碼芯片用的標準,最早期是H.264,或者用AVS的編碼標準。
最近開始使用H.265或者AVS2的標準,未來不久就會用上H.266和AVS3的標準,這個標準差不多每10年就會更新一代,效率每10年就會提高一倍。
為什么能夠做到編碼壓縮?一個視頻就是一個圖像序列,圖像序列里面包含了很多數據的冗余,基本上有三大類冗余:一類是和空間冗余有關的,一類是和時間冗余有關的,另外一類是和編碼冗余有關的。
現(xiàn)在整個視頻編碼里面用的算法,叫做混合視頻編碼架構,這個混合就把剛才三種主流的冗余用不同的算法去掉。
比如說為了去除空間冗余,一般我們采用正交變換,比如說DCP變換等把它去除掉。
為了去除時間上的冗余,就是幀和幀上的冗余,一般我們會采取預測編碼,比如說各種各樣的濾波器,把幀間的冗余去除掉。
為了使得編碼的分配最符合熵的定義,可以使用信息熵編碼來去除編碼上的冗余。
這三個冗余都去除干凈了,整個視頻流里就可以壓得很小,只有有用的信息、有用的數據甩出去,這些冗余都被擠壓掉了,這是視頻編碼。
要想把視頻編碼做得好,算法要做得很精,隨著時間的推移,可以用計算、帶寬把這些東西一點點都去除掉。
第二個使能技術,是特征編碼。
這是非常關鍵的一個使能技術,這個技術的標準有兩部分核心的內容,一部分叫CDVS,一部分叫CDVA,它們也是國際標準MPEG-7里面的兩部分。
為什么要做視覺特征的壓縮呢?因為根據不同的特征,提取出來的特征數據可能很大,如果不壓縮的話,特征數據可能比圖像本身都大,所以要么就傳個圖像過去,要傳特征的話數據太大,所以就要對它進行特征壓縮。
怎么進行壓縮?如果是先把圖像編碼傳過去,再提取特征,再進行識別,和先把特征提取出來,然后把特征傳過去再識別,這兩個其實有一個剪刀差,可能有時候識別率會相差百分之二三十。
先壓縮了以后,可能有一些比較有用的特征丟了,因為所謂編碼壓縮,它是保留公共部分,把一些非公共的、非常見的東西壓縮掉了,而非常見的部分恰恰可能是特征,所以把這個打磨掉以后,它的識別率可能就下來了,所以要先提特征,再在云端技術識別這樣一個技術策略。
當然先提特征,怎么樣提的特征體量比較小,我們初期是采用手工作業(yè)的策略,當然手工特征怎么支持深度學習,這是另外一個問題,后面我們做了第一版以后,又專門做了一個面向深度學習的編碼壓縮的框架,這個主要是給小視頻來做的,有了這兩個部分以后,基本上可以應對圖像特征編碼和視頻特征編碼這兩個需求。
第三個使能技術,叫做聯(lián)合優(yōu)化。
所謂聯(lián)合優(yōu)化,就是在視頻編碼和特征編碼之間,要找到一個最優(yōu)的結合點,使得這兩個流捆綁到一起的時候,腦力分配是最優(yōu)的,上面這個流是視頻壓縮流,下面這個流是特征壓縮流,這樣送到云里,它倆合起來是最優(yōu)的。
怎么能夠做到最優(yōu)呢?因為各自的優(yōu)化模型都是有的,比如現(xiàn)在看到的這些是上面這部分,它是一個視頻編碼優(yōu)化的流程,上面的虛線是視頻編碼,下面的虛線是特征編碼,這兩個編碼在右端,合成一個流,就是視頻和特征流。
這一個流怎么樣優(yōu)化呢?要設置一個聯(lián)合優(yōu)化流程,把它放到一起去優(yōu)化。視頻編碼的優(yōu)化模型叫RBO,RBO就是給定碼率損失最小的優(yōu)化模型,它的優(yōu)化曲線就是右下角這個曲線。在識別特征表達方面,它有一個RAO,就是給定碼率,讓精確度最高的優(yōu)化模型。
這個優(yōu)化模型給的曲線是反過來的,所以把這兩個需要優(yōu)化的東西給它放到一個優(yōu)化函數里面表達出來,就是這張圖的表達,根據這個東西聯(lián)合求解一個優(yōu)化的解。
第四個使能技術,是深度學習模型編碼的使能技術。
就是通過多模型的重用,通過模型壓縮更新來做。這是深度學習怎么樣去通過重用,去使得整個模型的重用精度更高。
這個重用既包括現(xiàn)有模型的重復使用,也根據目標模型訓練所得到的提升,使得優(yōu)化做得更好。
多模型重用,如果是在學習體系里面把它用好的話,它的性能就可以提高得比較好,所以怎么樣使得這個多模型編碼壓縮,使得在重用當中可以快速地更新一個模型,就使得這個性能不停地提升,這兩個就是模型編碼的主要動機,有了這個就可以使得當模型訓練完了以后,壓縮完了以后就可以快速推到終端去升級模型。
上面這些使能技術,最后它要匯總到一個芯片里面,這個芯片現(xiàn)在在北大杭州研究院下面的一家公司做出來了,第一個數字視網膜的芯片叫GV9531,剛才的8個特性,這個芯片全都是支持的。
除了數字視網膜本身以外,現(xiàn)在配合人工智能技術的推進,也在推動中國的一些AI技術的國家標準,包括神經網絡模型表示與壓縮的標準、城市級大數據匯集關聯(lián)的規(guī)范和標準,包括這些標準研究開發(fā)的路線圖,什么時候要把哪個標準提出來完成等等。
數字視網膜,簡單來說是三個編碼流合并的系統(tǒng),當然前兩個是最主要的,就是視頻流和特征流,這兩個流時時刻刻都是匯集到一起進行傳輸的,第三個是模型編碼,只是在模型需要壓縮的時候,從云端推到邊緣端或者終端上,進行一些增量的更新。
03 城市大腦2.0的優(yōu)勢
城市大腦1.0是一個以云計算為核心的系統(tǒng),由于系統(tǒng)各個部分分工協(xié)調不太好,所以系統(tǒng)成本比較高,響應速度慢,數據的可利用度比較低。借鑒人的視覺系統(tǒng),比如說人的視網膜、視覺通道、大腦分工非常協(xié)調,非常合理。
城市大腦2.0的核心在于數字視網膜及其標準化,它相較城市大腦1.0具備四大方面的性能提升:
1、它有先進視頻編碼技術:節(jié)省存儲和帶寬50%以上;
2、它可以定制ASIC邊緣計算:節(jié)省云計算資源90%以上;
3、它能在原始圖像上特征提?。旱脱訒r和高精度;
4、它還可以做標準化特征的提取,存儲和復用:顯著提升信息密度和價值。
現(xiàn)在鵬城實驗室對城市大腦2.0——鵬城云腦,有一些較完整的設計和規(guī)劃,鵬城云腦到現(xiàn)在為止已經投入了幾十億元去打造,鵬城云腦只有100P的算力,雖然說只有100P的算力,這也是到目前為止國內作為AI訓練算力最大的一套系統(tǒng)。
后面還會有更強的系統(tǒng),現(xiàn)在有一個原型,可以有數據進來,對數據進行標注、采集,可以進行訓練,訓練完了以后就可以用剛才這些和芯片有關的系統(tǒng)進行提取,然后可以分析和識別。
這個原型系統(tǒng),一般邊緣用的,甚至在云端大數據服務里面用的東西,現(xiàn)在都在逐步進入系統(tǒng),上面會有各種各樣的參考軟件,去配合硬件的東西,最上面是開源的算法訓練,有這些東西之后,將來在鵬城云腦上就會對城市大腦進行比較強有力的支持。
當然這個系統(tǒng)要想完善,可能還需要一點時間,還需要在更多的地方去做實驗驗證,等這些技術都成熟了,標準全都到位了,甚至城市大腦2.0真正運營起來,對中國的城市化、智能城市等等方面會有一個比較大的貢獻。
評論comment