高文：城市大腦2.0已來，數(shù)字視網(wǎng)膜是核心驅(qū)動力

來源：CPS中安網(wǎng) 編輯：lsy631994092 2020-08-13 10:02:25 加入收藏咨詢

咨詢

所在單位:	*
姓名:	*
手機:	*
職位:
郵箱:	*
其他聯(lián)系方式:
咨詢內(nèi)容:
驗證碼:	不能為空驗證碼錯誤

確定

在8月7日第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)上，中國工程院院士、鵬城實驗室主任高文，分享了主題為《城市大腦2.0-邊端云處理分工的人工智能賦能系統(tǒng)》的報告。報告從城市大腦1.0的現(xiàn)狀、問題，談到城市大腦2.0的創(chuàng)新、優(yōu)勢，以及智慧城市發(fā)展的關(guān)鍵技術(shù)和能力。

　　2020年年初國家提出的“新基建”，為技術(shù)變遷和行業(yè)發(fā)展，帶來了新的時代機遇，而智慧城市也成為全國城市發(fā)展變革的重要一環(huán)。

　　城市大腦是現(xiàn)有智慧城市中的一個核心系統(tǒng)，它將算力及數(shù)據(jù)匯聚到一起，加上算法，就能發(fā)揮巨大的作用。

　　比如，將網(wǎng)絡(luò)數(shù)據(jù)、政務(wù)數(shù)據(jù)、社會數(shù)據(jù)等等，匯集到一起，然后提供一個云計算服務(wù)，就可以提升政府效率、加速企業(yè)創(chuàng)新、促進生活便捷。

　　在智慧城市系統(tǒng)之中，匯集了各類各樣的數(shù)據(jù)，其中有90%左右的數(shù)據(jù)都與圖像、視頻相關(guān)聯(lián)，如何處理好圖像和視頻數(shù)據(jù)，在城市大腦系統(tǒng)中是非常關(guān)鍵的要素。

　　那么，現(xiàn)在城市大腦系統(tǒng)的發(fā)展到了哪個階段?從系統(tǒng)1.0到2.0，哪些痛點被解決了?技術(shù)又有哪些創(chuàng)新呢?

　　在8月7日第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)上，中國工程院院士、鵬城實驗室主任高文，分享了主題為《城市大腦2.0-邊端云處理分工的人工智能賦能系統(tǒng)》的報告。

　　高文院士在報告中，從城市大腦1.0的現(xiàn)狀、問題，談到城市大腦2.0的創(chuàng)新、優(yōu)勢，以及智慧城市發(fā)展的關(guān)鍵技術(shù)和能力。

　　01 城市大腦1.0的現(xiàn)狀

　　城市大腦是智慧城市的核心系統(tǒng)，是算力和數(shù)據(jù)的匯聚地，是生產(chǎn)力和生產(chǎn)資料的集中展現(xiàn)。

　　它也是超大規(guī)模的人工視覺系統(tǒng)應(yīng)用，通過數(shù)據(jù)的匯聚、治理、計算、分析、挖掘和調(diào)度，完成數(shù)據(jù)的全流程加工，面向行業(yè)提供不同層次的產(chǎn)品和服務(wù)。

　　所以，視覺認(rèn)知計算(VCC)是城市大腦的核心。目前，視頻存儲、分析與識別都在云上完成，分析識別的視頻路數(shù)與云服務(wù)器的算力成正比。

　　在現(xiàn)有的系統(tǒng)中，數(shù)據(jù)基本以圖像與視頻兩種形式進入:

　　第一種模式：攝像頭就是一個簡單的傳感器，捕捉到圖像或者視頻以后，進行一個編碼壓縮，傳送給云端，云端將它存儲起來。

　　也可能將它解碼之后進行分析，識別出人臉、車輛，或者進行交通數(shù)據(jù)的分析等等，這是一種信息或者數(shù)據(jù)感知的模式。

　　另一種模式叫做智能終端，在攝像頭這一端就把人臉或者車牌等信息識別出來，識別出來的信息被傳送到云端，直接可以進行分析使用。

　　這兩種模式是目前城市大腦中數(shù)據(jù)使用的主要模式，當(dāng)然這兩種模式都多多少少存在一些問題。

　　如果僅僅作為一個感知終端，后面如果需要調(diào)用，除了解碼以外，還要進行特征提取等工作，需要大量的計算程序，這些計算非常耗費云計算的算力資源。另外，智能終端還無法識別出未被指定的人或物。

　　所以，城市大腦需要一個更好的系統(tǒng)，這個系統(tǒng)不僅云上算力資源需求不多，而且可以完成一些未經(jīng)規(guī)定的動作。

　　換句話說，以云計算為核心的城市大腦1.0 目前存在的一些問題是，系統(tǒng)各個部分分工協(xié)調(diào)不太好，系統(tǒng)成本比較高，響應(yīng)速度慢，數(shù)據(jù)的可利用度比較低。

　　如果要從1.0演進到2.0，首先要面臨一些挑戰(zhàn)：

　　第一，海量數(shù)據(jù)≠大數(shù)據(jù)

　　現(xiàn)在的城市大腦1.0，它是一個具有海量數(shù)據(jù)的系統(tǒng)，但是這個海量數(shù)據(jù)并不等于大數(shù)據(jù)，因為90%的海量數(shù)據(jù)都是沒有結(jié)構(gòu)化的，只是進行了一個簡單的編碼壓縮。

　　第二，數(shù)據(jù)海量 vs 低價值

　　另外，這些數(shù)據(jù)的價值也比較低，它不是結(jié)構(gòu)化的，你無法在上面進行分析，這也是為什么很多智慧城市的視頻數(shù)據(jù)，一段時間之后就被覆蓋了。

　　高文院士表示，問題的實質(zhì)是現(xiàn)有城市大腦里的數(shù)據(jù)表達(dá)是不到位的。

　　如果只是在感知數(shù)據(jù)后，將編碼壓縮送到云端，它還是一個非結(jié)構(gòu)化的數(shù)據(jù);如果能把它識別出來是張三、李四，或者車牌號多少，雖然它已經(jīng)結(jié)構(gòu)化了，但是它是過度結(jié)構(gòu)化的，對于沒有規(guī)定的任務(wù)就無法執(zhí)行了。

　　所以需要一種泛化能力更強的數(shù)據(jù)表達(dá)，這個數(shù)據(jù)的表達(dá)是一個機緣表達(dá)，用這些機緣既可以完成現(xiàn)有的任務(wù)，也可以完成現(xiàn)在還沒有定義的一些任務(wù)。

　　這些數(shù)據(jù)表達(dá)想要得到一個比較好的結(jié)果，整個系統(tǒng)就必須做得好，包括系統(tǒng)的智力、性能(響應(yīng)時間、并發(fā)、吞吐)、效率(耗電多大)等等。

　　如果某套系統(tǒng)可以通過評測，那就代表這套系統(tǒng)比較智能化了。

　　城市大腦1.0系統(tǒng)的弊端在于：它的智能代價比較高，要么是造價高、要么就是耗電高。

　　如果要將城市大腦1.0升級到2.0，高文院士表示，可以借鑒人的視覺系統(tǒng)，比如人的視網(wǎng)膜、視覺通道、大腦分工是非常協(xié)調(diào)和高效的。

　　從視網(wǎng)膜傳到大腦之間，是一個特征壓縮，被稱為：特征編碼，但這個編碼和現(xiàn)在傳統(tǒng)的圖像編碼并不一樣，它是一個特征壓縮編碼的東西送到大腦中去。

　　城市大腦2.0就是借鑒這樣一個系統(tǒng)提出的一個體系架構(gòu)，不僅能傳特征，還能傳壓縮圖像。這個體系架構(gòu)需要數(shù)字視網(wǎng)膜的技術(shù)及其標(biāo)準(zhǔn)化，現(xiàn)在這些思路、技術(shù)、標(biāo)準(zhǔn)化都逐步到位。

　　02 城市大腦2.0 ：數(shù)字視網(wǎng)膜

　　高文院士認(rèn)為，城市大腦2.0是一個邊、端、云合理分工的系統(tǒng)，而把邊、端、云結(jié)合的最核心的技術(shù)叫做數(shù)字視網(wǎng)膜，它是整個城市大腦2.0里面一個基本架構(gòu)，又被稱為仿生視網(wǎng)膜的計算架構(gòu)。

　　數(shù)字視網(wǎng)膜目前有8個特征可以定義它：

　　1、使用全網(wǎng)統(tǒng)一的時間;

　　2、可定位，可標(biāo)識，提供精確地理位置，如GPS、Baidou北斗;

　　3、視頻編碼：為了存儲和離線觀看的影像重構(gòu);

　　4、特征編碼：為了模式識別和場景理解的緊湊特征表示;

　　5、聯(lián)合優(yōu)化：模擬生物視網(wǎng)膜，支持視頻流與特征流聯(lián)合編碼優(yōu)化，城市大腦有兩個碼流，視頻編碼壓縮流和特征編碼壓縮流，這兩個碼流會捆綁到一起進行傳輸，所以要有一個優(yōu)化策略，把這個帶寬到底分多少給視頻編碼、分多少給特征編碼，通過一個聯(lián)合優(yōu)化，使得整個系統(tǒng)達(dá)到最優(yōu)。

　　6、模型可更新：支持端/邊深度學(xué)習(xí)模型的自適應(yīng)遷移、壓縮、更新與轉(zhuǎn)換;

　　7、注意可調(diào)節(jié)：模擬視覺注意機制，在端設(shè)備、感知網(wǎng)絡(luò)等層面實現(xiàn)動態(tài)注意調(diào)節(jié);現(xiàn)在的攝像頭沒有“注意”，只能人工拉近拉遠(yuǎn)調(diào)節(jié)它，做不到自動的注意可調(diào)節(jié)。

　　8、軟件可定義：支持端邊云協(xié)同計算與推理，實現(xiàn)特征實時匯聚與視頻按需調(diào)取。系統(tǒng)要想升級，可以通過軟件定義的方法，對系統(tǒng)自動升級。

　　要想把數(shù)字視網(wǎng)膜技術(shù)全部用起來，這里面有一些使能技術(shù)。

　　第一個使能技術(shù)，是視頻編碼。

　　現(xiàn)在做城市大腦、監(jiān)控系統(tǒng)都離不開視頻編碼，攝像頭里面都有一個視頻編碼芯片，視頻編碼芯片用的標(biāo)準(zhǔn)，最早期是H.264，或者用AVS的編碼標(biāo)準(zhǔn)。

　　最近開始使用H.265或者AVS2的標(biāo)準(zhǔn)，未來不久就會用上H.266和AVS3的標(biāo)準(zhǔn)，這個標(biāo)準(zhǔn)差不多每10年就會更新一代，效率每10年就會提高一倍。

　　為什么能夠做到編碼壓縮?一個視頻就是一個圖像序列，圖像序列里面包含了很多數(shù)據(jù)的冗余，基本上有三大類冗余：一類是和空間冗余有關(guān)的，一類是和時間冗余有關(guān)的，另外一類是和編碼冗余有關(guān)的。

　　現(xiàn)在整個視頻編碼里面用的算法，叫做混合視頻編碼架構(gòu)，這個混合就把剛才三種主流的冗余用不同的算法去掉。

　　比如說為了去除空間冗余，一般我們采用正交變換，比如說DCP變換等把它去除掉。

　　為了去除時間上的冗余，就是幀和幀上的冗余，一般我們會采取預(yù)測編碼，比如說各種各樣的濾波器，把幀間的冗余去除掉。

　　為了使得編碼的分配最符合熵的定義，可以使用信息熵編碼來去除編碼上的冗余。

　　這三個冗余都去除干凈了，整個視頻流里就可以壓得很小，只有有用的信息、有用的數(shù)據(jù)甩出去，這些冗余都被擠壓掉了，這是視頻編碼。

　　要想把視頻編碼做得好，算法要做得很精，隨著時間的推移，可以用計算、帶寬把這些東西一點點都去除掉。

　　第二個使能技術(shù)，是特征編碼。

　　這是非常關(guān)鍵的一個使能技術(shù)，這個技術(shù)的標(biāo)準(zhǔn)有兩部分核心的內(nèi)容，一部分叫CDVS，一部分叫CDVA，它們也是國際標(biāo)準(zhǔn)MPEG-7里面的兩部分。

　　為什么要做視覺特征的壓縮呢?因為根據(jù)不同的特征，提取出來的特征數(shù)據(jù)可能很大，如果不壓縮的話，特征數(shù)據(jù)可能比圖像本身都大，所以要么就傳個圖像過去，要傳特征的話數(shù)據(jù)太大，所以就要對它進行特征壓縮。

　　怎么進行壓縮?如果是先把圖像編碼傳過去，再提取特征，再進行識別，和先把特征提取出來，然后把特征傳過去再識別，這兩個其實有一個剪刀差，可能有時候識別率會相差百分之二三十。

　　先壓縮了以后，可能有一些比較有用的特征丟了，因為所謂編碼壓縮，它是保留公共部分，把一些非公共的、非常見的東西壓縮掉了，而非常見的部分恰恰可能是特征，所以把這個打磨掉以后，它的識別率可能就下來了，所以要先提特征，再在云端技術(shù)識別這樣一個技術(shù)策略。

　　當(dāng)然先提特征，怎么樣提的特征體量比較小，我們初期是采用手工作業(yè)的策略，當(dāng)然手工特征怎么支持深度學(xué)習(xí)，這是另外一個問題，后面我們做了第一版以后，又專門做了一個面向深度學(xué)習(xí)的編碼壓縮的框架，這個主要是給小視頻來做的，有了這兩個部分以后，基本上可以應(yīng)對圖像特征編碼和視頻特征編碼這兩個需求。

　　第三個使能技術(shù)，叫做聯(lián)合優(yōu)化。

　　所謂聯(lián)合優(yōu)化，就是在視頻編碼和特征編碼之間，要找到一個最優(yōu)的結(jié)合點，使得這兩個流捆綁到一起的時候，腦力分配是最優(yōu)的，上面這個流是視頻壓縮流，下面這個流是特征壓縮流，這樣送到云里，它倆合起來是最優(yōu)的。

　　怎么能夠做到最優(yōu)呢?因為各自的優(yōu)化模型都是有的，比如現(xiàn)在看到的這些是上面這部分，它是一個視頻編碼優(yōu)化的流程，上面的虛線是視頻編碼，下面的虛線是特征編碼，這兩個編碼在右端，合成一個流，就是視頻和特征流。

　　這一個流怎么樣優(yōu)化呢?要設(shè)置一個聯(lián)合優(yōu)化流程，把它放到一起去優(yōu)化。視頻編碼的優(yōu)化模型叫RBO，RBO就是給定碼率損失最小的優(yōu)化模型，它的優(yōu)化曲線就是右下角這個曲線。在識別特征表達(dá)方面，它有一個RAO，就是給定碼率，讓精確度最高的優(yōu)化模型。

　　這個優(yōu)化模型給的曲線是反過來的，所以把這兩個需要優(yōu)化的東西給它放到一個優(yōu)化函數(shù)里面表達(dá)出來，就是這張圖的表達(dá)，根據(jù)這個東西聯(lián)合求解一個優(yōu)化的解。

　　第四個使能技術(shù)，是深度學(xué)習(xí)模型編碼的使能技術(shù)。

　　就是通過多模型的重用，通過模型壓縮更新來做。這是深度學(xué)習(xí)怎么樣去通過重用，去使得整個模型的重用精度更高。

　　這個重用既包括現(xiàn)有模型的重復(fù)使用，也根據(jù)目標(biāo)模型訓(xùn)練所得到的提升，使得優(yōu)化做得更好。

　　多模型重用，如果是在學(xué)習(xí)體系里面把它用好的話，它的性能就可以提高得比較好，所以怎么樣使得這個多模型編碼壓縮，使得在重用當(dāng)中可以快速地更新一個模型，就使得這個性能不停地提升，這兩個就是模型編碼的主要動機，有了這個就可以使得當(dāng)模型訓(xùn)練完了以后，壓縮完了以后就可以快速推到終端去升級模型。

　　上面這些使能技術(shù)，最后它要匯總到一個芯片里面，這個芯片現(xiàn)在在北大杭州研究院下面的一家公司做出來了，第一個數(shù)字視網(wǎng)膜的芯片叫GV9531，剛才的8個特性，這個芯片全都是支持的。

　　除了數(shù)字視網(wǎng)膜本身以外，現(xiàn)在配合人工智能技術(shù)的推進，也在推動中國的一些AI技術(shù)的國家標(biāo)準(zhǔn)，包括神經(jīng)網(wǎng)絡(luò)模型表示與壓縮的標(biāo)準(zhǔn)、城市級大數(shù)據(jù)匯集關(guān)聯(lián)的規(guī)范和標(biāo)準(zhǔn)，包括這些標(biāo)準(zhǔn)研究開發(fā)的路線圖，什么時候要把哪個標(biāo)準(zhǔn)提出來完成等等。

　　數(shù)字視網(wǎng)膜，簡單來說是三個編碼流合并的系統(tǒng)，當(dāng)然前兩個是最主要的，就是視頻流和特征流，這兩個流時時刻刻都是匯集到一起進行傳輸?shù)?，第三個是模型編碼，只是在模型需要壓縮的時候，從云端推到邊緣端或者終端上，進行一些增量的更新。

　　03 城市大腦2.0的優(yōu)勢

　　城市大腦1.0是一個以云計算為核心的系統(tǒng)，由于系統(tǒng)各個部分分工協(xié)調(diào)不太好，所以系統(tǒng)成本比較高，響應(yīng)速度慢，數(shù)據(jù)的可利用度比較低。借鑒人的視覺系統(tǒng)，比如說人的視網(wǎng)膜、視覺通道、大腦分工非常協(xié)調(diào)，非常合理。

　　城市大腦2.0的核心在于數(shù)字視網(wǎng)膜及其標(biāo)準(zhǔn)化，它相較城市大腦1.0具備四大方面的性能提升：

　　1、它有先進視頻編碼技術(shù)：節(jié)省存儲和帶寬50%以上;

　　2、它可以定制ASIC邊緣計算：節(jié)省云計算資源90%以上;

　　3、它能在原始圖像上特征提?。旱脱訒r和高精度;

　　4、它還可以做標(biāo)準(zhǔn)化特征的提取，存儲和復(fù)用：顯著提升信息密度和價值。

　　現(xiàn)在鵬城實驗室對城市大腦2.0——鵬城云腦，有一些較完整的設(shè)計和規(guī)劃，鵬城云腦到現(xiàn)在為止已經(jīng)投入了幾十億元去打造，鵬城云腦只有100P的算力，雖然說只有100P的算力，這也是到目前為止國內(nèi)作為AI訓(xùn)練算力最大的一套系統(tǒng)。

　　后面還會有更強的系統(tǒng)，現(xiàn)在有一個原型，可以有數(shù)據(jù)進來，對數(shù)據(jù)進行標(biāo)注、采集，可以進行訓(xùn)練，訓(xùn)練完了以后就可以用剛才這些和芯片有關(guān)的系統(tǒng)進行提取，然后可以分析和識別。

　　這個原型系統(tǒng)，一般邊緣用的，甚至在云端大數(shù)據(jù)服務(wù)里面用的東西，現(xiàn)在都在逐步進入系統(tǒng)，上面會有各種各樣的參考軟件，去配合硬件的東西，最上面是開源的算法訓(xùn)練，有這些東西之后，將來在鵬城云腦上就會對城市大腦進行比較強有力的支持。

　　當(dāng)然這個系統(tǒng)要想完善，可能還需要一點時間，還需要在更多的地方去做實驗驗證，等這些技術(shù)都成熟了，標(biāo)準(zhǔn)全都到位了，甚至城市大腦2.0真正運營起來，對中國的城市化、智能城市等等方面會有一個比較大的貢獻(xiàn)。

免責(zé)聲明：本文來源于CPS中安網(wǎng)，本文僅代表作者個人觀點，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)

国产成人精品久久二区二区,国产精品碰碰现在自在拍,俄罗斯一级成人毛片,337p欧洲大胆艺术,亚洲不卡护士高清av在线播放,国产短视频精品区第一页,老师喂我乳,我脱他她胸罩

我的位置：

高文：城市大腦2.0已來，數(shù)字視網(wǎng)膜是核心驅(qū)動力

評論comment

【InfoComm 2025】DAV專訪Relacart·力卡：以創(chuàng)新之姿，開啟音頻新紀(jì)元

新疆廣播電視臺4K IP超高清轉(zhuǎn)播車驚艷亮相CCBN2025 -索尼攜手新疆廣電共鑄4K IP超高清制播新紀(jì)元

索尼發(fā)布HDC-F5500V系統(tǒng)攝像機，內(nèi)置光學(xué)無級可變ND濾鏡，深化創(chuàng)作可能！

得勝公司30周年慶典圓滿舉行：卅載光輝，聲聲得勝

我的位置：

share

相關(guān)閱讀related

評論comment