語音識別技術(shù)分析
來源:數(shù)字音視工程網(wǎng) 編輯:數(shù)字音視工程 2013-01-06 10:17:10 加入收藏
聲音識別系統(tǒng)的發(fā)展得益于便宜的硬件,大多數(shù)的計算機都有聲卡和麥克風(fēng)。
但是聲音識別系統(tǒng)比指紋識別系統(tǒng)有更高的誤識率,因為人的聲音不像指紋那樣具備唯一性。
生物識別指從生理和行為特征上自動辨識人類的身份,包括面部、虹膜、靜脈、語音、簽名和指紋識別,以及掌形識別。要被辨識的人必須親自站在識別器前,這樣的辨識技術(shù)不需要記密碼或攜帶識別證和智能卡。
隨著個人身份號碼和密碼使用的快速增長,有必要限制對這些敏感數(shù)據(jù)的訪問。替代了個人身份號碼和密碼,讓生物識別技術(shù)使用更方便,能夠阻止對ATM機、識別證和智能卡、移動電話、PC機、工作站和計算機網(wǎng)絡(luò)等未授權(quán)的訪問或是欺詐性地使用。個人身份號碼和密碼可能會被忘掉,識別證類的方法如護(hù)照、駕照和保險卡也可能被遺忘、被偷竊或丟失。
各種各樣的生物識別系統(tǒng)現(xiàn)在被用作實時識別。最常見的是面部識別和指紋識別,此外,還有其他運用虹膜和視網(wǎng)膜掃描、語音、面部和掌形等的生物識別系統(tǒng)。
語音識別
語音信號表明了語言、語音生理上的呈現(xiàn)方式和類型,以及說話者的身體和情緒狀態(tài)。20世紀(jì)60年代早期,貝爾實驗室的Lawrence Kersta在計算機語者驗證技術(shù)上邁出了重要的第一步,他在由復(fù)雜的電動機械設(shè)備產(chǎn)生的聲譜圖中引入了聲波紋的概念,聲波紋同視覺比較的驗證運算法則相匹配。
為了進(jìn)行語者辨識而記錄人們的聲音,這需要用語音來展現(xiàn)說話的行為和方式,語音識別是生物行為識別的一部分。語音信號是十分復(fù)雜的,它可以很容易地被普通的麥克風(fēng)捕捉。然而,同其他生物識別技術(shù)如指紋識別相比,聲音識別不是很穩(wěn)定。
自動語者識別的先進(jìn)方法要求隨機的語者模型,模型具有不同的語音特點,它可以區(qū)分高級和低級信息。高級信息包括方言、口音、談話風(fēng)格和主題樣式,這些特征現(xiàn)在只能被人辨識和分析。低級信息包括音高周期、節(jié)奏、音調(diào)、聲譜級和個人聲音的頻率和帶寬。
雖然較高質(zhì)量的聲音采集設(shè)備可以提高辨識的性能,但通過麥克風(fēng)或普通電話也可進(jìn)行。硬件的價格現(xiàn)在非常低,幾乎每一臺PC都有麥克風(fēng),或是很容易連接麥克風(fēng)。
聲音識別對沙啞或是模仿的聲音不是很有效。如果遇到這種情況,系統(tǒng)將不能辨認(rèn)使用者。此外如果麥克風(fēng)質(zhì)量很差或背景很嘈雜,辨識的準(zhǔn)確率會降低。聲音識別由于有較高的誤識率,所以它較少被單獨用到,往往會輔以更高辨識率的技術(shù),如指紋掃描。而且語音會隨著時間變化而改變,所以需要相應(yīng)的樣版和方法。
不同語者的語音變化和同一語者的語音變化
不同語者的語音變化是由個人不同的嗓音特征造成的,為區(qū)分不同的語者提供有用的信息。同一語者的語音變化是指語者不能以完全相同的方式重復(fù)同一詞匯或句子的發(fā)音。
同一語者的語音變化包括不同說話速度、情緒狀態(tài)和說話環(huán)境,它會導(dǎo)致語音識別系統(tǒng)表現(xiàn)的下降。所以需要選擇可以顯示較少同一語者語音變化,而較多不同語者語音變化的參數(shù)。在許多語音識別的應(yīng)用中,通過要求使用者說出含有和訓(xùn)練語句相同文本和詞匯的測試語句,來減少同一語者的語音變化。
語音識別系統(tǒng)被分為文本相關(guān)的和文本無關(guān)兩種。文本相關(guān)系統(tǒng)要求使用者重復(fù)指定的話語,通常包含與訓(xùn)練信息相同的文本,文本無關(guān)的系統(tǒng)則沒有這樣的限制。在文本相關(guān)的系統(tǒng)中,大家熟知的詞匯或詞組信息可以用來提高辨識的表現(xiàn)。
語音識別系統(tǒng)提示客戶在新的場合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統(tǒng)也不會被錄音欺騙。文本相關(guān)的聲音識別方法可以分為動態(tài)時間伸縮或隱馬爾可夫模型方法。文本無關(guān)聲音識別已經(jīng)被研究很長時間了,不一致環(huán)境造成的性能下降是應(yīng)用中的一個很大的障礙。
工作原理
動態(tài)時間伸縮方法使用瞬間的、變動倒頻。1963年Bogert et al出版了《回聲的時序倒頻分析》。通過交換字母順序,他們用一個含義廣泛的詞匯定義了一個新的信號處理技術(shù),倒頻譜的計算通常使用快速傅立葉變換。
從1975年起,隱馬爾可夫模型變得很流行。運用隱馬爾可夫模型的方法,頻譜特征的統(tǒng)計變差得以測量。文本無關(guān)語音識別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。
平均頻譜法使用有利的倒頻距離,語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語者的一套短期訓(xùn)練的特征向量可以直接用來描繪語者的本質(zhì)特征。但是,當(dāng)訓(xùn)練向量的數(shù)量很大時,這種直接的描繪是不切實際的,因為存儲和計算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來壓縮訓(xùn)練數(shù)據(jù)。Montacie et al在倒頻向量的時序中應(yīng)用多變量自回歸模式來確定語者特征,取得了很好的效果。
想騙過語音識別系統(tǒng)要有高質(zhì)量的錄音機,那不是很容易買到的。一般的錄音機不能記錄聲音的完整頻譜,錄音系統(tǒng)的質(zhì)量損失也必須是非常低的。對于大多數(shù)的語音識別系統(tǒng),模仿的聲音都不會成功。用語音識別來辨認(rèn)身份是非常復(fù)雜的,所以語音識別系統(tǒng)會結(jié)合個人身份號碼識別或芯片卡。
語音識別系統(tǒng)得益于廉價的硬件設(shè)備,大多數(shù)的計算機都有聲卡和麥克風(fēng),也很容易使用。但語音識別還是有一些缺點的。語音隨時間而變化,所以必須使用生物識別模板。語音也會由于傷風(fēng)、嗓音沙啞、情緒壓力或是青春期而變化。語音識別系統(tǒng)比指紋識別系統(tǒng)有著較高的誤識率,因為人們的聲音不像指紋那樣獨特和唯一。對快速傅立葉變換計算來說,系統(tǒng)需要協(xié)同處理器和比指紋系統(tǒng)更多的效能。目前語音識別系統(tǒng)不適合移動應(yīng)用或以電池為電源的系統(tǒng)。
評論comment