語音識(shí)別技術(shù)之自適應(yīng)技術(shù)

來源：網(wǎng)絡(luò) 編輯：ZZZ 2024-02-22 10:05:56 加入收藏咨詢

咨詢

所在單位:	*
姓名:	*
手機(jī):	*
職位:
郵箱:	*
其他聯(lián)系方式:
咨詢內(nèi)容:
驗(yàn)證碼:	不能為空驗(yàn)證碼錯(cuò)誤

確定

　　1. 語音識(shí)別技術(shù)中的自適應(yīng)技術(shù)簡介

　　語音識(shí)別中的自適應(yīng)，即針對(duì)某一個(gè)說話人或者某一domain來優(yōu)化語音識(shí)別系統(tǒng)的識(shí)別性能，使得識(shí)別系統(tǒng)對(duì)他們的性能有一定的提升。語音識(shí)別的自適應(yīng)技術(shù)的目的是為了減少訓(xùn)練集和測(cè)試集說話人或者domain之間差異性造成的語音識(shí)別性能下降的影響。這種差異性主要包括語音學(xué)上的差異還有生理上發(fā)音習(xí)慣上不同導(dǎo)致的差異性等等。自適應(yīng)技術(shù)主要被應(yīng)用于語音識(shí)別技術(shù)相關(guān)的產(chǎn)品，還有針對(duì)VIP客戶的語音識(shí)別等。

　　上述的差異性問題，它容易造成說話人或者domain無關(guān)的識(shí)別系統(tǒng)性能上不好，但是如果針對(duì)該說話人或者domain訓(xùn)練一個(gè)相關(guān)的識(shí)別系統(tǒng)，那么需要收集很多數(shù)據(jù)，這個(gè)成本是很高的。而語音識(shí)別中的自適應(yīng)技術(shù)作為一種折中，它的數(shù)據(jù)量較少，并且性能上也能達(dá)到較好的效果。

　　語音識(shí)別中的自適應(yīng)技術(shù)有很多，根據(jù)自適應(yīng)的空間，可以分成兩類：特征空間自適應(yīng)和模型空間自適應(yīng)。對(duì)于特征空間自適應(yīng)來說，它試圖將相關(guān)的特征通過特征轉(zhuǎn)換成無關(guān)的特征，從而能夠和無關(guān)的模型相匹配。而對(duì)于模型空間的自適應(yīng)來說，它試圖將無關(guān)的模型轉(zhuǎn)換成相關(guān)的模型，從而能夠和相關(guān)的特征相匹配?？偠灾?，這兩類算法目的是為了讓相關(guān)的特征與無關(guān)的模型相匹配。

　　2. INTERPSEECH 2017 paper reading

　　2.1 Paper 1

　　第一篇文章的題目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition，它來自蒙特利爾大學(xué)。這篇文章的主要思想是將layer normalization的scale和shift兩個(gè)參數(shù)由上下文無關(guān)的變成上下文相關(guān)的，從而根據(jù)上下文信息來獲得動(dòng)態(tài)的scale和shift。這是一種模型空間的自適應(yīng)。它的主要?jiǎng)?chuàng)新的地方主要是，它不需要自適應(yīng)階段(自適應(yīng)階段就是使用目標(biāo) domain的數(shù)據(jù)進(jìn)行自適應(yīng)，從而能夠?qū)W習(xí)到目標(biāo)domain的知識(shí))，另外，它同樣不需要提供包含說話人信息的相關(guān)特征，例如i-vector等等。

　　DLN對(duì)應(yīng)的公式如上圖右邊所示，首先，取前一層的minibatch ( TT )大小的隱層矢量或者輸入矢量hl−1thtl−1進(jìn)行summarization，從而獲得alal。然后，通過線性變換矩陣和偏置來動(dòng)態(tài)地控制scale ( αlgαgl )和shift ( βlgβgl )。

　　同時(shí)，在原來的CE訓(xùn)練的基礎(chǔ)上，在目標(biāo)函數(shù)上增加一個(gè)懲罰項(xiàng)(上圖的右下角LvarLvar)，用于增加句子內(nèi)的variance，從而summarization出來的信息會(huì)更加具有區(qū)分性。

　　這篇paper主要是在81小時(shí)的WSJ以及212小時(shí)的TED數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，WSJ的訓(xùn)練集包含283個(gè)說話人，TED的訓(xùn)練集包含5076個(gè)說話人。

　　首先，在WSJ數(shù)據(jù)集上對(duì)比LN和DLN之間的性能，性能主要包括開發(fā)集和測(cè)試集的FER和WER(FER表示幀錯(cuò)誤率，WER表示詞錯(cuò)誤率)?？梢钥闯?，除了測(cè)試集WER外，DLN均優(yōu)于LN。文章分析，這是由于WSJ的說話人數(shù)目較少，導(dǎo)致句子間的差異性不明顯，同時(shí)WSJ數(shù)據(jù)集是在安靜環(huán)境下錄制的，句子都比較平穩(wěn)，DLN不能夠起作用。

　　在TED數(shù)據(jù)集上的結(jié)果如第二個(gè)表格所示，發(fā)現(xiàn)在四個(gè)性能參數(shù)下，DLN均優(yōu)于LN。文章對(duì)比WSJ和TED數(shù)據(jù)，TED數(shù)據(jù)集能夠取得比較好的性能的原因是，TED數(shù)據(jù)集較WSJ speaker數(shù)目更多，句子數(shù)更多，variability更加明顯。通過這篇文章，我們可以發(fā)現(xiàn)這種動(dòng)態(tài)的LN與句子的variability相關(guān)。并且總體上看來，DLN是要優(yōu)于LN。

　　2.2 Paper 2

　　第二篇文章的題目是Large-Scale Domain Adaptation via Teacher-Student Learning，它來自微軟。這篇文章的主要思想是通過teacher/student的結(jié)構(gòu)來進(jìn)行domain adaptation。這種方法不需要目標(biāo) domain的帶標(biāo)注的數(shù)據(jù)。但是，它需要和訓(xùn)練集相同的并行數(shù)據(jù)。它的創(chuàng)新點(diǎn)和價(jià)值主要在于，這種方法可以使用非常多的無標(biāo)注數(shù)據(jù)，同時(shí)借用teacher network的輸出來進(jìn)一步提升student模型的性能。

　　將teacher/student 簡稱為T/S。T/S的訓(xùn)練流圖如上圖右邊所示。Figure 1 中的左側(cè)為teacher network，右側(cè)為student network，它們的輸出后驗(yàn)概率分別設(shè)為PTPT和PSPS。

　　student network的訓(xùn)練過程：首先，將teacher network復(fù)制一份作為student network的初始化。然后，利用student domain data和teacher domain data通過對(duì)應(yīng)的網(wǎng)絡(luò)獲得相應(yīng)的后驗(yàn)概率PTPT和PSPS。最后，利用這兩個(gè)后驗(yàn)概率計(jì)算error signal，進(jìn)行back梯度反傳更新student network。

　　本paper的實(shí)驗(yàn)是在375小時(shí)的英文cortana數(shù)據(jù)上進(jìn)行的。測(cè)試集根據(jù)不同的domain，有不同的測(cè)試集。

　　針對(duì)干凈/帶噪，在Cortana測(cè)試集上進(jìn)行實(shí)驗(yàn)。首先，使用teacher network進(jìn)行測(cè)試，發(fā)現(xiàn)在帶噪語音上測(cè)試性能(18.8%)要遠(yuǎn)差于noise-free的語音(15.62%)。如果通過仿真的方式來訓(xùn)練teacher network，發(fā)現(xiàn)noisy的測(cè)試性能(17.34%)有一定的提升，這個(gè)等價(jià)于在student network上使用hard label來訓(xùn)練。第四行和第五行使用T/S 算法，在同樣數(shù)據(jù)量上，soft label (16.66%)要優(yōu)于hard label (17.34%)。如果將訓(xùn)練student network的數(shù)據(jù)增加到3400小時(shí)，性能會(huì)有進(jìn)一步的提升(16.11%)。

　　對(duì)于成年人/小孩來說，實(shí)驗(yàn)首先將375小時(shí)中的女性以及兒童數(shù)據(jù)去除，獲得adult male 模型。實(shí)驗(yàn)發(fā)現(xiàn)，小孩的識(shí)別性能很差，分別是39.05和34.16。與干凈/帶噪相同，在使用T/S算法后，能夠在性能上獲得進(jìn)一步的提升，并且數(shù)據(jù)擴(kuò)大對(duì)于性能是有優(yōu)勢(shì)的。

　　2.3 Paper 3

　　第三篇文章是來自香港科技大學(xué)和谷歌的文章。這篇文章主要的想法和創(chuàng)新點(diǎn)是將Factorized Hidden Layer (FHL)的自適應(yīng)方法應(yīng)用于LSTM-RNN。

　　對(duì)于FHL adaptation算法來說，它在說話人無關(guān)的網(wǎng)絡(luò)權(quán)重WW基礎(chǔ)上加上一個(gè)說話人相關(guān)的網(wǎng)絡(luò)權(quán)重，從而獲得說話人相關(guān)的網(wǎng)絡(luò)權(quán)重WsWs。根據(jù)公式(7)，我們可以看到，這個(gè)SD transformation是根據(jù)一組矩陣基(B(1),B(2),...,B(i))(B(1),B(2),...,B(i))通過線性插值得到。同樣，對(duì)神經(jīng)網(wǎng)絡(luò)的偏置bb也可以進(jìn)行相應(yīng)的說話人相關(guān)變換。

　　但是，在實(shí)際實(shí)驗(yàn)中，由于矩陣基會(huì)帶來大量的參數(shù)引入，這些矩陣基都被限制為rank-1，因此公式(7)可以進(jìn)行一些變換，如上圖右邊所示。由于矩陣基為rank-1，那它可以被表示成一個(gè)列向量γ(i)γ(i)和一個(gè)行向量ψ(i)Tψ(i)T相乘的形式。同時(shí)，插值矢量被表示成對(duì)角矩陣DsDs的形式。這樣便獲得三個(gè)矩陣ΓΓ、DsDs和ΨTΨT連乘的方式，方便模型訓(xùn)練。

　　本文還介紹了speaker-dependent scaling。它將LSTM記憶單元中的激活值進(jìn)行speaker-dependent scale。通過公式帶入，發(fā)現(xiàn)，只要對(duì)每一個(gè)說話人學(xué)習(xí)zszs即可以進(jìn)行說話人相關(guān)的scaling。但是這種算法存在一個(gè)問題，zszs的維度與網(wǎng)絡(luò)的層寬相關(guān)，參數(shù)量大。因此，一種subspace scaling的方法被提出，它通過一個(gè)固定維度的low-dimensional vector vsvs來控制zszs，vsvs的維度遠(yuǎn)小于zszs，從而大大地減少了說話人相關(guān)的參數(shù)量。

免責(zé)聲明：本文來源于網(wǎng)絡(luò)，本文僅代表作者個(gè)人觀點(diǎn)，本站不作任何保證和承諾，若有任何疑問，請(qǐng)與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明來源)

国产成人精品久久二区二区,国产精品碰碰现在自在拍,俄罗斯一级成人毛片,337p欧洲大胆艺术,亚洲不卡护士高清av在线播放,国产短视频精品区第一页,老师喂我乳,我脱他她胸罩

我的位置：

語音識(shí)別技術(shù)之自適應(yīng)技術(shù)

評(píng)論comment

復(fù)旦大學(xué)教室煥新升級(jí)！雷曼光電重構(gòu)高校數(shù)字化教學(xué)場(chǎng)景

ISLE 2025 | MIP LED 一體機(jī)首發(fā)，青松光電誠邀品鑒！

DAV專訪廣州艾索技術(shù)：創(chuàng)新驅(qū)動(dòng)下的信創(chuàng)市場(chǎng)深耕與智能化升級(jí)

行業(yè)資訊 | 立足消費(fèi)者體驗(yàn)，飛利浦商顯賦能門店精細(xì)化管理

我的位置：

share

相關(guān)閱讀related

評(píng)論comment