Mask-based Speech Enhancement Considering Speech Quality and Acoustic Confidence for Noisy Speech Recognition

論文翻譯標題: 應用語音品質與聲學可信度之遮罩語音降噪於吵雜語音辨識
  • 林 允文

學生論文: Doctoral Thesis

摘要

近年來可連網之設備急遽上升,?多設備皆能以自動語音辨識系統(Automatic Speech Recognition)與人們互動,使用語音操作的方式也漸漸受到大眾接受,但是在生活環境中存在著?多噪音,如何在吵雜環境中利用語音降噪並有效地改善音訊品質,提升語音辨識就顯得相當重要。另外現行單純使用均方差作為損失函數的降噪模型,雖然可以有效降噪,但降噪後的結果與其語音辨識之結果間仍有一段落差。 因此在本論文中,主要貢獻為使用考量語音品質和聲學可信度之遮罩進行語音降噪以提升吵雜語音辨識之字錯率(Word Error Rate WER)。首先我們抽取語者特徵、音素特徵、噪音特徵,然後將這些相關特徵與吵雜音訊作為遮罩生成模型之輸入,使得遮罩完之降噪音訊有較好的音訊品質。另外,我們利用Kaldi自動語音辨識系統所得到之音素可信度、以乾淨音訊訓練之音素判斷器,配合均方差及STOI和PESQ之損失作為損失函數之訓練方式,並對遮罩生成模型進行修正,使得訓練完成之模型與基準模型(baseline)相比,成?地提升降噪後的音訊品質與降低語音辨識中的WER。 在實驗方面,我們選擇使用TIMIT作為語音資料與noiseX-92作為噪音資料,並以訊號雜訊比-10、-5、0、5和10dB混合音訊。在以均方差、音素判斷器之損失和STOI與PESQ之損失,三者相乘的降噪結果中相比於基礎模型,不只提升STOI 2 14%和PESQ 7 22%;另外相比於基礎模型字錯率33 72%和吵雜音訊字錯率29 08%,本實驗模型最低字錯率21 59%,因此本研究對吵雜狀況下的語音辨識有相當大的改善。
獎項日期2020
原文English
監督員Chung-Hsien Wu (Supervisor)

引用此

'