人耳聽覺濾波器應用於強健性語音辨識系統

Translated title of the thesis: Application of Human Auditory Filters to the Robustness for Speech Recognition System
  • 葉 俊宜

Student thesis: Master's Thesis

Abstract

在本篇論文中,提出一個基於人耳聽覺特性的聽覺濾波器,利用此聽覺濾波器去應用在特徵演擷取上,進而提出一個特徵值擷取算法使用於強健語音的辨識系統上。在此篇研究中,語音訊號將會經由一個新的特徵演算法稱做珈瑪啁啾調頻率倒頻譜係數(Gammachirp Frequency Cepstral Coefficient GcFCC)被特徵化,與現在普遍使用的梅爾倒頻譜係數(Mel Frequency Cepstral Coefficient MFCC),以及改良前的珈瑪調頻率倒頻譜係數(Gammatone Frequency Cepstral Coefficient GFCC)此兩種方法相比,MFCC、GFCC使用複利葉轉換後經過各自的濾波器,分別為梅爾三角濾波器(Mel Triangle Filterbank)和珈瑪調濾波器(Gammatone Filterbank)來產生頻譜,而GcFCC則是使用基於人耳基底膜的濾波器(Gammachirp)來產生頻譜,因為梅爾三角濾波器、加碼調濾波器與人耳基底膜濾波器的不同轉換特性使得GcFCC產生的頻譜可以更準確的模仿人耳聽覺的特性以及改善雜訊的干擾。此外,本篇論文使用 HTK 工具在訓練以及測試時產生隱藏式馬可夫模型(Hidden Markov Model HMM)。本篇論文使用AURORA 2 0 做為訓練以及測試時的資料庫,測試使用 AURORA 2 0 裡的 testA 做測試資料,雜訊分別有地鐵、人聲、汽車、展覽廳,辨識結果顯示出所提出的 GcFCC方與MFCC在雜訊比範圍-5dB 到 20dB 裡,平均四種雜訊的語音辨識率改善了6 %,並與珈瑪調頻率倒頻譜係數(Gammatone Frequency Cepstral Coefficient GFCC)做比較,平均語音辨識率與GFCC相比約改善5 %。
Date of Award2016 Sep 10
Original languageChinese
SupervisorSheau-Fang Lei (Supervisor)

Cite this

'