Attentively-Coupled Long Short-Term Memory for Audio-Visual Emotion Recognition

論文翻譯標題: 應用注意力機制的耦合長短記憶模型於影音情緒辨識
  • 徐 嘉昊

學生論文: Doctoral Thesis

摘要

隨著人機互動產品的不斷演進,?多智慧型產品能輔助我們的日常生活所需,例如智慧音箱、家用機器人及自駕車等。而在與這些產品互動時,能加入對使用者的情緒辨識,將使這些產品更加人性化,及增加互動的延展性。目前已有越來越多關於情緒辨識的研究。在現存的影音模態情緒辨識中,僅少數系統對於情緒表達作分段辨識,從分段情緒呈現中找到情緒表達更細部的起伏變化。 本論文以情緒表達的分段段落作為辨識單位,捕捉語者的臉部表情以及聲音訊號,考慮臉部及音訊上的不同特徵加以處理及分析,且考慮分段訊號的前後依賴關係,並從分段中找到對整句情緒表達影響較大的重要片段,給予該片段在整體辨識時較高的專注力,提升各分段的辨識準確率。 不同於單模態情緒辨識,多模態的情緒辨識架構中需考慮不同模態資料的混合方式,本論文著重於如何改進混合方式以提升分段情緒辨識的效能。本論文使用耦合長短記憶模型做資料的混合並加入注意力機制,於每一次辨識模組的混合單元運算時序上。耦合單元能於單元更新時同時考慮兩模態訊號特徵的互相影響關係,更新時加入各時序分段的專注程度給予模型專注力,並學習訊號的長期依賴關係。 從最後實驗可看出,相較於其他現存傳統的影音情緒辨識系統,本論文提出的影音情緒辨識系統準確率可達到70 1%,在各架構中表現突出。證明本論文提出的注意力機制的耦合長短記憶模型,不論在多模態訊號混合,或者是分段注意力機制的情緒辨識上,都能有很好的效果。
獎項日期2019
原文English
監督員Chung-Hsien Wu (Supervisor)

引用此

'