EMVGAN: Emotion-Aware Music-Video Common Representation Learning via Generative Adversarial Networks

論文翻譯標題: 具情緒感知之音樂及影片共同特徵空間生成模型
  • 蔡 雨芝

學生論文: Doctoral Thesis

摘要

音樂能強化我們對於影片及影像的情緒反應,影片及影像亦會讓我們對於音樂的情緒感受更強烈。跨模態檢索能為特定影片推薦合適的音樂,反之,亦能為音樂搭配契合的影片片段。然而,不同模態資料的分佈及呈現方式相當不同,導致模態之間產生異質性的隔閡,也使跨模態共同特徵空間之學習具有相當的挑戰性。在本篇論文中,我們提出一個具情緒感知之音樂及影片共同特徵空間生成模型,來建立出音樂及影片之間的情緒共同特徵空間,並解決音樂及影片之異質性隔閡。實驗結果顯示,我們所提出的模型能學習到跨模態之情緒共同特徵,並證明其效能勝過於現有之相關研究。此外,我們也利用跨模態共同特徵進行音樂與影片之雙向跨模態檢索。我們邀請四十位受試者進行跨模態檢索之主觀評估,受試者認為以跨模態共同特徵檢索之音樂影片對於音樂及畫面的契合程度及情緒關聯性,與官方釋出的音樂影片具有相似的評分。
獎項日期2020
原文English
監督員Wei-Ta Chu (Supervisor)

引用此

'