在各式各樣社群媒體類型的網路平台紛紛上線營運,還有智慧型手機的普及,這些變化改變了大家使用網路的方式,使用者從單純地看網頁,從網路上搜尋和取得自己所需的資料,開始成為資訊的提供者。眾多的網路用戶開始願意且熱衷於把自己的意見分享出去,因此網路上有著大量的文本資料。十幾年前人們就已經聽過:「這是個資訊爆炸的時代」這句話,而現在由於人人都是訊息的提供者,和十幾年前相比現今網路上的資料量比之前更加龐大。 這些由使用者生成的內容常常含有一些觀點、評價等訊息,而這些訊息往往可以轉換成有價值的資訊,讓個人或公司團體來利用。但網路上的文本資料眾多無法以人力方式去收集和分析,因此如何讓機器能夠幫忙分析這些文本是近年來在資訊擷取領域重要議題之一。 本研究實作一個將循環神經網路結合卷積神經網路的深度學習網路架構,實驗在搭配已預先訓練好的詞向量表的狀況下是否能完成文本分類的目標。其中的挑戰在於須將詞向量當作靜態的查找表不須更新,神經網路自身訓練時可以忽略掉因缺字而形成的語義不連貫等雜訊,進而完成正確分類。實驗結果顯示本研究提出的循環卷積式?經網?架構執行各資料集的文本分類任務時,可取得和其他文獻相符的準確率,因此可證明此架構的可行性。且有以下優點,1 所有資料集的準確率高於循環神經網路架構,2 相對於卷積神經網路架構,收斂後的結果較穩定。3 相對於循環神經網路架構在訓練上使用較少的Epoch便可收斂結果。但本研究架構的缺點為每一 Epoch的花費時間太長,不利於訓練文本長度較長的資料集。
Date of Award | 2017 Sept 1 |
---|
Original language | Chinese |
---|
Supervisor | Ming-Shi Wang (Supervisor) |
---|
基於循環卷積式神經網路的文件分類模型實作
淙傑, 溫. (Author). 2017 Sept 1
Student thesis: Master's Thesis