結合多項式馬可夫貝氏分類器與廣義狄氏分配參數估算方法於基因序列分類之研究

  • 陳 朝友

學生論文: Master's Thesis

摘要

隨著多源基因體與定序技術的發展,也更加重視分類器在處理高維度基因序列資料的效能。由於基因序列在資料前置處理後會產生大量的特徵,因此需要透過特徵分組來降低處理時的維度。本論文採用多項式馬可夫貝氏分類器,不僅是因為馬可夫貝氏分類器在運算效能上的優勢,結合馬可夫模型能夠改善簡易貝氏分類器的條件獨立假設的使用限制,而多項式機率模型考量了特徵的出現次數,能夠提升分類正確率的表現。此外,本論文加入了廣義狄氏先驗分配,並以參數估算取代耗時的尋找參數過程,而先驗分配參數的估算是以特徵組為單位進行。從特徵組中計算出共變異數矩陣,依序從共變異數矩陣的每一列挑選可用的統計量,再利用參數估算的方法得到參數,並且挑選最大的參數組合,這樣的結合方式可以維持分類正確率並降低運算的複雜度。實驗結果顯示本研究方法相較於RDP及使用狄式分配尋找參數的方法能夠大幅降低運算時間,分類正確率高於RDP分類器,但低於使用狄式分配尋找參數的方法。
獎項日期2014 七月 10
原文???core.languages.zh_ZH???
監督員Tzu-Tsung Wong (Supervisor)

引用此

'