以相依變量增生小類別樣本技術學習不平衡資料

Translated title of the thesis: The Dependent-variable SMOTE for learning imbalanced data-set
  • 陳 彥均

Student thesis: Master's Thesis

Abstract

不平衡資料出現在現實生活中的很多領域,近年來這種資料的學習方法也受到很多學者的研究。其中增生小類別樣本技術(Synthetic minority over-sampling technique SMOTE)是一個被廣泛使用的資料分析的前處理技術,它通過增加合成的少量類別樣本,以平衡不同類別的樣本數,藉以提高分類方法對於小類別的預測準確率。過往的研究中,為進一步提升SMOTE所生成的樣本品質,?多延伸版本被開發出來,例如邊界SMOTE(Borderline SMOTE B-SMOTE)、安全等級SMOTE (Safe-Level SMOTE SL-SMOTE)、以及局部鄰近區SMOTE (Local-Neighborhood SMOTE LN-SMOTE) 等,均在虛擬樣本的落點處進行探討。然而,這些方法卻仍基於SMOTE,在產生各個屬性的虛擬值時都是獨立生成的,並未考慮屬性間的相關性。因此,本研究針對此部分,提出一個考量屬性間相關性的虛擬樣本產生法,以進一步提升SMOTE產生的樣本品質,而提高分類方法對於少量類別的分類準確率,該方法目前命名為相依變量增生小類別樣本技術 (Dependent-Variable SMOTE DV-SMOTE)。最後通過實驗說明DV-SMOTE在改善不平衡資料的分類效果比SMOTE和延伸版本B-SMOTE,SL-SMOTE和LN-SMOTE來的佳。
Date of Award2018 Jun 12
Original languageChinese
SupervisorDer-Chiang Li (Supervisor)

Cite this

'