A Local Information Based Synthetic Minority Oversampling Technique for Imbalanced Dataset Learning

論文翻譯標題: 以基於局部空間訊息量之SMOTE產生虛擬樣本處理類別不平衡資料集
  • 廖 書緯

學生論文: Doctoral Thesis

摘要

在這個科技高速發展的社會中,人工智慧、物聯網等名詞大家耳熟能詳,而架構出這社會主流的基層即為數據,因此在各式各樣不同型態的數據集合中,需要有不同或是特殊的方法用以應對分析。然而在進行數據分析時,若是遇到數據當中不同類別的樣本數量比例失衡,就會導致類別不平衡的學習問題。根據過往的分類學習演算法,對於高度類別不平衡資料的學習,常會將少數類別的資料分類錯誤,而此些少數類別資料相較於多數類別資料,代表重要的意義或巨大成本。因此,在類別比例差異懸殊的資料中提升少數類別的分類正確率已然成為重要的議題。虛擬少數類別過抽樣技術(synthetic minority oversampling technique SMOTE)是常用於解決類別不平衡問題的方法之一,其方法是任取一個少數類別樣本做為種子樣本,並找出周遭同為少數類別樣本後任取其一作為選取樣本後,並在兩個少數類別樣本之間生成虛擬樣本。然而本研究則考慮多數類別樣本與少數類別樣本以及少數類別樣本和少數類別樣本之間的影響力,提出基於局部空間訊息量之SMOTE(Local Information Index SMOTE LII-SMOTE),當不平衡資料集經由本文所提出之方法生成虛擬樣本後,其少數類別樣本的評估指標相較其他SMOTE能有效提升。
獎項日期2019
原文English
監督員Der-Chiang Li (Supervisor)

引用此

'