Parametric Statistical Methods for Comparing the Performance of Classification Algorithms on Imbalanced Data by AUC Measure

論文翻譯標題: 用AUC比較兩分類方法於不平衡資料檔分類效能之有母數檢定方法
  • 王 柏傑

學生論文: Doctoral Thesis

摘要

分類演算法之衡量測度,一直都是資料探勘和機器學習中不可或缺的一部份。然而,部分衡量測度如ROC,因為其原先的圖形特性,使得分類演算法在採用此測度衡量分類效能後,卻難以在多種分類方法間,做有效的有母數統計檢定來比較優劣。因此,本研究先探討現今分類演算法間,在不平衡資料檔下有哪些常用的衡量測度,並闡述了測度ROC特有的視覺化特性,然而當兩分類演算法在視覺化上的ROC曲線,若非呈現支配的現象,反而產生交叉的趨勢,則容易讓使用者難以利用此曲線測度比較分類方法間之優劣。因此計算曲線下佔比面積AUC,便是另一數值化測度,得以讓使用者以數值化的型態比較兩分類方法的優劣。但在現今多數文獻中比較兩分類演算法之分類效能AUC時,因為其數值化的統計分配難以得知,只能以無母數檢定法如Wilcoxon Test來比較其AUC優劣,造成了在統計檢定力相較於有母數檢定法有不足的現象,容易造成顯著性檢定的判斷失誤。因此,本研究在多種分類方法於不平衡資料檔做AUC之分類效能評估時,透過交叉驗證的方式,切割等分數至中央極限定理所需之樣本數,來發展出一套成對有母數檢定法,使統計檢定之檢定力上升,進一步對兩分類方法之AUC分類效能,做顯著性統計檢定。其中切割等分數的部分,本研究更搭配了偏態檢定,檢驗在等分數小於30的情況下,是否呈現對稱,以減少中央極限定理所需切割等分數。最後便以此等分數,搭配本研究所發展之成對有母數檢定法,來比較兩分類方法於不平衡資料檔,AUC之分類效能是否有顯著差異,同時與傳統無母數檢定法比較,是否呈現檢定力上的差異,及顯著性判斷的不同。最後透過實證後發現,本研究之成對有母數檢定法相較於無母數Wilcoxon Test,的確有檢定力上的優勢,然而在顯著性判別上的結果,在大多資料檔下卻無明顯不同。
獎項日期2020
原文English
監督員Tzu-Tsung Wong (Supervisor)

引用此

'