用線性概約法來推導F測度抽樣分配以衡量分類方法在不平衡資料檔上效能之研究

Translated title of the thesis: A Linear Approximation Approach of F-Measure for Evaluating the Performance of Classification Algorithms on Imbalanced Data Sets
  • 陳 玟靜

Student thesis: Master's Thesis

Abstract

面對龐大的資料量,現今通常使用分類正確率來當作評估分類方法的好壞,因為分類正確率是最方便且直接的指標之一,然而,在不平衡資料檔的情況下,分類方法會傾向於將大部分要預測的資料預測為多數的類別值,因此當數量較少的類別值是所要關注的焦點時,使用分類正確率去評估分類方法是不恰當的,所以一般會使用整合召回率和精確率的F測度來評估分類方法在不平衡資料檔上的效能,但由於召回率和精確率具有相依性,且F測度為此二者的調和平均,所以目前並無適當的有母數統計方法來比較不同分類方法的F測度是否有顯著差異,本研究將以二維常態分配去推導兩者結合後的F測度之抽樣分配,進而應用假設檢定去比較兩個分類方法在單一資料檔或是多個資料檔上得到的F測度差異量的是否具有顯著性差異,檢定兩個分類方法間的分類表現。在實證研究的部分,主要是針對不平衡資料檔使用F測度去當作統計檢定的評估測度,選用四個分類方法:簡易貝氏分類法、多層感知器、k最近鄰分類法、基於規則分類法,對十個不平衡資料檔進行兩兩的效能比較,結果顯示簡易貝氏分類法在不平衡資料檔下的表現較差,且與無母數Wilcoxon符號等級檢定作為評估測度來比較,可以發現本研究有母數的方法較能顯現出分類方法間在不平衡資料檔上的效能差異。
Date of Award2018 Jul 9
Original languageChinese
SupervisorTzu-Tsung Wong (Supervisor)

Cite this

'