不平衡資料檔下比較兩分類演算法效能之統計方法

  • 林 哲玄

學生論文: Master's Thesis

摘要

在資料探勘的領域中,分類演算法的表現是在進行資料預測時一個很重要的因素,現在大多的研究是以分類正確率去評判分類演算法的好壞,而分類正確率確實是最能直接看出分類演算法好壞的一個指標,但當面對分佈不平衡的資料檔或存在著部份類別值有著較高預測錯誤成本的分類預測問題時,利用分類正確率作為評估依據而建議使用的分類演算法將會產生較不合適的分類預測結果,此類的分類演算法會將大部分的結果預測成訓練資料中類別值數量較多的部分,但少部分且較為關注的類別值將會被預測錯誤,但因為其佔資料總筆數較少,所以仍會有較高的分類正確率,因此本研究主要是要使用召回率(Recall)、精確率(Precision)與兩者結合等評估測度,並應用統計檢定去探討當使用這些測度在評估不平衡資料檔時,是否能找出較適合的分類演算法。本研究利用統計推導方法,推導出召回率與精確率之抽樣分配服從常態分配,並利用假設檢定去比較兩分類演算法之表現是否有顯著差異,而在兩測度整合的方面,先利用二維常態去推導兩者結合後會服從常態分配,再去檢定兩兩分類演算法的分類表現。在實證研究中,主要針對不平衡資料檔做測試,並使用召回率、精確率與整合測度去作為評估測度,在簡易貝氏、k最近鄰分類、多層感知器與基於規則分類,這四個分類演算法中,兩兩進行統計檢定,去比較其差異量的顯著性,結果顯示,使用本研究推導的統計方法,可以在不平衡資料檔下用來比較不同分類演算法效能的差異。
獎項日期2016 七月 6
原文Chinese
監督員Tzu-Tsung Wong (Supervisor)

引用此

不平衡資料檔下比較兩分類演算法效能之統計方法
哲玄, 林. (Author). 2016 七月 6

學生論文: Master's Thesis