交叉驗證評估法對分類方法效能估計值之影響

Translated title of the thesis: The Impact of Cross-Validation Methods on the Performance Estimates of Classification Algorithms
  • 魏 敏如

Student thesis: Master's Thesis

Abstract

在資料探勘領域中,大多數研究在使用K等分交叉驗證法來評估分類方法的效能時,大多會認為所產生正確率的變異情形太大,因此發展出不同評估法來進行隨機切割,希望能夠讓分類正確率的變異數降低。但使用這些不同評估法所得到的預測結果可能有相依的情況,若忽略掉此相依性,有可能影響分類方法間的效能比較,因此本研究的目的在於,提出判斷兩評估法處理後所得的分類正確率之間是否會產生相依性,以及發展統計方法來比較兩相依評估法的成效差異。首先,是提出使用單一筆資料來判斷二元變數是否為獨立的方法,以檢驗兩評估法間所得的預測結果是否存有相依性,並發展存在相依性的統計檢定方法。當檢驗結果存在相依性時,即使用本研究所發展的統計檢定方法去比較不同評估法處理後的單一或多重資料檔,在同個分類方法下所得的分類正確率差異是否有顯著的不同,且此統計檢定方法僅侷限於平均分類正確率。研究中將根據所發展出的統計檢定去對不同評估法所得預測結果進行比較,選用了四種評估法對資料檔進行處理,採用最近鄰居法與決策樹分類方法,透過統計檢定去驗證不同評估法處理後所得分類正確率產生的顯著性。實驗結果顯示,使用本研究發展出的統計檢定方法,發現大部分的資料檔經不同評估法處理後,其預測結果存在相依性,且分類正確率不會有顯著的不同。另外,以往的研究顯示分層交叉驗證法對於不平衡資料檔上的成效較明顯,因此本研究亦對不平衡資料檔進行檢驗。由於有母數統計檢定上有它的侷限性,在平均分類正確率的變異數與不平衡資料檔效能評估時,並未發展新的統計檢定方法,將使用無母數統計檢定去作分析,其結果也沒有顯著的差異。可得到不論在一般資料檔的單一或多重資料檔以及不平衡資料檔的多資料檔上,不同評估法處理後所得的結果並沒有顯著差異。
Date of Award2018 Jun 19
Original languageChinese
SupervisorTzu-Tsung Wong (Supervisor)

Cite this

交叉驗證評估法對分類方法效能估計值之影響
敏如, 魏. (Author). 2018 Jun 19

Student thesis: Master's Thesis